tester.nt, on 07 May 2015 - 08:39, сказал:
Объединение усилий по сбору и организации БД по футболу
#21 OFFLINE
Добавлено 07 May 2015 - 08:51
#22 OFFLINE
#23 OFFLINE
Добавлено 07 May 2015 - 09:23
tester.nt, on 07 May 2015 - 08:39, сказал:
#24 OFFLINE
Добавлено 07 May 2015 - 09:44
tester.nt, on 06 May 2015 - 10:10, сказал:
Предлагаю начать с ответов на следующие вопросы:
- Какие именно данные нам нужны?
- Откуда их брать?
1. Наборы данных
Пока остановился на 3 таблицах информации по матчу и остальных - по коэффициентах:
- Общая информация о матче (Страна, Лига, Сезон, Дата, Время, "Семестр", Раунд, Кол-воЗрителей, Судья, Погода, КомандаДом/Гость, ГоловДом/Гость, Голов1таймДом/Гость, Голов2таймДом/Гость);
- Статистика матча (наборы показателей по Ударам, ВладениюМячем, Дриблингу, ВоздушнымДуелям, ОтборамМяча, Угловым, Фолам, Офсайдам);
- Голы (Игрок, Команда, Минута, ТекущийСчет, НомерГола, Тайм, Заметка(пенальти, гол в свои ворота, ...), РазницаГолов и показатель, о котором писал здесь);
+
- Таблицы по 1Х2, ТоталБМ и т.д.
2. Источники данных
Информация по матчу и по статистике берется с www.whoscored.com. Пока инфы лучше не нашел. Если знаете что-то получше, с более полной статистикой, которая могла бы пригодится - пишите.
Информация по коэффициентах берется с www.betexplorer.com. Оттуда тянется все, что есть в наличии. Правда, на www.oddsportal.com есть немного больше + кроме наборов кэфов на матч, они еще и по таймам дают (что очень даже интересно).
Остается найти источник лайв-коэффициентов. Есть www.nowgoal.com, но сайт немного замысловатый. Если не найдется другого архива, то буду качать оттуда.
#25 OFFLINE
Добавлено 07 May 2015 - 11:49
andre48, on 07 May 2015 - 09:23, сказал:
Вернусь ещё к формированию текущих таблиц. Я когда-то ради интереса создал структуру такой. За основу брал базы с football-data.co.uk. Проделав некоторую начальную работу, можно ходить по таблице в любую сторону, меняя сезоны, лиги или раунды одним кликом. Обработка фильтра занимает 1 секунду при базе в 150 000 матчей с немалым количеством расчитываемых по формулам полей.
Потом буду возле ПК и скину картинку как это выглядит визуально. А вы мне напишите конкретный пример тех расчетов, которые вам было бы интересно увидеть.
#26 OFFLINE
Добавлено 07 May 2015 - 13:38
tester.nt, on 07 May 2015 - 11:49, сказал:
Screen Shot 2015-05-07 at 15.28.16.png 98.55K 2 Количество загрузок
А вот другой рабочий лист, на графиках которого отображается ROI по 1Х2 и ТоталБМ. Кликая на кнопочки (это фильтры), мы регулируем выборку (лиги, команды, домашние/выездные или все игры, сезон начала отсчета). Скорость обновления фильтров здесь 2-3 секунды.
Screen Shot 2015-05-07 at 15.30.03.png 157.63K 2 Количество загрузок
#27 OFFLINE
Добавлено 07 May 2015 - 15:55
#28 OFFLINE
Добавлено 07 May 2015 - 16:32
Отредактировано Bambuk, 07 May 2015 - 16:33.
#29 OFFLINE
Добавлено 07 May 2015 - 17:59
Bambuk, on 07 May 2015 - 16:32, сказал:
Я не знаю, какие именно вы проводите расчеты с данными и поэтому не могу точно сказать, какая схема работы получится в конечном итоге.
Я расскажу немного о процессе работы, может для вас это кое-что прояснит.
Основным инструментом навигации по данным являются сводные таблицы, сводные графики и PowerView (это типа смесь сводной таблицы и графиков). Сами данные хранятся в табличной форме внутри PowerPivot. В табличной форме - это означает, что каждый столбец - это отдельная характеристика, а каждая строка - это отдельная запись, состоящая из набора характеристик (вам это может быть очевидно, но напишу, может другим будет интересно). Ни шага вправо, ни шага влево. Только табличная форма.
Внутри самого PowerPivot проводить изменения с теми данными, которые мы загрузили нельзя. Но, для расчета дополнительных характеристик или показателей существуют два варианта: это создание вычисляемого столбца или вычисляемого поля. Туда можно вводить формулы и использовать для расчетов значения из тех столбцов, которые у нас были изначально. Если вычисляемый столбец визуально появляется рядом с уже существующими, то значение вычисляемого поля можно увидеть только в рамках сводной таблицы или графика. Не буду вдаваться в детали, если дойдете до этого момента, то все увидите сами.
Справочная информация есть. Формулы в PowerPivot называются DAX (Data Analysis eXpressions). Ниже даю две ссылки, а дальше по ним можно найти все остальное.
Краткое руководство. Обучение основам DAX за 30 минут
Спецификация синтаксиса DAX для Power Pivot (DAX)
#30 OFFLINE
Добавлено 07 May 2015 - 18:16
andre48, on 07 May 2015 - 15:55, сказал:
Кстати, производительность в плане быстродействия вас устраивает?
#31 OFFLINE
Добавлено 07 May 2015 - 19:06
tester.nt, on 07 May 2015 - 18:16, сказал:
#32 OFFLINE
Добавлено 07 May 2015 - 19:38
#33 OFFLINE
Добавлено 07 May 2015 - 21:05
tester.nt, on 06 May 2015 - 22:45, сказал:
Расскажите о структуре базы: какие есть таблицы с какими полями и как между собой связаны. Ну и в чем она храниться.
tester.nt, on 07 May 2015 - 09:44, сказал:
Пока остановился на 3 таблицах информации по матчу и остальных - по коэффициентах:
- Общая информация о матче (Страна, Лига, Сезон, Дата, Время, "Семестр", Раунд, Кол-воЗрителей, Судья, Погода, КомандаДом/Гость, ГоловДом/Гость, Голов1таймДом/Гость, Голов2таймДом/Гость);
- Статистика матча (наборы показателей по Ударам, ВладениюМячем, Дриблингу, ВоздушнымДуелям, ОтборамМяча, Угловым, Фолам, Офсайдам);
- Голы (Игрок, Команда, Минута, ТекущийСчет, НомерГола, Тайм, Заметка(пенальти, гол в свои ворота, ...), РазницаГолов и показатель, о котором писал здесь);
+
- Таблицы по 1Х2, ТоталБМ и т.д.
Информация по матчу и по статистике берется с www.whoscored.com. Пока инфы лучше не нашел. Если знаете что-то получше, с более полной статистикой, которая могла бы пригодится - пишите.
Информация по коэффициентах берется с www.betexplorer.com. Оттуда тянется все, что есть в наличии. Правда, на www.oddsportal.com есть немного больше + кроме наборов кэфов на матч, они еще и по таймам дают (что очень даже интересно).
Остается найти источник лайв-коэффициентов. Есть www.nowgoal.com, но сайт немного замысловатый. Если не найдется другого архива, то буду качать оттуда.
Вкратце:
У меня в моей базе детальнее разделение таблиц чем у вас: Лиги, Страны, Участники, СпортивныеСобытия - у меня в базе это 4 отделные таблицы, фактически они базовые- справочные.
Главной из них является таблица СпортивныеСобытия, которая характеризуется ДатойСобытия, КомандойХозяином (ссылка на Участники), КомандойГостем (ссылка на Участники), Лигой (в рамках которой это спортивное событие, ссылка на Лигу, Лига в свою очередь имеет ссылку на Страну) и признак ЭтоПлейофф (чтобы отличать какое события на вылет, какое просто чемпионат)
Потом уже идут так называемые Регистры сведений, ну или говоря по простому таблицы с более часто изменяющейся инфой:
1) ЗначенияРезультатов (в ней поля СпортивноеСобытие, КоличествоГоловХозяина , КоличествоГоловГостя (в 1,2 тайме, в экстратайме, в серии пенальти и общее количество голов)
2) ГолыПоМинутам (СпортивноеСобытие, Участник,НомерГолаУчастника, Минута, МинутаСКомпнесированнымВременем, булево признак ЭтоПенальти, булево признак ЭтоАвтоГол, ФазаМатча (т.е. 1тайм это или 2 тайм или экстра тайм).
3) КоэффициентыНаСобытия (СпортивноеСобытие,ТипКоэффициента (ссылка на соответсвующую таблицу, например 1X и т.д.), ИсточникКоэффициента ( например Бетфейр , Бет365 и т.д.)), Значение (само значение коэффицента)
4) СтатистикаСобытий ( в ней опять же СпортивноеСобытие и различные параметры угловые, удары, фолы и тд, то что есть на футбол.дата.со.юк)
5) Сезоны (Лига, Наименование, ДатаНАчалаСезона, ДатаОкончания)
основа примерно такая
База на 1С по факту представляет собой базу на MS SQL. Если мне что то нужно высчитать, я просто пишу SQL запрос, рассчитываю и вытаскиваю данные.
А основная проблемма сбора инфы с разных источников это пресловутая проблема с разными названиями команд, лиг и т.д. хотя можно их сопоставлять как то по символьно или заводить словари, но это дело требует тщательной проверки потом).
ПС: В новых версиях Excel уже нет ограничения на количество строк на одном листе?
Отредактировано Пешеход, 07 May 2015 - 21:12.
#34 OFFLINE
Добавлено 07 May 2015 - 21:42
andre48, on 07 May 2015 - 19:06, сказал:
А я обхожусь всего лишь виртуальной машиной с установленными Win8 и Excel13, на которую выделено не больше половины ресурсов моего бука
#35 OFFLINE
Добавлено 07 May 2015 - 22:08
andre48, on 07 May 2015 - 19:38, сказал:
- Какие из этих показателей являются критерием для выборки?
Команды нам даны или мы должны их выбрать из базы, путем ограничения коэффициента и % побед и проигрышей?
Это две конкретные команды, или это выборка нескольких команд по данным критериям?
Если данные по % мы высчитываем самостоятельно, то за какой период они рассчитываются? - За какой период рассчитывается payout?
Расчет идет за прошедшее время или это прогноз на какое-то количество матчей вперед?
#36 OFFLINE
Добавлено 07 May 2015 - 22:41
Пешеход, on 07 May 2015 - 21:05, сказал:
У меня в моей базе детальнее разделение таблиц чем у вас: Лиги, Страны, Участники, СпортивныеСобытия - у меня в базе это 4 отделные таблицы, фактически они базовые- справочные.
Главной из них является таблица СпортивныеСобытия, которая характеризуется ДатойСобытия, КомандойХозяином (ссылка на Участники), КомандойГостем (ссылка на Участники), Лигой (в рамках которой это спортивное событие, ссылка на Лигу, Лига в свою очередь имеет ссылку на Страну) и признак ЭтоПлейофф (чтобы отличать какое события на вылет, какое просто чемпионат)
Потом уже идут так называемые Регистры сведений, ну или говоря по простому таблицы с более часто изменяющейся инфой:
1) ЗначенияРезультатов (в ней поля СпортивноеСобытие, КоличествоГоловХозяина , КоличествоГоловГостя (в 1,2 тайме, в экстратайме, в серии пенальти и общее количество голов)
2) ГолыПоМинутам (СпортивноеСобытие, Участник,НомерГолаУчастника, Минута, МинутаСКомпнесированнымВременем, булево признак ЭтоПенальти, булево признак ЭтоАвтоГол, ФазаМатча (т.е. 1тайм это или 2 тайм или экстра тайм).
3) КоэффициентыНаСобытия (СпортивноеСобытие,ТипКоэффициента (ссылка на соответсвующую таблицу, например 1X и т.д.), ИсточникКоэффициента ( например Бетфейр , Бет365 и т.д.)), Значение (само значение коэффицента)
4) СтатистикаСобытий ( в ней опять же СпортивноеСобытие и различные параметры угловые, удары, фолы и тд, то что есть на футбол.дата.со.юк)
5) Сезоны (Лига, Наименование, ДатаНАчалаСезона, ДатаОкончания)
основа примерно такая
Спасибо что ответили.
У вас база больше нормализирована, что свойственно SQL-хранилищам. А при работе с PowerPivot и другими подобными программами частым явлением является денормализация. Я пробовал и разделять, и нет. В итоге не заметил никакой разницы.
Пешеход, on 07 May 2015 - 21:05, сказал:
Excel хорошо умеет подключатся к SQL-хранилищам. Как среда быстрой обработки данных он неплохо себя показывает.
Пешеход, on 07 May 2015 - 21:05, сказал:
Думаю, что это решаемо. Словарь + небольшой скрипт, который приводит собранные названия к единому формату. Но пока у меня такой проблемы не возникало.
Пешеход, on 07 May 2015 - 21:05, сказал:
В 2013 версии ограничение в 1 млн.строк на рабочий лист. Но, если данные тянуть сразу в PowerPivot, то там вместимость возрастает на 3 порядка, потенциально до 2 миллиардов строк. Думаю, что с таким объемом работать будет там тяжело, но несколько миллионов строк у меня на виртуалке "переваривает" без проблем. Значит запас еще есть.
#37 OFFLINE
Добавлено 08 May 2015 - 06:21
tester.nt, on 07 May 2015 - 22:08, сказал:
- Какие из этих показателей являются критерием для выборки?
Команды нам даны или мы должны их выбрать из базы, путем ограничения коэффициента и % побед и проигрышей?
Это две конкретные команды, или это выборка нескольких команд по данным критериям?
Если данные по % мы высчитываем самостоятельно, то за какой период они рассчитываются? - За какой период рассчитывается payout?
Расчет идет за прошедшее время или это прогноз на какое-то количество матчей вперед?
Отредактировано andre48, 08 May 2015 - 06:22.
#38 OFFLINE
Добавлено 08 May 2015 - 06:23
tester.nt, on 07 May 2015 - 22:08, сказал:
- Какие из этих показателей являются критерием для выборки?
Команды нам даны или мы должны их выбрать из базы, путем ограничения коэффициента и % побед и проигрышей?
Это две конкретные команды, или это выборка нескольких команд по данным критериям?
Если данные по % мы высчитываем самостоятельно, то за какой период они рассчитываются? - За какой период рассчитывается payout?
Расчет идет за прошедшее время или это прогноз на какое-то количество матчей вперед?
При этом я акцентирую внимание всех на том что допустим 4-ый параметр(и прочие) который мы ищем для первичного набора может не только в разной степени влиять, но и иметь даже разные знаки корреляции---что приводит к попаданию в "непонятки" игроков (так как они думают что такая характеристика например улучшает рез по профиту а на самом деле ухудшает...при этом надо отдавать себе отчёт что положительная корреляция для самого исхода не является основополагающим критерием для принятия решения ибо положительно влияя на сам исход критерий может отрицательно влиять на профит в множестве аналогичных пар---на этом факте горят многие начинающие бетторы)
Отредактировано Bambuk, 08 May 2015 - 06:32.
#39 OFFLINE
Добавлено 08 May 2015 - 07:43
Отредактировано andre48, 08 May 2015 - 07:45.
#40 OFFLINE
Добавлено 08 May 2015 - 08:45
Отредактировано Bambuk, 08 May 2015 - 08:48.