Перепрыгнеть в содержание


* * * * * 1 голосов

Объединение усилий по сбору и организации БД по футболу


222 ответов в эту тему

#21 OFFLINE   Вулкан

    Специалист


  • Участник II
  • ПипПипПип
  • 424 сообщения
12

Добавлено 07 May 2015 - 08:51

Сообщенияtester.nt, on 07 May 2015 - 08:39, сказал:

Для нормальной сортировки (как и для других вещей) нужно диапазон с данными отформатировать как таблицу. Тогда появляется возможность создать сводную таблицу и через нее создавать запросы любой сложности в пару движений мыши. Опять же, повторюсь, Access - это хранилище данных, Excel, с некоторого времени, - self-service BI. Это продукты с разным назначением и их сравнивать неправильно. Первые - умеют хорошо хранить данные, вторые - извлекать из этих данных то, что нам нужно. Причем они рассчитаны на рядового пользователя, который не умеет ни программировать, ни писать запросы. Но, владея таким инструментом, такой пользователь может работать с данными намного эффективнее опытного бд-админа или программиста.
А на вопрос-то в начале моего поста - не в курсе ?

#22 OFFLINE   tester.nt

    Специалист


  • Участник II
  • ПипПипПип
  • 192 сообщения
61

Добавлено 07 May 2015 - 08:58

СообщенияВулкан, on 07 May 2015 - 08:51, сказал:

А на вопрос-то в начале моего поста - не в курсе ?
Насколько я понимаю, VBA встроен во всю линейку продуктов MS Office. Но это легко гуглится.

#23 OFFLINE   andre48

    Специалист


  • mp
  • 1622 сообщения
286
  • МестоположениеМосква

Добавлено 07 May 2015 - 09:23

Сообщенияtester.nt, on 07 May 2015 - 08:39, сказал:

Но, владея таким инструментом, такой пользователь может работать с данными намного эффективнее ??? опытного бд-админа или программиста.
Я уже очень давно не работаю с Excel, возможно он стал более быстрым и у него появились дополнительные возможности по обработке данных. В конечном итоге, при достаточно сложной, поэтапной обработке данных все упирается в производительность инструмента и его возможности. Например, как быстро вы формируете текущие турнирные таблицы с общим итогом и разбивкой по играм дома и в гостях с учетом числа игр, ВНП, очков, забито пропущено, место? Обычно такие таблицы формируются в самом начале обработки чтобы из них брать данные для других расчетов.

#24 OFFLINE   tester.nt

    Специалист


  • Участник II
  • ПипПипПип
  • 192 сообщения
61

Добавлено 07 May 2015 - 09:44

Сообщенияtester.nt, on 06 May 2015 - 10:10, сказал:

Хорошо, давайте пока остановимся на том, что основная проблема в сборе данных.
Предлагаю начать с ответов на следующие вопросы:
  • Какие именно данные нам нужны?
  • Откуда их брать?
P.S.: Я указал в профиле свою почту, если что - пишите )

1. Наборы данных

Пока остановился на 3 таблицах информации по матчу и остальных - по коэффициентах:
  • Общая информация о матче (Страна, Лига, Сезон, Дата, Время, "Семестр", Раунд, Кол-воЗрителей, Судья, Погода, КомандаДом/Гость, ГоловДом/Гость, Голов1таймДом/Гость, Голов2таймДом/Гость);
  • Статистика матча (наборы показателей по Ударам, ВладениюМячем, Дриблингу, ВоздушнымДуелям, ОтборамМяча, Угловым, Фолам, Офсайдам);
  • Голы (Игрок, Команда, Минута, ТекущийСчет, НомерГола, Тайм, Заметка(пенальти, гол в свои ворота, ...), РазницаГолов и показатель, о котором писал здесь);

+

  • Таблицы по 1Х2, ТоталБМ и т.д.

2. Источники данных

Информация по матчу и по статистике берется с www.whoscored.com. Пока инфы лучше не нашел. Если знаете что-то получше, с более полной статистикой, которая могла бы пригодится - пишите.

Информация по коэффициентах берется с www.betexplorer.com. Оттуда тянется все, что есть в наличии. Правда, на www.oddsportal.com есть немного больше + кроме наборов кэфов на матч, они еще и по таймам дают (что очень даже интересно).

Остается найти источник лайв-коэффициентов. Есть www.nowgoal.com, но сайт немного замысловатый. Если не найдется другого архива, то буду качать оттуда.

#25 OFFLINE   tester.nt

    Специалист


  • Участник II
  • ПипПипПип
  • 192 сообщения
61

Добавлено 07 May 2015 - 11:49

Сообщенияandre48, on 07 May 2015 - 09:23, сказал:

Я уже очень давно не работаю с Excel, возможно он стал более быстрым и у него появились дополнительные возможности по обработке данных. В конечном итоге, при достаточно сложной, поэтапной обработке данных все упирается в производительность инструмента и его возможности. Например, как быстро вы формируете текущие турнирные таблицы с общим итогом и разбивкой по играм дома и в гостях с учетом числа игр, ВНП, очков, забито пропущено, место? Обычно такие таблицы формируются в самом начале обработки чтобы из них брать данные для других расчетов.
Здесь немного другой принцип обработки данных и формировать текущие таблицы нету смысла. Намного легче выводить готовую информацию, ориентироваться на представление конечных данных. Для этого один раз выводится формула требуемого показателя, который рассчитывается на основе имеющихся данных и после мы его можем "крутить" как захотим. Напишите какой-то пример показателя или данных которые необходимо извлечь из базы а я покажу как с ним можно работать на практике.

Вернусь ещё к формированию текущих таблиц. Я когда-то ради интереса создал структуру такой. За основу брал базы с football-data.co.uk. Проделав некоторую начальную работу, можно ходить по таблице в любую сторону, меняя сезоны, лиги или раунды одним кликом. Обработка фильтра занимает 1 секунду при базе в 150 000 матчей с немалым количеством расчитываемых по формулам полей.

Потом буду возле ПК и скину картинку как это выглядит визуально. А вы мне напишите конкретный пример тех расчетов, которые вам было бы интересно увидеть.

#26 OFFLINE   tester.nt

    Специалист


  • Участник II
  • ПипПипПип
  • 192 сообщения
61

Добавлено 07 May 2015 - 13:38

Сообщенияtester.nt, on 07 May 2015 - 11:49, сказал:

Потом буду возле ПК и скину картинку как это выглядит визуально.

Прикрепленный файл  Screen Shot 2015-05-07 at 15.28.16.png   98.55K   2 Количество загрузок

А вот другой рабочий лист, на графиках которого отображается ROI по 1Х2 и ТоталБМ. Кликая на кнопочки (это фильтры), мы регулируем выборку (лиги, команды, домашние/выездные или все игры, сезон начала отсчета). Скорость обновления фильтров здесь 2-3 секунды.
Прикрепленный файл  Screen Shot 2015-05-07 at 15.30.03.png   157.63K   2 Количество загрузок

#27 OFFLINE   andre48

    Специалист


  • mp
  • 1622 сообщения
286
  • МестоположениеМосква

Добавлено 07 May 2015 - 15:55

Большинство эффективных критериев отбора отсутствует в явном виде в интернете и их надо рассчитывать по базе данных, записывать в таблицы и затем использовать в дальнейших расчетах. Как, например, можно учесть уровень "пробития" заданных фор именно этими командами и именно с командами подобного класса без расчета по базе? Более того, очень часто с использованием уже рассчитанных таблиц формируются таблицы следующего уровня, которые сами служат исходниками для следующих таблиц. Дополнительные таблицы и дополнительные поля в существующих таблицах формируются и с целью анализа эффективности результатов компьютерного расчета, оценки стабильности параметров во времени и в диапазоне коэффициентов. Эти таблицы тоже используются для дальнейших корректировок результатов компьютерного анализа. Но, конечно, с чего-то нужно начинать, поэтому можно попробовать поработать и с теми данными, которые есть в интернете в явном виде.

#28 OFFLINE   Bambuk

    Специалист


  • mp
  • 6322 сообщения
602

Добавлено 07 May 2015 - 16:32

А в PowerPivot есть справочная инфа по функциям как в екселе? А то ХЗ где брать информацию по функциям. Я как понял там же можно и рассчитывать всё (но там нет VBА в явном виде а тока через ексель как я понял....получается--придётся пихать данные то туды то сюды или я чёта не понял???).

Отредактировано Bambuk, 07 May 2015 - 16:33.


#29 OFFLINE   tester.nt

    Специалист


  • Участник II
  • ПипПипПип
  • 192 сообщения
61

Добавлено 07 May 2015 - 17:59

СообщенияBambuk, on 07 May 2015 - 16:32, сказал:

А в PowerPivot есть справочная инфа по функциям как в екселе? А то ХЗ где брать информацию по функциям. Я как понял там же можно и рассчитывать всё (но там нет VBА в явном виде а тока через ексель как я понял....получается--придётся пихать данные то туды то сюды или я чёта не понял???).

Я не знаю, какие именно вы проводите расчеты с данными и поэтому не могу точно сказать, какая схема работы получится в конечном итоге.

Я расскажу немного о процессе работы, может для вас это кое-что прояснит.
Основным инструментом навигации по данным являются сводные таблицы, сводные графики и PowerView (это типа смесь сводной таблицы и графиков). Сами данные хранятся в табличной форме внутри PowerPivot. В табличной форме - это означает, что каждый столбец - это отдельная характеристика, а каждая строка - это отдельная запись, состоящая из набора характеристик (вам это может быть очевидно, но напишу, может другим будет интересно). Ни шага вправо, ни шага влево. Только табличная форма.

Внутри самого PowerPivot проводить изменения с теми данными, которые мы загрузили нельзя. Но, для расчета дополнительных характеристик или показателей существуют два варианта: это создание вычисляемого столбца или вычисляемого поля. Туда можно вводить формулы и использовать для расчетов значения из тех столбцов, которые у нас были изначально. Если вычисляемый столбец визуально появляется рядом с уже существующими, то значение вычисляемого поля можно увидеть только в рамках сводной таблицы или графика. Не буду вдаваться в детали, если дойдете до этого момента, то все увидите сами.

Справочная информация есть. Формулы в PowerPivot называются DAX (Data Analysis eXpressions). Ниже даю две ссылки, а дальше по ним можно найти все остальное.

Краткое руководство. Обучение основам DAX за 30 минут
Спецификация синтаксиса DAX для Power Pivot (DAX)

#30 OFFLINE   tester.nt

    Специалист


  • Участник II
  • ПипПипПип
  • 192 сообщения
61

Добавлено 07 May 2015 - 18:16

Сообщенияandre48, on 07 May 2015 - 15:55, сказал:

Большинство эффективных критериев отбора отсутствует в явном виде в интернете и их надо рассчитывать по базе данных, записывать в таблицы и затем использовать в дальнейших расчетах. Как, например, можно учесть уровень "пробития" заданных фор именно этими командами и именно с командами подобного класса без расчета по базе? Более того, очень часто с использованием уже рассчитанных таблиц формируются таблицы следующего уровня, которые сами служат исходниками для следующих таблиц. Дополнительные таблицы и дополнительные поля в существующих таблицах формируются и с целью анализа эффективности результатов компьютерного расчета, оценки стабильности параметров во времени и в диапазоне коэффициентов. Эти таблицы тоже используются для дальнейших корректировок результатов компьютерного анализа. Но, конечно, с чего-то нужно начинать, поэтому можно попробовать поработать и с теми данными, которые есть в интернете в явном виде.
Видите, я не совсем представляю такую схему работы как вы описываете, а конкретный пример вы не привели. Поэтому мне сложно показать эту схему в рамках предложенного мною подхода. Ну да ладно. Как вы говорите, можно начать с чего-то другого. Но опять же, скажите какие именно возможности данного инструмента вы бы хотели увидеть?

Кстати, производительность в плане быстродействия вас устраивает?

#31 OFFLINE   andre48

    Специалист


  • mp
  • 1622 сообщения
286
  • МестоположениеМосква

Добавлено 07 May 2015 - 19:06

Сообщенияtester.nt, on 07 May 2015 - 18:16, сказал:

Кстати, производительность в плане быстродействия вас устраивает?
При той концепции, что Вы избрали производительность не будет критична, так как вы в таблицах имеете готовый набор критериев для выборки. Основное время идет на формирование множества промежуточных баз данных по разным критериям, поиск в них доминантных критериев для конкретной пары команд, исследование взаимодействия этих критериев между собой, исследование и учет влияния изменений критериев во времени и изменений вероятностей внутри диапазона коэффициентов попадающих в выборку, исследование результатов предыдущих расчетов и учет их в текущих расчетах. В результате, по субботам, когда анализируются около 150 пар команд на все расчеты уходит больше 4 часов. И это при том, что пришлось поменять компьютер на компьютер с большим кэшем, большей тактовой частотой, большей оперативной памятью, большим числом ядер, с 64 разрядной ОС, с твердотельным диском. Кроме того, вся обработка ведется в режиме компиляции, а не интерпретации, программами откомпилированными с языка С.

#32 OFFLINE   andre48

    Специалист


  • mp
  • 1622 сообщения
286
  • МестоположениеМосква

Добавлено 07 May 2015 - 19:38

Забыл написать совсем простенький пример для выборки. Оценка соотношения сил команд букмекерами определена коэф. П1 равным 1,75 +-5%. Первая команда выигрывает дома 50% игр, в том числе 40% игр с разницей больше чем в мяч и 20% игр с разницей в мяч. Вторая команда проигрывает в гостях 50% игр, в том числе 40% с разницей больше чем в мяч, 20% с разницей в мяч. Интересует фактический payout (вы его называете ROI) при данных ограничениях при ставке на домашнюю команду с форой -1 и гостей с форой +1.

#33 OFFLINE   Пешеход

    Пунтер


  • Участник II
  • ПипПип
  • 73 сообщения
7

Добавлено 07 May 2015 - 21:05

Сообщенияtester.nt, on 06 May 2015 - 22:45, сказал:

Отлично!
Расскажите о структуре базы: какие есть таблицы с какими полями и как между собой связаны. Ну и в чем она храниться.

Сообщенияtester.nt, on 07 May 2015 - 09:44, сказал:

1. Наборы данных

Пока остановился на 3 таблицах информации по матчу и остальных - по коэффициентах:
  • Общая информация о матче (Страна, Лига, Сезон, Дата, Время, "Семестр", Раунд, Кол-воЗрителей, Судья, Погода, КомандаДом/Гость, ГоловДом/Гость, Голов1таймДом/Гость, Голов2таймДом/Гость);
  • Статистика матча (наборы показателей по Ударам, ВладениюМячем, Дриблингу, ВоздушнымДуелям, ОтборамМяча, Угловым, Фолам, Офсайдам);
  • Голы (Игрок, Команда, Минута, ТекущийСчет, НомерГола, Тайм, Заметка(пенальти, гол в свои ворота, ...), РазницаГолов и показатель, о котором писал здесь);

+

  • Таблицы по 1Х2, ТоталБМ и т.д.
2. Источники данных

Информация по матчу и по статистике берется с www.whoscored.com. Пока инфы лучше не нашел. Если знаете что-то получше, с более полной статистикой, которая могла бы пригодится - пишите.

Информация по коэффициентах берется с www.betexplorer.com. Оттуда тянется все, что есть в наличии. Правда, на www.oddsportal.com есть немного больше + кроме наборов кэфов на матч, они еще и по таймам дают (что очень даже интересно).

Остается найти источник лайв-коэффициентов. Есть www.nowgoal.com, но сайт немного замысловатый. Если не найдется другого архива, то буду качать оттуда.

Вкратце:

У меня в моей базе детальнее разделение таблиц чем у вас: Лиги, Страны, Участники, СпортивныеСобытия - у меня в базе это 4 отделные таблицы, фактически они базовые- справочные.

Главной из них является таблица СпортивныеСобытия, которая характеризуется ДатойСобытия, КомандойХозяином (ссылка на Участники), КомандойГостем (ссылка на Участники), Лигой (в рамках которой это спортивное событие, ссылка на Лигу, Лига в свою очередь имеет ссылку на Страну) и признак ЭтоПлейофф (чтобы отличать какое события на вылет, какое просто чемпионат)

Потом уже идут так называемые Регистры сведений, ну или говоря по простому таблицы с более часто изменяющейся инфой:
1) ЗначенияРезультатов (в ней поля СпортивноеСобытие, КоличествоГоловХозяина , КоличествоГоловГостя (в 1,2 тайме, в экстратайме, в серии пенальти и общее количество голов)
2) ГолыПоМинутам (СпортивноеСобытие, Участник,НомерГолаУчастника, Минута, МинутаСКомпнесированнымВременем, булево признак ЭтоПенальти, булево признак ЭтоАвтоГол, ФазаМатча (т.е. 1тайм это или 2 тайм или экстра тайм).
3) КоэффициентыНаСобытия (СпортивноеСобытие,ТипКоэффициента (ссылка на соответсвующую таблицу, например 1X и т.д.), ИсточникКоэффициента ( например Бетфейр , Бет365 и т.д.)), Значение (само значение коэффицента)
4) СтатистикаСобытий ( в ней опять же СпортивноеСобытие и различные параметры угловые, удары, фолы и тд, то что есть на футбол.дата.со.юк)
5) Сезоны (Лига, Наименование, ДатаНАчалаСезона, ДатаОкончания)

основа примерно такая


База на 1С по факту представляет собой базу на MS SQL. Если мне что то нужно высчитать, я просто пишу SQL запрос, рассчитываю и вытаскиваю данные.

А основная проблемма сбора инфы с разных источников это пресловутая проблема с разными названиями команд, лиг и т.д. хотя можно их сопоставлять как то по символьно или заводить словари, но это дело требует тщательной проверки потом).

ПС: В новых версиях Excel уже нет ограничения на количество строк на одном листе?

Отредактировано Пешеход, 07 May 2015 - 21:12.


#34 OFFLINE   tester.nt

    Специалист


  • Участник II
  • ПипПипПип
  • 192 сообщения
61

Добавлено 07 May 2015 - 21:42

Сообщенияandre48, on 07 May 2015 - 19:06, сказал:

При той концепции, что Вы избрали производительность не будет критична, так как вы в таблицах имеете готовый набор критериев для выборки. Основное время идет на формирование множества промежуточных баз данных по разным критериям, поиск в них доминантных критериев для конкретной пары команд, исследование взаимодействия этих критериев между собой, исследование и учет влияния изменений критериев во времени и изменений вероятностей внутри диапазона коэффициентов попадающих в выборку, исследование результатов предыдущих расчетов и учет их в текущих расчетах. В результате, по субботам, когда анализируются около 150 пар команд на все расчеты уходит больше 4 часов. И это при том, что пришлось поменять компьютер на компьютер с большим кэшем, большей тактовой частотой, большей оперативной памятью, большим числом ядер, с 64 разрядной ОС, с твердотельным диском. Кроме того, вся обработка ведется в режиме компиляции, а не интерпретации, программами откомпилированными с языка С.
У вас все серьезно :)
А я обхожусь всего лишь виртуальной машиной с установленными Win8 и Excel13, на которую выделено не больше половины ресурсов моего бука :)

#35 OFFLINE   tester.nt

    Специалист


  • Участник II
  • ПипПипПип
  • 192 сообщения
61

Добавлено 07 May 2015 - 22:08

Сообщенияandre48, on 07 May 2015 - 19:38, сказал:

Забыл написать совсем простенький пример для выборки. Оценка соотношения сил команд букмекерами определена коэф. П1 равным 1,75 +-5%. Первая команда выигрывает дома 50% игр, в том числе 40% игр с разницей больше чем в мяч и 20% игр с разницей в мяч. Вторая команда проигрывает в гостях 50% игр, в том числе 40% с разницей больше чем в мяч, 20% с разницей в мяч. Интересует фактический payout (вы его называете ROI) при данных ограничениях при ставке на домашнюю команду с форой -1 и гостей с форой +1.
У меня есть несколько вопросов:
  • Какие из этих показателей являются критерием для выборки?
    Команды нам даны или мы должны их выбрать из базы, путем ограничения коэффициента и % побед и проигрышей?
    Это две конкретные команды, или это выборка нескольких команд по данным критериям?
    Если данные по % мы высчитываем самостоятельно, то за какой период они рассчитываются?
  • За какой период рассчитывается payout?
    Расчет идет за прошедшее время или это прогноз на какое-то количество матчей вперед?


#36 OFFLINE   tester.nt

    Специалист


  • Участник II
  • ПипПипПип
  • 192 сообщения
61

Добавлено 07 May 2015 - 22:41

СообщенияПешеход, on 07 May 2015 - 21:05, сказал:

Вкратце:

У меня в моей базе детальнее разделение таблиц чем у вас: Лиги, Страны, Участники, СпортивныеСобытия - у меня в базе это 4 отделные таблицы, фактически они базовые- справочные.

Главной из них является таблица СпортивныеСобытия, которая характеризуется ДатойСобытия, КомандойХозяином (ссылка на Участники), КомандойГостем (ссылка на Участники), Лигой (в рамках которой это спортивное событие, ссылка на Лигу, Лига в свою очередь имеет ссылку на Страну) и признак ЭтоПлейофф (чтобы отличать какое события на вылет, какое просто чемпионат)

Потом уже идут так называемые Регистры сведений, ну или говоря по простому таблицы с более часто изменяющейся инфой:
1) ЗначенияРезультатов (в ней поля СпортивноеСобытие, КоличествоГоловХозяина , КоличествоГоловГостя (в 1,2 тайме, в экстратайме, в серии пенальти и общее количество голов)
2) ГолыПоМинутам (СпортивноеСобытие, Участник,НомерГолаУчастника, Минута, МинутаСКомпнесированнымВременем, булево признак ЭтоПенальти, булево признак ЭтоАвтоГол, ФазаМатча (т.е. 1тайм это или 2 тайм или экстра тайм).
3) КоэффициентыНаСобытия (СпортивноеСобытие,ТипКоэффициента (ссылка на соответсвующую таблицу, например 1X и т.д.), ИсточникКоэффициента ( например Бетфейр , Бет365 и т.д.)), Значение (само значение коэффицента)
4) СтатистикаСобытий ( в ней опять же СпортивноеСобытие и различные параметры угловые, удары, фолы и тд, то что есть на футбол.дата.со.юк)
5) Сезоны (Лига, Наименование, ДатаНАчалаСезона, ДатаОкончания)

основа примерно такая

Спасибо что ответили.
У вас база больше нормализирована, что свойственно SQL-хранилищам. А при работе с PowerPivot и другими подобными программами частым явлением является денормализация. Я пробовал и разделять, и нет. В итоге не заметил никакой разницы.

СообщенияПешеход, on 07 May 2015 - 21:05, сказал:

База на 1С по факту представляет собой базу на MS SQL. Если мне что то нужно высчитать, я просто пишу SQL запрос, рассчитываю и вытаскиваю данные.

Excel хорошо умеет подключатся к SQL-хранилищам. Как среда быстрой обработки данных он неплохо себя показывает.

СообщенияПешеход, on 07 May 2015 - 21:05, сказал:

А основная проблемма сбора инфы с разных источников это пресловутая проблема с разными названиями команд, лиг и т.д. хотя можно их сопоставлять как то по символьно или заводить словари, но это дело требует тщательной проверки потом).

Думаю, что это решаемо. Словарь + небольшой скрипт, который приводит собранные названия к единому формату. Но пока у меня такой проблемы не возникало.

СообщенияПешеход, on 07 May 2015 - 21:05, сказал:

ПС: В новых версиях Excel уже нет ограничения на количество строк на одном листе?

В 2013 версии ограничение в 1 млн.строк на рабочий лист. Но, если данные тянуть сразу в PowerPivot, то там вместимость возрастает на 3 порядка, потенциально до 2 миллиардов строк. Думаю, что с таким объемом работать будет там тяжело, но несколько миллионов строк у меня на виртуалке "переваривает" без проблем. Значит запас еще есть.

#37 OFFLINE   andre48

    Специалист


  • mp
  • 1622 сообщения
286
  • МестоположениеМосква

Добавлено 08 May 2015 - 06:21

Сообщенияtester.nt, on 07 May 2015 - 22:08, сказал:

У меня есть несколько вопросов:
  • Какие из этих показателей являются критерием для выборки?
    Команды нам даны или мы должны их выбрать из базы, путем ограничения коэффициента и % побед и проигрышей?
    Это две конкретные команды, или это выборка нескольких команд по данным критериям?
    Если данные по % мы высчитываем самостоятельно, то за какой период они рассчитываются?
  • За какой период рассчитывается payout?
    Расчет идет за прошедшее время или это прогноз на какое-то количество матчей вперед?
Все показатели являются критерием для выборки путем ограничений с разбросом +-5%. Выбираются все команды, которые имели аналогичные критерии на момент игры по всей базе. % выигрыша рассчитывается на текущий сезон, но во всех сезонах, что есть в базе, то есть за все прошедшее время. Посчитать все это, имея базу данных, безусловно можно, но, скорее всего, сначала нужно будет посчитать соответствующие проценты и записать их в базу данных, чтобы знать их значения перед каждой игрой. И это простейший пример. Например, если его усложнить и поставить дополнительное условие, что за последние 2 игры домашняя команда набрала 4 очка, а гость 1 очко, то для расчета и записи в базу соответствующих данных для каждой команды потребуется или поиск по разным полям (дом/гость) со сравнением дат игры или увеличивать базу данных в два раза, чтобы наименование команды всегда можно было найти в одном поле.

Отредактировано andre48, 08 May 2015 - 06:22.


#38 OFFLINE   Bambuk

    Специалист


  • mp
  • 6322 сообщения
602

Добавлено 08 May 2015 - 06:23

Сообщенияtester.nt, on 07 May 2015 - 22:08, сказал:

У меня есть несколько вопросов:
  • Какие из этих показателей являются критерием для выборки?
    Команды нам даны или мы должны их выбрать из базы, путем ограничения коэффициента и % побед и проигрышей?
    Это две конкретные команды, или это выборка нескольких команд по данным критериям?
    Если данные по % мы высчитываем самостоятельно, то за какой период они рассчитываются?
  • За какой период рассчитывается payout?
    Расчет идет за прошедшее время или это прогноз на какое-то количество матчей вперед?
tester, Я попробую на простом примере объяснить что например может потребоваться. Буду на абстрактной базе показывать. Допустим у нас 50 критериев(характеристик...хотя может и 250 быть) для ком заранее затачкованных (часть может быть и нами как-то рассчитываться). Теперь у нас есть пара допустим А_Б и мы хотим что-то там прояснить в отношении двух ставок ну пусть по линии 1Х2 (или по форе допустим) и тотал ТБ2.5 (или любая другая лини ну смысл что две ставки). Во первых--мы не можем указать все 50 характеристик для выборки. Тогда вот конкретно для этой А_Б мы можем указать допустим набор из 3-ёх характеристик (которые мы априорно из предыдущих исследований понимаем что они наиболее влиятельны на рез в линии 1Х2)...но тогда для ТБ у нас будут не факт что теже 3-характеристики, а другие. Теперь далее---взяв выборку по 3-ём мы должны понять ---какие ещё 1 или 2 или 3...итд характеристики из оставшегося набора влияют на рез. и принятие решения---в простейшем случае мы смотрим корреляции, а в общем--корреляции+профиты...и вот для разных А_Б которые например в наборе начальном из 3-ёх характеристик отличаются только допустим диапазоном КП1 допустим так 1.7--1.85 1.9-2.05 могут разные оставшиеся характеристики в наборе 50 влиять больше или меньше на рез...я не говорю уже о сочетании всех 3-ёх параметров. И поэтому процесс в некотором смысле заморачивается---так как априорно вы не знаете что и как влияет и не можете сделать адекватные ограничения на параметры а также создать сам набор (так как он формально должен создаваться гиблой процедурой---выбрали один параметр из 50--смотрите корреляции и профиты в узких полосах критериев, потом выбираете наилучший...но на первом же этапе вы попадаете в блудняк так как мы не можем задать очень узких диапазонов для 50-ти так как в выборке не получим статистически значимый набор для выводов---получается "заколдованный круг").

При этом я акцентирую внимание всех на том что допустим 4-ый параметр(и прочие) который мы ищем для первичного набора может не только в разной степени влиять, но и иметь даже разные знаки корреляции---что приводит к попаданию в "непонятки" игроков (так как они думают что такая характеристика например улучшает рез по профиту а на самом деле ухудшает...при этом надо отдавать себе отчёт что положительная корреляция для самого исхода не является основополагающим критерием для принятия решения ибо положительно влияя на сам исход критерий может отрицательно влиять на профит в множестве аналогичных пар---на этом факте горят многие начинающие бетторы)

Отредактировано Bambuk, 08 May 2015 - 06:32.


#39 OFFLINE   andre48

    Специалист


  • mp
  • 1622 сообщения
286
  • МестоположениеМосква

Добавлено 08 May 2015 - 07:43

Все примерно так как написал Bambuk, но так как каждая пара обладает уникальным набором характеристик, то заранее неизвестно какие из них могут быть доминантными, поэтому приходится просчитывать и записывать для каждой пары более 1000 ограничений по разным критериям и их сочетаниям, а затем, выбирая доминантные для данной пары характеристики, смотреть еще и их взаимодействие между собой, влияние времени и изменение вероятности внутри диапазона коэффициентов. При расчете payout нам точно дано только значение коэффициента, а за вероятность берется средняя вероятность по диапазону коэффициентов попавших в выборку. Так как, в общем случае, вероятность обратно пропорциональна коэффициенту, то если диапазон достаточно широк, а коэффициент лежит на краю диапазона, то возникает недопустимо большая ошибка при расчете payout.

Отредактировано andre48, 08 May 2015 - 07:45.


#40 OFFLINE   Bambuk

    Специалист


  • mp
  • 6322 сообщения
602

Добавлено 08 May 2015 - 08:45

Тут ещё одна проблема в обработке данных--существуют глобальные так сказать тенденции а есть--назовём "локальные", которые связаны с тем что тенденции и критерии могут носить временный(и локальный--привязанный к лиге или их ограниченной совокупности) характер. За 4-5 лет в лиге (и команде(дах) как составной части лиги) могут происходить радикальные изменения (а сейчас это и намного раньше может происходить так как много завязано на финансирование...покупку игроков ну и всё остальное связанное с подготовкой--мат.тех. база. подготовка молодёжи, тренерский состав, медицина и тд.....оч много факторов стимулирующих--ну деньги основа...) поэтому порой трудно уйти даже далее 3-4 сезонов. При этом нам надо ж проверить и устойчивость критерия во времени и сами фазовые траектории для выстраивания алгоритма нашего "финансирования" процесса--какими суммами идти..это ж тоже очень влияет на размер прибыли-убытков...ну много тут мороки особенно если ведётся более 5-6 лиг то очень напряжно.....

Отредактировано Bambuk, 08 May 2015 - 08:48.