Пытаюсь создать стратегию на тоталах
#1 OFFLINE
Posted 17 December 2014 - 20:14
Суть в том, что я пытаюсь создать таблицу в эксель (стратегию) для определение тоталов через различные статистические показатели, а именно:
1. я разделил все команды на 3 категории по разнице забитых и пропущенных,
2. определил ср.кол-во забитых-пропущенных мячей каждой команды против любой из трех категорий команд, как в домашних встречах, так и в гостевых,
3. учёл данные по личным встречам команд,
4. ввел коэффициент сезонности (отношение общего кол-ва забитых мячей всего чемпионата к кол-ву забитых мячей в последних 3- турах).
Пытаюсь добиться следующего: ввожу в таблицу эксель результаты последнего тура и очные встречи и автоматически выводится показатель расчетного количества забитых мячей на каждый последующий матч.
Прошу отозваться тех, кто пытался или сейчас действует в таком направлении, для обсуждения кое-каких ньюансов.
А также хотелось бы услышать мнение опытных людей и критиков.
Заранее спасибо!!!
#2 OFFLINE
Posted 17 December 2014 - 21:11
Непонятно какие резы последнего тура вы хотите вводить в таблицу (и почему одного тура а не тех данных которые мы имеем по ряду туров???)....
Математически всю вашу концепцию можно конечно привести к законченному виду и находить мат ожидания количества голов пары, через которые можно легко найти оценки вероятностей событий (а не только тоталов)....лички придётся учитывать как некий доп. критерий при отборе взяв ещё и критерии типа--сами наши вероятности и оценки БК (оценку БК
можно например ограничить снизу или сверху или интервал какой-то напридумывать для тестов---тесты сами в любом случае должны быть заточены на баланс в выборке а на не проходимость---проходимость нужна "проходимцам--капперам"...нам нет)...
Фактически если отталкиваться от п.1 то имеем 9 условных групп (если лига делится на 3 части по общим данным разницы...тут тоже возникает вопрос--а сколько команд попадут в одну категорию..делить же можно по-разному в зависимости какие интервалы брать---может оказаться что при равных интервалах в одну колоду попадут 6 ком а в другую тока 3...
для этого целесообразно вначале расположить всё это дело на плоскости....у групп будут какие-то средние показатели(назовём центры масс по разнице З_П)..
потом надо определятся какие окна тянуть по данным (размеры окон--или число игр или плавающие где заточено по числу общей кучи которую обрабатывают--суть похоже на временной интервал)....
Если брать маленькие окна то доверия к оценкам не будет если слишком большие---получим плохую динамику...надо искать компромисс, а динамику строить типа скользящего среднего или просто точки по сдвигаемым окнам)..есть ещё момент--у Вас при таком раскладе где отправная точка п1. команды будут двигаться некоторые из условных групп в другие
и поэтому надо всё постоянно пересчитывать после каждого тура и заносить в таблицы--типа шахматок(матриц) все параметры чё мы насчитали..работы много короче получиться.
Могу дать совет--стройте алгоритмы более универсальные которые потянут разные варианты обработки ..так как потом что-то может в голову взбрендить и чтоб потом меньше переделывать надо постараться по максимуму учесть сее дело....
Могу описать очень быстрый итеррационный алгоритм нахождения оценок модели которая выдаст МО1 МО2 по данным забитым в шахматку (при этом надо будет оставить для обработки только ваш кластер по З_П1___З_П2 это можно сделать просто второй матрицей где все пары попавшие в ваше сочетание(итервал З_П1...итервал З_П2) помечаются 1
а остальные 0 тогда можно две матрицы перемножить по схме Cij=aij*bij a--элементы шахматки b--элементы матрицы кластера....).
Правдо я сомневаюсь что БК хуже даст оценки на тоталы...на тоталах тяжко перебодать контору...но поэкспериментировать можно конечно так как при универсальности можно будет в матрицы попробовать пихать данные по таймам рассматривая тупо их как самостоятельные игры (на первый тайм точно покатит)...
по лигам тоже будут различия..и тут вариант --можно унифицировать всё и брать нечто универсальное (по делению в п1.) или ещё и лиги раскинуть на группы (много там не надо групп
а чисто можно наверно по голоспособностям попробовать раскинуть..ну или ещё чего-то ..это можно для начала по вкусу игрока, думаю)....
#3 OFFLINE
Posted 17 December 2014 - 21:20
Приблизительно такую же схему обдумывал и я .
По первому вашему пункту : Я тоже думал разделить команды на 3 категории . Но !!! Отдельно для атаки команд и отдельно для их обороны . А так же дом - гости .
Отсюда соответственно понятно и как проводить подсчет . Или ваш пункт 2
По 3 пункту учитывать данные по играм сыгранных в последние три года . Не больше . Если таких нет - тогда ничего не учитывать .
Ну и 4 . тотал считаю по Мюллеру последние 5 игр дома и последние 2 на выезде . Отсеиваю одну самую результативную игру и одну с самым маленьким тоталом . Складываем средние статистические тоталы забитых одной командой и пропущенных другой и не делим пополам , а отнимаем средне статистический тотал чемпионата . Проверено мной - дает очень хороший результат .
В идеале можно создать рейтинги атаки и обороны команд . Скажем 2 гола забитые команде с плохой обороной - это будут не то же что и 2 гола забитые команде с хорошей обороной . А значит рейтинг атаки команды в этих двух случаях должны изменяться по разному .
Вот блин Бамбук опять опередил . Да и написал в два раза больше чем я .
#4 OFFLINE
Posted 17 December 2014 - 21:30
Edited by Bambuk, 17 December 2014 - 21:36.
#5 OFFLINE
Posted 17 December 2014 - 21:31
adr82, on 17 December 2014 - 20:14, сказал:
Суть в том, что я пытаюсь создать таблицу в эксель (стратегию) для определение тоталов через различные статистические показатели, а именно:
1. я разделил все команды на 3 категории по разнице забитых и пропущенных,
2. определил ср.кол-во забитых-пропущенных мячей каждой команды против любой из трех категорий команд, как в домашних встречах, так и в гостевых,
3. учёл данные по личным встречам команд,
4. ввел коэффициент сезонности (отношение общего кол-ва забитых мячей всего чемпионата к кол-ву забитых мячей в последних 3- турах).
Пытаюсь добиться следующего: ввожу в таблицу эксель результаты последнего тура и очные встречи и автоматически выводится показатель расчетного количества забитых мячей на каждый последующий матч.
Прошу отозваться тех, кто пытался или сейчас действует в таком направлении, для обсуждения кое-каких ньюансов.
А также хотелось бы услышать мнение опытных людей и критиков.
Заранее спасибо!!!
#6 OFFLINE
Posted 17 December 2014 - 21:38
Bambuk, on 17 December 2014 - 21:11, сказал:
для этого целесообразно вначале расположить всё это дело на плоскости....у групп будут какие-то средние показатели(назовём центры масс по разнице З_П)..
потом надо определятся какие окна тянуть по данным (размеры окон--или число игр или плавающие где заточено по числу общей кучи которую обрабатывают--суть похоже на временной интервал)....
Если брать маленькие окна то доверия к оценкам не будет если слишком большие---получим плохую динамику...надо искать компромисс, а динамику строить типа скользящего среднего или просто точки по сдвигаемым окнам)..есть ещё момент--у Вас при таком раскладе где отправная точка п1. команды будут двигаться некоторые из условных групп в другие
и поэтому надо всё постоянно пересчитывать после каждого тура и заносить в таблицы--типа шахматок(матриц) все параметры чё мы насчитали..работы много короче получиться.
А можно просто взять последние 30 игр (можно и больше если хотите ) и подсчитать сколько в среднем забивают команды за матч . Разложить команды в порядке убывания . Если в чемпионате 16 команд тогда первая пятерка это команды с сильной атакой вторая шестерка - это середняки и последние пять - это команды с плохой атакой .
То же сделать и с обороной команд .
Но в идеале , как я уже писал , рейтинг атаки и рейтинг обороны для каждой команды ...
#7 OFFLINE
Posted 17 December 2014 - 22:47
допустим вот параметры a--нападения b--защиты (пусть чем больше парам. а-- тем лучше и чем больше b-тем хуже...тогда это типа вероятностсных характеристик
и модель в простейшем случае строится так ai*bj =MO1 aj*bi=MO2 но на самом деле ai=f(bj) bi=g(aj) и для жи-той по аналогии...но модель такую фуйню не может учесть так как функции f,g нам неведомы..могут быть нелинейными и зависящими ещё от чего-то...поэтому можно тока приписать команде вот эти параметры например обработав массив игр со счетами и выбрать их так чтоб была минимальная сумма квадратов отклонений от счёта в парах....при этом если тянуть окна то можно смотреть динамику изменения или самих
a, b параметров или динамику МО1+МО2 на пару(если о тоталах говорить) так как у нас есть модель то нам абсолютно пофигу былали игра в реалове в ткре или нет и мы должны каждый раз сдвигая это долбаное окно рассчитывать все игры, а не тока тур (10 игр допустим...то есть забивать всю матрицу резами на 380 игр и так степ-бай-степ)
но фуйня состоит в том --что мы не знаем поведение команд при определённой динамике показателей а так как допустим на пару их 4 то сочетаний будет много--(так как каждый параметр может в простом варианте иметь 2 состояния--повышается--понижается..даже не беру--примерно постоянен..то получим 16 комбинаций (2^4)..а если 3 состояния то 3 в степени 4........ и ХЗ как ведёт себя система (или кластер)...у нас просто данных не хватит всё это исследовать надлежащим образом при очень скорпулёзной детализации и рассмотрении игр под микроскопом....но нам-то в итоге надо баланс имет для выборки ++++ а если данных мало то ХЗ как это проверить?--только по ретро данным а тогда возникает вопрос--а ента куйня--тоталы они вообще устойчивы или нет..а то я тут делал эксперименты с чёт-нечетом так там можно так задать параметры выборок что на сезонах колебания пиздец-пиздец... чуть в обморок не упал от "радости" .............
Edited by Bambuk, 17 December 2014 - 22:49.
#8 OFFLINE
Posted 18 December 2014 - 03:51
Тоже ведь важный фактор.
#9 OFFLINE
Posted 18 December 2014 - 07:43
Noname, on 18 December 2014 - 03:51, сказал:
Тоже ведь важный фактор.
Если структура связей модели неизвестна то делают обычно нейронную сеть (НС) и тогда подавайте что угодно...хоть температуру воздуха (но там одни сигналы будут значимыми а другие нет--мусор и если мусора много то будет избыток шума...короче так : мусор на входе--мусор на выходе(плохо будет прогнозироваться)...)
Иногда при ограниченности данных или ещё по каким-то соображениям поступают так в НС---заменяют пространство из входного набора на меньшее, это в том случае если можно одни входные переменные выразить через другие (вот типа того--есть входные х1 х2 х3 х4 тогда если можно представить х4=а1*х1+а2*х2+а3*х3 с приемлемой степенью точности, то зачем подавать х4? можно подать скрытые переменные а1,а2, а3 при этом входные данные х1х2х3х4.... обычно подвергаются предобработке разными алгоритмами.)
Edited by Bambuk, 18 December 2014 - 07:47.
#10 OFFLINE
Posted 18 December 2014 - 07:49
Edited by andre48, 18 December 2014 - 07:50.
#11 OFFLINE
Posted 18 December 2014 - 08:17
andre48, on 18 December 2014 - 07:49, сказал:
Это если через фильтры данные прогонять...а не моделировать. Можно наверно поступить так---проверять не только адекватность модели но и смотреть расхождения между прогнозируемым и реально получаемым. На тоталах я не делал а вот на линии 1Х2 когда модель применял то просто смотрел суммы вероятностей и сам рез на некотором объёме данных (обычно игр 15-20 тогда допустим сумма давала 6.3 по вероятностям на П1 а реалово например так 6--это хорошо а если вот так 6.3 и 10 то можно просто сей факт учесть при принятии решений.). потом там команды есть где колебания тоталов по сезонам укладываются в статистику и не выходят допустим за пределы 2-ух стандартных отклонений а есть которые проявляют достаточно нестабильные резы и это разрулить невозможно---кроме как попробовать не делать ставки даже при благоприятных соображениях по иным параметрам. Всё равно проблема этой темы--ТС идёт по пути поиска высокого % реализации, а не гонится за профитом (так как про кефы нет упоминания) а по идее надо и фильтрами в том числе искать профитные множества, а не пытаться поднять % прохода ..... Может оказаться что и число угловых тож. на ТОТ влияет но разумеется в меньшей степени конечно..но это можно точно говорить не весь объём обрабатывая а как-то поделив его на части помельче--ТС вот изначально привязался к разнице..а может на ТОТ целесообразно поделить как-то иначе--допустим исходя из положения в табл. и среднему ТОТ команды ..ну или ещё там как-то с завязкой на ТОТ если уж его надо исследовать....
Я когда делал НС для одной тут темы на францию то для ТОТ2.5 взял раздельные характеристики по суммарному тот для дома и для гостя а не общий...можно наверно и так делать и сяк..но непонятно что лучше?
Edited by Bambuk, 18 December 2014 - 08:23.
#12 OFFLINE
Posted 18 December 2014 - 09:38
Bambuk, on 18 December 2014 - 08:17, сказал:
#13 OFFLINE
Posted 18 December 2014 - 10:59
andre48, on 18 December 2014 - 09:38, сказал:
С тоталами я даже не знаю...мне чёта кажется сомнительной сия затея и потом много людей играет на тот..поэтому там кефы очень плотно идут с резами...правда тут была тема на форуме--предложение примерно такое---играть ТМ2.5 до 15мин (я бы взял 14-18 +- 2мин в зависимости от развития игры которая возможно просматривается в оочию ну или ещё там как-то..типа как на бет365 хреновина)....потом если гол то ставка пускалась до конца матча.... тема как-то кисло обсуждалась..но я взял несколько игр в выборке (выборку делал по средним показателям заб.--проп. для дома (домашние показатели) и гостя и если память не изменяет какие-то ещё ограничения брал по кефу на П1.....) в целом вроде ничего так на небольшом числе игр смотрелось....дальше там я не стал исследовать--так как ТМТБ не мой профиль и нет достаточно данных по кефам (смотрел по модели Сектора) а начальные кефы брал для БК (по закрытию--усреднённое значение с бетэксплоера)....я думаю для тоталов надо чёта неординарное искать в лайве--может там выхлоп будет побольше чем так корячится ставить.
Есть конечно вариант--посмотреть сколько по выбранному критерию получается объём для лиг, как он колеблется и по объёму и по профиту и тогда можно там нестандартным догоном выходить на априорно заданные профиты , по каждой лиге персонально(ну попытаться во всяком случае..немного перестраховываясь и не замахиваясь на очень большие % с оборота)....
Edited by Bambuk, 18 December 2014 - 11:06.
#14 OFFLINE
Posted 18 December 2014 - 12:30
Edited by andre48, 18 December 2014 - 12:30.
#15 OFFLINE
#16 OFFLINE
#17 OFFLINE
Posted 18 December 2014 - 16:42
Критерий (5сезонов)
ital п1=1.45---1.65 оч12<0,35
Выборка=109
Выручено=118,5
% с оборота=0,087155963 (8.72%)
Полоса на П1=1.45---1.65
ital п1=1.35---1.65 оч12<0,35
133
143,68
0,080300752
ital п1=1.45---1.65 оч12<0,35 EFV1<-0,2
47
53,25
0,132978723
Число ТМ2.5=27
Р_эксперимент.=0,574468085
К_справедливый=1,740740741
Добавляем к предыдущему критерий
по вероятности разности в «0» мячей (определяется по модели через скальем распределение)
ital п1=1.45---1.65 оч12<0,35 EFV1<-0,2
добавили вероятн разности г=0 больше 0.28
выборка=16
выручено=23,83
% с об.=0,489375 (49%)
Число ТМ2.5=7
Р=0,4375
К=2,285714286
ital п1=1.45---1.65 оч12<0,35 EFV1<-0,2
добавили вероятн разности г=0 меньше 0.25
число в выборке=24
выручено=23,23
ТМ=16
Р=0,666666667
К=1,5
Можно выдвинуть по качественному анализу гипотезу---в ит. чемп. при КП1=1.45—1.65
при понижении вероятности сыграть с разницей в «0» мячей вероятность ТМ2.5 растёт…Такая гипотеза вообще говоря противоречит обывательскому представлению(я так думаю)..Объёмы выборок конечно малы для внятных количественных(и качественных) выводов но во всяком случае вот это имеет место быть (при этом другие лиги могут проявлять иные свойства и тенденции)….
#18 OFFLINE
#19 OFFLINE
Posted 18 December 2014 - 16:50
#20 OFFLINE
Posted 18 December 2014 - 17:19