•         

* * * * * 2

ФОРМА ЛОШАДИ ГЛАЗАМИ ПАССАЖИРА


#1   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 13:12

Решил создать тему по лошадям, хотя мало что в них понимаю. Тем не менее появилась одна идея которую думаю можно обсудить и выслушать рекомендации экспертов (понимающих в лошадиных скачках) по нюансам реализации самой идеи. Прежде всего необходимо мнение о рациональности или тупости самой идеи как таковой.

Теперь в общих чертах суть самой идеи.
Предметом обсуждения будет не форма лошади в комплексе а лишь компонента---в виде циферек последних забегов лошади
типа 99911 или 222-21 итд. Совершенно очевидно что адекватно трансформировать в мозгах наборы которые могут быть весьма разнообразны и число их достаточно велико в какую-то одну внятную цифру которую можно было бы присовокупить к прочим показателям достаточно сложно особенно начинающим.

пока сырой начальный алгоритм состоит в следующем---берём и разделяем номер на компоненты и рассматриваем каждую как некую переменную
Х1 Х2 Х3 .....(при этом последние забеги у нас правее...и формально идём как китайцы...)
так как в коде (будем его так условно называть) могут быть прочерк и косая черта и буквы то надо тогда их заменить на более менее адекватные в смысле разумности такой замены (чисто интуитивно) цифры. Так как представление данных на таймфоре и например расингпост разное то рациональнее выбрать универсальный механизм и остановиться на 5-значном коде, тогда если данные с таймфора то просто первую цифру слева можно убрать).
добавим к 5-тизначному коду одну клетку слева (формально последний самый забег).
тогда если пробел 999-11 то на его место пишем среднее (9+9+9+1+1)/5 если черта то пишем среднее +1 если нет ни чего то среднее пишем в дополнительную клетку.
Теперь с буквами---можно например писать среднее+1 (или ещё больше это надо обсудить можно и +1.5 писать тут это пофигу лишь бы интуитивно адекватно)

теперь у нас получается такая фигня ---если не парится особо а допустим закодировать OUT Y вхождение в призовые 1 а не вхождение 0
то можно построить (попробовать сначала построить) множественную регрессию вида Y=c1*X1+c2*X2+.....+c6X6
тогда мы получим возможно некие цифры которые можно использовать дальше.

Предполагаем что будем разделять лошадей на три группы например так по классам 1-2 3-4 5-6 и в каждой группе строить свою зависимость.

#2   Jericho

    Иерихон


  • RSB
  • 2226
859

14 June 2015 - 13:30

Вряд-ли будет толк, есть форма где будет 978056 и сегодня она придет первая к финишу.

Ну а получить число и использовать его в совокупности с другими данными (жокеи, скорость и т.д.) можно попробовать

#3   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 13:39

Вряд-ли будет толк, есть форма где будет 978056 и сегодня она придет первая к финишу.
Ну и пусть приходит, нам-то что? Мы ж не экстрасенсы, нам надо просто получить адекватную оценку в виде цифры а она по идее будет зависеть от частоты с которой там появляется 0 или 1 на выходе. Вот допустим если кефф взять---это по смыслу что-то похожее он в неком смысле отражает частоту события. Дальше мы просто используем полученное для дальнейшего анализа---у нас ведь есть и другие характеристики--жокеи, скорости ну и тд.... Там разумеется не будет так что вот цифра и всё.
Потом Вы не забывайте что у других лошадей ведь тоже цифры будут по этой бадяге так вот пример

три лошади и три цифры 0.4 0.4 0.4 тут понятно что шансы у всех одинаковые а если так 0.1 0.8 0.8 тут мы видим что у нас одна лошадь достаточно удалена от других ну и почему её например не леить или вот так 0.3 0.3 0.8 тогда ставим плейс на 0.8 тут важно как цифра смотрится в контексте остальных а не так что вот в воздухе подвесили и решаем.

#4   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 13:48

Кстати установить факт-- насколько нужна и важна полученная нами характеристика можно элементарным сравнением с любым даваемым рейтингом лошади---берём нашу фуйню цифру и рейтинг заносим в таблицу и опять тот-же закодированный рез 0 и 1 и смотрим кефы корреляции с выходным сигналом рейтинга и нашей бодяги (по модулю) и делаем вывод о чём-то полезном или бестолковом...а так мы только гадать будем.

#5   Jericho

    Иерихон


  • RSB
  • 2226
859

14 June 2015 - 13:51

Напиши алгоритм нормально для "нематематика"))

Вечерком напишу программу, которая будет выводить список забегов с racingpost и считать Фуйню..
Пусть народ при желании затестит

#6   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 14:08

Напиши алгоритм нормально для "нематематика"))

Вечерком напишу программу, которая будет выводить список забегов с racingpost и считать Фуйню..
Пусть народ при желании затестит
Там для построения регрессии на одну группу надо забегов тысяч на 8-10 не меньше--это только в базу загонять данные --- сама последовательность и плейс-место в виде 0 1
Я думал может сначала обсудить как лучше заменять там прочерк , черту и буквы а потом уж думать об остальном....надо погодить пока. Да мне по идее надо только данные и всё а потом там попробую этот код как-то обработать прям в екселе и загоню в другую прогу---она сама там всё построит чё надо, а тут просто рез приведу по самой функции регрессии.
и вот её уже можно запрограммировать будет.

#7   Jericho

    Иерихон


  • RSB
  • 2226
859

14 June 2015 - 14:18

Там для построения регрессии на одну группу надо забегов тысяч на 8-10 не меньше--это только в базу загонять данные --- сама последовательность и плейс-место в виде 0 1
Я думал может сначала обсудить как лучше заменять там прочерк , черту и буквы а потом уж думать об остальном....надо погодить пока. Да мне по идее надо только данные и всё а потом там попробую этот код как-то обработать прям в екселе и загоню в другую прогу---она сама там всё построит чё надо, а тут просто рез приведу по самой функции регрессии.
и вот её уже можно запрограммировать будет.
Ну добро.

Буквы есть разные... И имеют разное значение

DNF – Did Not Finish – не пришла к финишу

BD – Brought Down – лошадь сбита другими лошадьми

F – Fell – падение лошади

U - лошадь сбросила жокея

PU – Pulled Up – остановка лошади во время гонки

HR – Hit Rails – удар лошади во время гонки о заграждение

R – Refused – лошадь остановилась перед препятствием

SU – Slipped Up – лошадь подскользнулась

RTR – Refused To Race – отказ лошади выбежать из стартовой кабины

DSQ – Disqualified – дисквалификация лошади

UR – Unseated Rider –падение жокея с лошади

N/R – Non-runner – лошадь, первоначально заявленная в гонке, но не бежавшая

RO - run out, когда лошадь пропускает препятствие, то ли по своей "хотелке", то ли по ошибке жокея
VOI - отмененный забег по тем или иным причинам после старта.



#8   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 14:29

Тогда появляется гимор с работой со строковой переменной кода. Я в этом лоховат. Надо подумать что лучше суммировать по данным буквенным позициям (ибо если лошадь не бежала то чё её штрафовать+можно допустим поставить среднее в эту позицию (и среднее в конец или хз как там пишут код в этом случае). Потом тут допустим возможны такие варианты
99/9F9---тогда надо определить чёткое правило для обработчика что первое обрабатывать---можно допустим жёстко идти справа налево и заменить сначала Fно тогда вот тут непонятно как обработать 99F-9 или типа того.

#9   Remis

    Специалист


  • Модератор
  • 1606
349
  • МестоположениеEU

14 June 2015 - 14:29

Еще кое-что для рейтинга:
https://www.flatstat...ing_1.html?oo=0



#10   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 14:47

Для определённости лучше наверно так сделать---обрабатываем справа налево по мере поступления инфы.
99F-91 тогда получится берём пока все цифры которые есть и находим для "-" это среднее (9+9+9+1)/4 когда это появилось в позиции "-" то уже считаем для F
(9+9+7+9+1)/5+1 +1-штраф. (тут уже можно додумывать по размеру...главное принципиально разбор запрограммить).
По буквам думаю можно не парится а разделить на 2-группы штрафуем-нет и где штрафуем один штраф к среднему.

#11   traiinlane

    Специалист


  • Участник II
  • 182
-13

14 June 2015 - 15:03

www.youtube.com/watch?v=9-UGgyjbE6I

Patternform....How to analyse a race in 5 minutes...with some interesting results!

#12   Noname

    Специалист


  • mp
  • 2445
349

14 June 2015 - 15:18

Имхо эту идею проще проверять на собачках ;)
По сравнению с лошадками есчть несколько плюсов
Количество участников постоянно, забеги в закрытых помещениях - фактор погоды, покрытия отпадает
Ну и циферки тоже есть :D :D :D

#13   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 15:36

Имхо эту идею проще проверять на собачках ;)
По сравнению с лошадками есчть несколько плюсов
Количество участников постоянно, забеги в закрытых помещениях - фактор погоды, покрытия отпадает
Ну и циферки тоже есть :D :D :D
Лошади интереснее в плане денег и самой сложности их анализа. Собаки --совсем другая песня.

#14   Horse Rasing

    Специалист


  • Участник II
  • 359
19

14 June 2015 - 16:01

Идея хорошая,как то играл по позициям лошади получалось,там самое важное по мне ,это три последних забега,буквы вообще можно не трогать,а вот кф и расстояние это важно ,плюс класс,но расстояние самое важное,пришел первый выиграл пол-корпуса или 5 корпусов,разница,.так же ,пришел 5 а проиграл пол-корпуса,.Мне идея нравится,думаю рабочая.

#15   Noname

    Специалист


  • mp
  • 2445
349

14 June 2015 - 16:15

Лошади интереснее в плане денег и самой сложности их анализа. Собаки --совсем другая песня.
Ну дык! От простого к сложному :D :D :D
Проверить, отработать на собачках и уже с большей уверенностью переходить к лошадкам с деньгами :D :D :D

#16   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 16:19

Идея хорошая,как то играл по позициям лошади получалось,там самое важное по мне ,это три последних забега,буквы вообще можно не трогать,а вот кф и расстояние это важно ,плюс класс,но расстояние самое важное,пришел первый выиграл пол-корпуса или 5 корпусов,разница,.так же ,пришел 5 а проиграл пол-корпуса,.Мне идея нравится,думаю рабочая.
Тут проблема вот в чём--дело в том что чрезмерная детализация тут не нужна. Это понятно что там много влияет как таковое--нос проиграла или пол километра....но это всё можно учитывать в других параметрах а не в этом. Потом даже сама идея делить именно по призовым и нет она тоже не из воздуха---дело в том что если бы все забеги были одинаковые по числу лошадей то тогда можно строить регрессию кодируя непосредственно и места например 1-2-3...10 а не 1-0 но так как обежать 13 лошадей или 6 это согласитесь не одно и тоже.
поэтому тут так детально не получается делать. Что касается разных отрывов от победителя то это лучше в скорость отнести а не в комбинацию цифр (так как по ней получается достаточно грубая оценка---один хрен там и дистанции разные будут и прочее)...тут главное просто породить цифру которая бы имела приемлемую (не маленькую) корреляцию с тем что лошадь займет призовое место(или не займёт). Так как на скачках много влияющих факторов то там как не корячься их в одной какой-то простой формуле не учтёшь......

Надо найти теперь энтузиастов могущих прописать разбор и перевод кода в нужный вид........ остальное там не проблема. Остаётся непонятка если в коде мало цифер
типа 234. И там думаю надо брать без препятствий пока забеги и выкинуть букву(вы) которая к ним относится.

#17   Horse Rasing

    Специалист


  • Участник II
  • 359
19

14 June 2015 - 16:33

Где-то смотрел программу,там учитывалось только дистанция за 3 последних забега,а так да, для начала брать только флет, правда считаю,что не так важно сколько из скольких бежало,каким пришел,а сколько в корпусах разница.

#18   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 16:48

Где-то смотрел программу,там учитывалось только дистанция за 3 последних забега,а так да, для начала брать только флет, правда считаю,что не так важно сколько из скольких бежало,каким пришел,а сколько в корпусах разница.
В этом я думаю есть резон--1. простота по сравнению с длинным кодом + предположительно больше влияние. Но нам за влияние не надо переживать--когда будет строится регрессия то если влияние больше, то та позиция попрёт с большим весовым коэффициентом и если первые три( они у нас последние в "китайском" коде) глобально больше влияют, то там и С в множителе будет гораздо больше по значению. Если мы априорно решили кодировать выход 0 1 то тут корпуса к делу так просто не подошьёшь (эти корпуса зависят от дистанций забега--если бежать 100м и 10км вот чисто человекам то там же совершенно очевидно разница которая может возникать и тогда будет сильная зависимость от числа примеров в базе данных по человекам допустим пропорции 10 по 100м и 100 по км...тогда на фоне большего меньшее просто потеряется--а попросту не будет распознаваться верно....это палка о двух концах. по идее можно очень детально поделить конечно по классам по дистанциям по числу лошадей в забеге итд но это можно только при огромнейшей базе сделать...пока важен сам механизм и выяснить работает он или нет---если работает то кто мешает его экстраполировать на более мелкое деление? )....Это пока эксперимент--прикидка....грубая модель...

#19   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 16:58

По поводу коротких кодов наверно можно попробовать заполнить средним пустые клетки справа и только если 4-позиции в коде если меньше то возвращать "нет данных". и если в коде 0 то его заменять на 10 в клетке переменных Х.

#20   Bambuk

    Специалист


  • mp
  • 6322
602

14 June 2015 - 17:19

Да-с тут вот получается такой хреновый момент(хорошо что конструктивный диалог возник, а то сам бы не допёр).
У нас в коде допустим стоит 6 у одной лошади и у второй в той же позиции допустим 10 если первая 6 получена в забеге где 6 лошадей то это одно а если в забеге где было 12 это совсем не тоже самое и вот эта 10 если тупо в забеге 30 тоже не адекватная цифера. Сдаётся мне тут без приписывания и мощи забега не обойтись для более менее адекватной оценки чисел в позициях кода. Нужно значит сообща подумать--как более менее адекватно нормализовывать данные. Есть вариант самый тупой поделить на мощь (число лошадок)...но насколько это адекватно будет????

Давайте поэкспериментируем по ходу писанины---вот допустим 6место в 10мощи и 12 в мощи 20 если поделим получим как бы одно число 0.6 можно попробовать делить на корень из числа лошадей (или взять какую-то степень 0,75 или 0,45 ХЗ......)
Можно наверно на корне остановиться тогда вот допустим для первых мест такой подход выглядит более менее логичным если 1 в позиции то если лошадь победила среди 30 претендентов то её 1 весомее 1 той лошади которая поимела 7 лошадей.