Насколько точны модели для сбора статистики xG
Статистика xG – одна из самых популярных метрик в футбольном анализе. Многие футбольные фанаты оценивали тысячи моделей, чтобы найти универсальную, но все вычисления показывают неожиданные результаты, которые могут намекать на недостатки или точность большинства моделей xG, используемых для анализа футбольных противостояний.
Модели для расчета xG
Аналитики используют множество методов для расчета точности моделей xG:
- классическое применение машинного обучения к RMSEP;
- модель, используемая для оценки различий между прогнозами и результатами;
- другие методы расчета.
Как правило, модели пытаются предсказать результат удара на основе местоположения мяча, скорости футболиста, части тела, с помощью которой спортсмен совершает удар.
Модели, рассчитывающие xG, могут демонстрировать точность до 95%, что зависит от контекста данных модели.
Данные по ударам и голам сильно разбалансированы по классам, что порождает большой разброс между количеством результативных и неудачных ударов по футбольным воротам. Это означает, что даже самая совершенная модель может оказаться неточной, поскольку основана на разных значениях.
Точность и отзыв
Точность сама по себе не дает достаточного представления о том, насколько хороша модель.
Важные факторы, влияющие на построение математической модели анализа:
- точность – правильная доля положительных идентификаций ударов;
- отзыв – доля реальных положительных правильно идентифицированных результатов.
Метрика показывает, что из протестированных 1023 голов, только 127 (12% )были предсказаны правильно и 58% голов были правильно идентифицированы.
Мастерство против удачи
Очевидно, что модели xG все еще испытывают трудности в определении того, приведут ли отдельные удары к голу.
Существует еще целый ряд недостающей информации, которая может стать причиной неточности модели.
Информация для прокси с простыми данными о событиях:
- место удара;
- часть тела – голова или нога;
- построение на поле – штрафной, кросс, быстрый отрыв.
Информация, требующая более сложных отслеживающих или событийных данных:
- позиция вратаря;
- позиция защитника;
- положение ног игрока;
- скорость и направление движения защитника.
Информация, которую в настоящее время невозможно наблюдать и собирать:
- точный угол и местоположение части тела, которая наносит удар по мячу;
- время реакции вратаря;
- скорость и направление ветра;
- давление воздуха на мяч;
- другие факторы.
xG-модель, использующая только первую категорию факторов, может считаться наивной, модель, использующая и первую, и вторую категории, - сложной.
Модель, которая может использовать все 3 информационных категории, является целью для всех энтузиастов xG, поскольку может точно предсказать, превратится ли удар в гол или нет.
В качестве альтернативного варианта можно классифицировать первую и вторую информационные категории как повторяющиеся свойства ударов и мастерство, а третью категорию - как нечто неповторяющееся, или удача.
Одна из целей аналитики и сбора данных – расширение второй категории за счет третьей. Знание повторяющихся навыков позволяет улучшить xG-модель и принимать лучшие решения. Футбольные фанаты, в совершенстве владеющие методами xG-аналитики, найдут подходящие для ставок матчи в линии букмекера Пари матч КЗ.
Переменная Большой шанс
Большинство моделей xG используют переменную “большого шанса” в качестве косвенного показателя оборонительного давления. Поскольку для большинства лиг нет надежных данных по отслеживанию, переменная может восполнить недостающую информацию. Например, может помочь отследить, сколько игроков находится между мячом и воротами.
Предвзятость результата – ошибка, допущенная при оценке качества шанса. Так, когда игрок конвертирует шанс, аналитики, скорее всего, отметят его как "большой шанс". С другой стороны, когда игрок ошибается, они не присвоят удару ярлык "Большой шанс".
Метрика включает в себя информацию после броска и может быть приблизительно сравнима с созданием модели, которая использует только 'броски по цели'. Такие модели гарантированно работают лучше, чем модели "все удары", поскольку у них больше информации.