Определить потенциального победителя чемпионата уже по итогам первой половины турнира стало обыденной задачей не только для аналитиков команд, но и для известных спортивных изданий. К примеру, The Athletic и Opta постоянно разрабатывают детальные вероятностные прогнозы на весь сезон.
Подобные алгоритмы нередко демонстрируют большую точность по сравнению с экспертными прогнозами, поскольку они анализируют обширный объем исторических данных, в отличие от оценок, основанных на личных впечатлениях от спортивных состязаний.
«Используя данные первого этапа чемпионата России по футболу, «СЭ» предпринял попытку спрогнозировать итоговые результаты сезона РПЛ-2025/26, прибегнув к помощи суперкомпьютера.
Какие данные использовались?
Для анализа была собрана полная информация по всем сезонам Российской Премьер-лиги, начиная с 2001 года (за исключением сезона 2010/11, когда происходила смена формата соревнований). В качестве ключевых параметров рассматривались: количество очков, количество выигранных матчей, забитые и пропущенные мячи, стоимость состава на старте сезона (по данным Transfermarkt, начиная с 2005 года) и общая разница xG за первую половину чемпионата (с 2013 года, когда появилась соответствующая статистика). Кроме того, принимались во внимание изменения в тренерских штабах.
Мы использовали собранные данные для обучения различных программных решений (таких как LinearRegression, Gradient Boosting и другие), которые выявляют связи между статистикой первого круга и результатами чемпионата, а затем применяют их для прогнозирования.
Проверочный тест: прогноз сезона-2024/25
Для оценки корректности работы сначала создается ретроспективный прогноз: модель обучается на данных за сезоны с 2001 по 2023/24 годы, а затем используется для предсказания результатов сезона 2024/25.
Это дает возможность определить, какая модель покажет наиболее эффективные результаты.
Метод k-ближайших соседей (KNN) показал себя наиболее эффективным. Этот алгоритм, используемый для классификации и регрессии, определяет значение для нового объекта, опираясь на «мнение большинства» среди k ближайших к нему объектов в наборе данных для обучения.
Суть метода заключается в поиске k ближайших соседей для нового объекта, после чего новому объекту присваивается наиболее часто встречающееся среднее значение среди этих соседей.
Итак, результат.
Оценка показывает весьма позитивный результат: прогноз на количество очков, набранных командами, совпал с фактическими данными с погрешностью до двух баллов у одиннадцати из шестнадцати команд.
В итоговой таблице модель перестроила позиции некоторых команд, однако результаты «Краснодара» и «Зенита» практически не отличаются (на практике борьба продолжалась до заключительного тура). У команд «Факел» и «Оренбург» наблюдается схожая ситуация.
Прогноз сезона-2025/26
Включение результатов сезона 2024/25 в процесс обучения позволит модели учитывать самые актуальные данные и спрогнозировать сезон 2025/26.
В текущем сезоне «Краснодар», ЦСКА и «Зенит» демонстрируют примерно одинаковые результаты по ожидаемому количеству очков. Разница в реальных позициях между лидирующей и третьей командами составляет менее одного балла. По всей видимости, нас ожидает повторение событий сезона 2023/24, когда три клуба боролись за чемпионство до финального тура.
Учитывая высокую конкуренцию в этой группе, целесообразно изучить результаты других моделей: они в большинстве случаев демонстрируют отставание «Краснодара» на два-три очка и помещают «Зенит» на второе место. В то же время, ЦСКА во всех прогнозах находится в непосредственной близости от лидирующей пары.
Согласно представленной таблице, алгоритм KNN отводит «Балтике» четвертую позицию, что свидетельствует о высокой степени уверенности в стабильности команды, возглавляемой Андреем Талалаевым.
По мнению экспертов, «Локомотив» может столкнуться с повторением весеннего спада в результатах (занимает 6-е место), а «Динамо» без Валерия Карпина, согласно прогнозам, опустится на 7-ю позицию. Несмотря на то, что текущая динамика развития «Динамо» кажется маловероятной, достижение указанного места вполне возможно.
Положение команд в нижней части турнирной таблицы также выглядит неоднозначно: по мнению модели, «Сочи» и «Оренбург» обладают примерно одинаковыми возможностями для завоевания 14-й позиции, дающей спасение. В то же время, «Пари НН», по ее оценке, лишен практически всех шансов и может занять последнее место, а следующим претендентом на борьбу за выживание становится «Анжи» из Махачкалы.
По моему мнению, этот прогноз существенно отличается от сложившегося впечатления, так как я полагаю, что после зимнего перерыва махачкалинский клуб улучшит свои показатели и не будет бороться за сохранение места в лиге.
Математические расчеты подтверждают такой ход событий. Сравнить результаты будет интересно в конце мая, однако уже сейчас очевидно, что второй этап чемпионата подарит нам напряженную борьбу за ключевые места до финального тура.


