À l’occasion de la Coupe du monde de football – l’un des évènements sportifs le plus populaire au monde qui génère des recettes colossales et suscite plusieurs centaines de millions d’euros de paris sportifs – de jeunes chercheurs du Centre de recherche en économie & management de l’Université de Rennes 1 ont réalisé un travail statistiques pour prédire l’issue des rencontres et calculer les probabilités qu’une équipe remporte cette compétition. Ewen Gallic – post-doctorant au sein du programme de recherche Actinfo, hébergé par l’Institut Louis Bachelier (ILB) et co-auteur de l’article scientifique, avec Enora Belz, Arthur Charpentier, Romain Gaté, Vincent Malardé, Jimmy Merlet – a répondu à nos questions.

Pourriez-vous revenir brièvement sur l’idée de base et les prémices liés à l’article de recherche que vous avez co-écrit ?

Ewen Gallic : À l’origine, nous avons souhaité produire des modèles statistiques, basés sur des outils d’apprentissages prédictifs, qui pourraient faire de meilleures prédictions sur l’issue des matchs de la coupe du monde que la simple chance. Deux mois avant le début de la compétition, il s’agissait plutôt d’un simple jeu entre collègues, qui a débouché sur un sujet très intéressant sur le plan économique. Les paris sportifs génèrent, en effet, des montants colossaux, surtout pendant cette compétition.

Comment avez-vous procédé concrètement ?

Pour écrire cet article de recherche, nous avons dû collecter des milliers de données sur les rencontres passées, effectuer plusieurs semaines de codage et de revue de la littérature existante, avant de modéliser neuf méthodes statistiques et de faire des milliers de simulations avec les algorithmes qui y sont associés.

Pourquoi avoir utilisé neuf modèles statistiques différents ?

Nous avons voulu faire un panorama des principaux modèles existants, afin de les mettre en concurrence et d’observer leur fonctionnement, car, à l’heure actuelle, ces techniques sont encore peu utilisées dans la recherche académique en économie, à l’exception de la finance.   

Dans votre article, votre modèle favori est une combinaison des huit modèles que vous avez préalablement testés, pourquoi ?

Ce modèle combiné a la particularité de fournir le plus de prévisions correctes, en fonction des rencontres passées. Toutefois, il faut relever qu’il apporte moins d’un point de pourcentage de gain supplémentaire par rapport aux huit autres approches. Par ailleurs, l’idée d’une combinaison de plusieurs modèles permet d’apporter de la diversification en accordant moins d’importance à un seul d’entre eux. En gros, cette approche s’assimile à l’expression populaire : ne pas mettre ses œufs dans le même panier.

Vous avez également comparé vos neuf modèles avec les cotes des matchs générées par Betclic. Quel est celui qui s’approche le plus du site de pari en ligne ?

Au vue de nos différentes simulations, le modèle Bagged CART est celui qui aurait le mieux performé durant le premier tour de la compétition. Une des pistes de recherches complémentaires va consister à comprendre s’il s’agit d’un « coup de chance » ou non.

Avec l’avancement de la compétition et de ses résultats, avez-vous effectué des mises à jour sur vos prédictions ?

Après les huitièmes de finales, nous avons refait tourner nos modèles prédictifs. Le Brésil reste le favori pour gagner la Coupe du monde, tandis que la France est juste derrière. Nos prévisions sont en ligne avec celles de Betclic, ce qui conforte nos résultats, car les sites de paris utilisent également des algorithmes pour calculer leurs cotes.

La France est-elle favorite face à l’Uruguay ?

La France est effectivement favorite pour son quart de finale : les Bleus ont 70% de chance de battre l’Uruguay.

Pour conclure, comptez-vous poursuivre des travaux du même type ?

Oui, nous avons deux idées d’articles de recherche. Le premier vise à s’appuyer sur des modèles de machine learning permettant d’estimer les chances de chaque équipe de remporter la Coupe du monde et de mesurer l’influence de la composition des groupes de poules sur ces probabilités. La composition des huit groupes de poules pourrait en effet favoriser certaines équipes et en pénaliser d’autres. Il s’agira alors de mesurer ce phénomène.

Le second article de recherche concerne l’efficience des stratégies des bookmakers. Nous prévoyons de construire des stratégies pour battre celles des sites de paris en ligne. Si nous y parvenons, cela voudrait dire que ce marché est inefficient.