https://frosthead.com

Un modèle informatique peut-il prédire le premier tour de la folie de mars de cette année?

«Méfiez-vous des idées du mois de mars.» Oui, c'est enfin cette période de l'année: les empereurs du basketball collégial doivent faire attention à leurs arrières, de crainte que les bas résultats de la grève du tournoi ne soient trop graves.

Avant le 15 mars, des millions de personnes dans le monde rempliront leurs crochets de mars Madness. En 2017, ESPN a reçu un nombre record de supports de 18, 8 millions.

La première étape vers un support parfait consiste à choisir correctement le premier tour. Malheureusement, la plupart d'entre nous ne peuvent prédire l'avenir. L'année dernière, seuls 164 des groupes soumis étaient parfaits au premier tour - moins de 0, 001%.

18, 8 millions de crochets soumis.

164 sont parfaits après le premier tour.

Voici à faire trop. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy) 18 mars 2017

De nombreux joueurs sont éliminés lorsqu'une équipe moins bien placée renverse les meilleurs favoris. Depuis que le groupe a été étendu à 64 équipes en 1985, au moins huit bouleversements ont lieu en moyenne chaque année. Si vous voulez gagner votre groupe de support, vous feriez mieux de choisir au moins quelques revers.

Nous sommes deux doctorants en mathématiques candidats de l’Ohio State University qui se passionnent pour la science des données et le basketball. Cette année, nous avons décidé qu'il serait amusant de créer un programme informatique utilisant une approche mathématique pour prédire les bouleversements de premier tour. Si nous avons raison, une tranche choisie à l'aide de notre programme devrait mieux fonctionner au premier tour que la moyenne.

Humains faillibles

Il n’est pas facile d’identifier lequel des matchs de premier tour provoquera une surprise.

Supposons que vous deviez choisir entre la graine n ° 10 et la graine n ° 7. La tête de série n ° 10 a connu des hauts et des bas lors de ses trois dernières apparitions dans le tournoi, ayant même fait une fois le Final Four. La graine numéro 7 est une équipe qui a reçu peu ou pas de couverture nationale; le fan occasionnel n'a probablement jamais entendu parler d'eux. Lequel choisiriez-vous?

Si vous aviez choisi la graine numéro 10 en 2017, vous auriez opté pour la Virginia Commonwealth University au lieu de Saint Mary's of California - et vous auriez eu tort. Grâce à une erreur de décision appelée biais de récence, les humains peuvent être amenés à utiliser leurs observations les plus récentes pour prendre une décision.

Le biais de récence n'est qu'un type de biais qui peut infiltrer le processus de sélection d'une personne, mais il en existe beaucoup d'autres. Peut-être que vous êtes partial envers votre équipe locale ou peut-être que vous vous identifiez à un joueur et que vous voulez désespérément qu'il réussisse. Tout cela influence votre support de manière potentiellement négative. Même les professionnels chevronnés tombent dans ces pièges.

Modélisations

L'apprentissage automatique peut se défendre contre ces pièges.

En apprentissage automatique, statisticiens, mathématiciens et informaticiens forment une machine à faire des prédictions en la laissant "apprendre" à partir de données antérieures. Cette approche a été utilisée dans de nombreux domaines, notamment le marketing, la médecine et le sport.

Les techniques d'apprentissage automatique peuvent être assimilées à une boîte noire. D'abord, vous alimentez les données passées de l'algorithme, essentiellement en plaçant les cadrans sur la boîte noire. Une fois les paramètres calibrés, l’algorithme peut lire les nouvelles données, les comparer aux données antérieures et ensuite extraire ses prévisions.

Une boîte noire d’algorithmes d’apprentissage automatique. Une boîte noire d’algorithmes d’apprentissage automatique. (Matthew Osborne, CC BY-SA)

En apprentissage machine, il existe une variété de boîtes noires disponibles. Pour notre projet March Madness, ceux que nous recherchions sont appelés algorithmes de classification. Celles-ci nous aident à déterminer si un jeu doit ou non être qualifié de «contrarié», soit en fournissant la probabilité d’un déséquilibre, soit en le classant explicitement comme tel.

Notre programme utilise un certain nombre d'algorithmes de classification courants, notamment la régression logistique, les modèles de forêt aléatoire et les k-voisins les plus proches. Chaque méthode est comme une “marque” différente de la même machine; ils travaillent aussi différemment sous le capot que les Ford et les Toyota, mais ils effectuent le même travail de classification. Chaque algorithme, ou case, a ses propres prédictions sur la probabilité d'un bouleversement.

Nous avons utilisé les statistiques de toutes les équipes du premier tour de 2001 à 2017 pour régler les cadrans de nos boîtes noires. Lorsque nous avons testé l'un de nos algorithmes avec les données du premier tour de 2017, le taux de réussite était d'environ 75%. Cela nous donne l'assurance que l'analyse des données passées, plutôt que de simplement faire confiance à notre instinct, peut conduire à des prévisions plus précises des bouleversements, et donc à de meilleures parenthèses.

Quels sont les avantages de ces boîtes par rapport à l'intuition humaine? D'une part, les machines peuvent identifier des modèles dans toutes les données 2001-2017 en quelques secondes. De plus, étant donné que les machines ne reposent que sur des données, elles risquent moins de subir des biais psychologiques.

Cela ne veut pas dire que l'apprentissage automatique nous donnera des supports parfaits. Même si la boîte contourne les préjugés humains, elle n’est pas à l’abri des erreurs. Les résultats dépendent des données passées. Par exemple, si une graine n ° 1 devait perdre au premier tour, notre modèle ne le prédirait probablement pas, car cela n’était jamais arrivé auparavant.

De plus, les algorithmes d'apprentissage machine fonctionnent mieux avec des milliers, voire des millions d'exemples. Depuis 2001, seulement 544 parties du premier tour de March Madness ont été jouées. Par conséquent, nos algorithmes n'appellent pas correctement toutes les surprises. En écho à Jalen Rose, experte en basketball, notre production devrait être utilisée comme un outil en conjonction avec vos connaissances spécialisées - et de la chance! - choisir les bons jeux.

Apprentissage de la folie?

Nous ne sommes pas les premiers à appliquer l'apprentissage automatique à March Madness et nous ne serons pas les derniers. En fait, des techniques d’apprentissage automatique pourraient bientôt être nécessaires pour rendre votre support compétitif.

Vous n'avez pas besoin d'un diplôme en mathématiques pour utiliser l'apprentissage automatique - bien que cela nous aide. Bientôt, l'apprentissage automatique sera plus accessible que jamais. Les personnes intéressées peuvent consulter nos modèles en ligne. N'hésitez pas à explorer nos algorithmes et même à vous proposer une meilleure approche.


Cet article a été publié à l'origine sur The Conversation. La conversation

Matthew Osborne, candidat au doctorat en mathématiques, Ohio State University

Kevin Nowland, candidat au doctorat en mathématiques, Ohio State University

Un modèle informatique peut-il prédire le premier tour de la folie de mars de cette année?