Bonjour tout le monde,

La ligue majeure de baseball (première division américaine) produit chaque année, et ce depuis plusieurs décennies, des statistiques complètes sur chaque joueur, chaque équipe, chaque action de jeu, de sorte qu'il est possible de visualiser précisément le déroulement d'un match rien qu'avec le détail de ces statistiques. Étant passionné de ce sport et pariant régulièrement sur l'issu ou le score d'une rencontre, j'ai voulu réaliser un modèle prédictif pour m'aider dans le choix de mes paris (m'aider et non m'influencer pleinement, la part psychologique et l'incertitude du sport étant loin d'êtres négligeables).

Pour ce faire, je me suis basé sur un tableau d'une quarantaine de paramètres détaillés sur plusieurs milliers de lignes. Certains de ces paramètres sont fortement corrélés entre eux (car construits à partir d'autres, ce sont les données sabermétriques), d'autres bien moins. J'ai réalisé deux régressions linéaires multiples (l'une pour expliquer le score, l'autre la victoire) en utilisant les paramètres les plus corrélés à la variable expliquée en question (coefficient de corrélation > 0,5). D'après ce que j'ai pu lire sur le fait de maximiser le coefficient de détermination ajusté, cette multicolinéarité n'est pas gênante, mais un modèle finale à nombre élevé de variables explicatives doit présenter une variance, un Cp de Mallows et un critère PRESS le plus bas possible, et ce afin de trouver le meilleur compromis entre un modèle trop simple présentant des résidus importants, et un modèle trop complexe très instable.

Ainsi, j'ai pu obtenir un coefficient de détermination d'environ 0,4 pour la victoire et d'environ 0,7 pour le score. Seul ce dernier modèle s'avère intéressant, mais il ne fonctionne bien qu'avec un grand nombre de lignes, limitant sa prédiction à une saison quasi complète, et non à un match en particulier. Après avoir cherché ce qui se faisait pour d'autres sports (https://fr.wikipedia.org/wiki/Pr%C3%...ts_de_football), la régression linéaire s'avèrerait peu fiable, comparée aux algorithmes de maximum de vraisemblance et à celui de Monte Carlo.

Le problème est que je ne suis pas du tout statisticien, j'utilise uniquement Excel et VBA pour automatiser le traitement, et je ne vois pas comment appliquer ces modèles au baseball, ni si j'ai fait des erreurs dans les présupposés concernant l'application de la régression linéaire multiple (je précise que j'ai vérifié au préalable la linéarité des variables explicatives). A cela s'ajoute la question du choix des données d'entrée, crucial, mais c'est un autre sujet.

Je vous remercie par avance pour vos réponses.

PS : ce sujet est lié à un autre, dans la partie programmation : http://forums.futura-sciences.com/pr...-multiple.html