Problème de statistiques

invitebdb73092 · 28/11/2013, 14h13

Bonjour, je suis étudiante en Master qualité et j'ai un problème avec un ex de stats :
Voici l'intitulé :

Dans le tirage du loto, (on tire au hasard 6 numéros entre 1 et 49) , le numéro 7 est sorti 47 fois parmi les 300 derniers tirages.
1/ quelle est la probabilité d'obtenir le numéro 7 lors d'un tirage du loto ?
2/ Une personne (malintentionnée! )prétend que ce nombre est anormalement élevé et que la machine qui tire les numéros ne respecte pas le hasard.
Au seuil de 5%, peut-on accepter cette critique ?
3/ Que peut-on déduire quant à l'apparition du numéro 7 dans les tirages futurs ?

Pour la 1ière question, je pense utiliser la loi hypergéométrique :

p(X) = [C(1 1) x C(5 48)] / C(6 49) = 0.1224

Pour la 2ième question, je pense utiliser Khi 2 ..

Qu'en pensez vous ? je vous remercie par avance ...

invite179e6258 · 28/11/2013, 14h17

pour 2) je calculerais la probabilité de tirer au moins 47 fois le numéro 7, sous l'hypothèse d'équiprobabilité. Si cette proba est inférieure à 5% tu rejettes l'hypothèse d'équiprobabilité au seuil de 5% (ce n'est pas très correct parce qu'en principe on n'a pas le droit de tester une hypothèse qui découle des observations, mais je pense que c'est la réponse attendue ici).

**gg0** · 28/11/2013, 15h04

Bonjour.

Le test de fréquence aurait un sens si le numéro 7 avait été pris au hasard parmi les 49. Mais comme il a été choisi parce qu'il a le maximum de sorties, il faudrait tester la fréquence maximale sur 49 possibilités équiprobables. Ce genre de chose existe sans doute dans la littérature probabiliste, mais je n'ai pas de référence (voir "statistiques d'ordre").
Raisonner su la probabilité qu'un numéro sorte au hasard 47 fois sur 300 tirages est donc malsain.
J'ai peur cependant que ce soit l'idée de l'auteur de l'exercice !

Pour le test du khi-deux, si on fait 2 classes :7 ou tous les autres numéros, ça revient à faire un test de fréquence. Donc ce n'est pas utile. Il faudrait le faire avec les 49 nombres de sorties (je l'ai eu fait vers l'an 2000, le test n'était pas significatif, on ne pouvait rejeter l'équiprobabilité).

Cordialement.

invite179e6258 · 29/11/2013, 08h30

ah tiens je n'avais pas vu les choses comme ça. Effectivement, même si l'énoncé ne le dit pas, il est vraisemblable que le 7 soit le numéro sorti le plus souvent. On peut calculer la loi du tirage le plus fréquent dans les cas simples. Dans un cas plus complexe on peut la simuler.

A voir en vidéo sur Futura · Aujourd'hui

**gg0** · 29/11/2013, 10h18

A vrai dire,

ça fait des années que je vois cette question et qu'elle me met mal à l'aise. Hier, j'ai enfin trouvé où est la faute de raisonnement.
En fait, il y a une erreur plus fondamentale : Tout événement aléatoire rare peut se produire, une fois qu'il s'est produit, faire un test à partir de sa probabilité de se produire ne peut que donner un résultat significatif et induire la conclusion qu'il est malsain de penser qu'il s'est produit "normalement", "au hasard". En effet, on ne traite plus d'un ensemble d'événements aléatoires, mais d'un événement unique.
Par exemple, le dernier gagnant au loto peut faire le test basé sur : "sachant que je joue toutes les semaines depuis 5 ans, quelle est la probabilité que j'aie gagné une fois". le test est significatif au seuil de 5%, il devrait en conclure qu'il a triché ? Bien sûr que non.

Cordialement.

invite179e6258 · 29/11/2013, 10h35

c'est un peu ce que je disais : on ne peut pas tester sur des données une hypothèse qu'on a élaborée au vu des mêmes données. Fisher d'ailleurs était très clair avec ça : l'hypothèse (et la stratégie de test) doivent précéder le recueil des données.

Ce qui serait correct, c'est : au vu d'un excès de 7 qui semble anormal, observer les N prochains tirages et, en se basant seulement sur ces tirages, tester si le 7 sort plus souvent qu'attendu sous l'hypothèse d'équiprobabilité.

Maintenant, moi qui travaille avec des biologistes, je vois très souvent faire (quasiment toujours) des tests post-hoc et ça passe dans les journaux... ensuite d'autres équipes n'arrivent pas à reproduire les résultats de la première...

Problème de statistiques