Statistiques sur une épreuve de Bernoulli

**Grumpf** · 20/10/2022, 19h57

Bonjour à tous,

Après avoir fait quelques recherches sans succès, notamment sur ce forum, je me décide à ouvrir ce sujet.

Il s'agit de calculs à propos d'une épreuve de Bernoulli. Pour illustrer, supposons que je réalise une suite de tirages de dés, en essayant à chaque tirage de deviner quel est le nombre qui va sortir.

J'ai d'abord voulu chercher, pour n tirages, la probabilité d'obtenir c bonnes réponses si l'effet est purement aléatoire. Avec papier et crayon j'ai trouvé ce qui me semblait être la bonne formule, puis j'en ai eu confirmation lors de recherches complémentaires : il s'agit d'une loi binomiale.

Cependant, je voudrais aller un peu plus loin. Deviner 3 tirages sur 6 est beaucoup plus probable que deviner, par exemple, 200 tirages sur 1000. La loi binomiale me montre bien cet effet, mais elle est associée à la distribution de l'ensemble des résultats possibles, donc elle décroit logiquement avec le nombre d'essais. Il me semble me rappeler, de ma lointaine utilisation des statistiques, qu'il est possible d'obtenir la significativité du résultat.

J'ai fait des recherches sur le khi2 (sauf erreur j'ai dans cet exemple 5 degrés de liberté), ANOVA, etc. mais je n'ai pas trouvé de réponse à ma question.

Comment puis-je calculer la significativité d'un résultat à cette épreuve ? Eventuellement, sous Excel ? Merci pour vos réponses

(et que les puristes me pardonnent si je n'ai pas employé les termes adéquats).

**gg0** · 20/10/2022, 20h15

Bonjour.

Il va falloir rentrer dans les détails, car pour l'instant, on ne sait pas trop ce qui se passe. Il y a une infinité de lois de Bernoulli, une infinité de lois binomiales, et la notion de "deviner" n'est pas probabiliste.
Pour ce qui est des statistiques, la notion de "significativité du résultat" n'existe pas, ce qui peut être significatif, c'est un test, quand l'expérience montre un rejet de l'hypothèse comme raisonnable, et encore ... avec un certain risque de se tromper.

Donc :
* Quelle est cette épreuve ? quel type de résultats, combien sont possibles ...
* Quelle statistique est faite ?
* Quel est ton but ?

Cordialement.

**Grumpf** · 21/10/2022, 16h06

Bonjour gg0 (toujours fidèle au poste !

), merci pour votre réponse.

Je vais essayer d'être plus précis.

Envoyé par gg0

* Quelle est cette épreuve ? quel type de résultats, combien sont possibles ...
* Quelle statistique est faite ?

L'exemple que je cite est parfaitement représentatif de ce que je cherche à analyser. Je pensais, apparemment à tort, qu'utiliser cet exemple puis de dire que la probabilité d'obtenir c bonne réponses correspondait à une loi binomiale suffisait à expliquer clairement mon objectif, mais il semble que ça ne soit pas le cas. Je vais faire mon mieux pour reformuler.

une épreuve de Bernoulli, cf. Wikipédia

une épreuve de Bernoulli (...) est une expérience aléatoire (c'est-à-dire soumise au hasard) comportant deux issues, le succès ou l'échec.

Un jeu avec tirage de dés où l'on cherche à deviner le résultat me semble répondre parfaitement à cette définition. Avec un dé, et par exemple 100 tirages, la loi binomale (je n'en connais qu'une, désolé de ne pouvoir être plus précis) me donne 6,79% de "chances" d'avoir 20 fois la bonne réponse (ce que j'appelle "deviner").

Envoyé par gg0

* Quel est ton but ?

On va dire, essentiellement un but purement intellectuel. Calculer le niveau de confiance que ce résultat soit compatible avec l'hypothèse nulle (résultat parfaitement aléatoire).

Envoyé par gg0

Pour ce qui est des statistiques, la notion de "significativité du résultat" n'existe pas, ce qui peut être significatif, c'est un test, quand l'expérience montre un rejet de l'hypothèse comme raisonnable, et encore ... avec un certain risque de se tromper.

Malheureusement, il y a 25 ans que je n'ai pas fait de statistiques et il va m'être difficile d'exprimer précisément ce que je veux (j'avais bien demandé d'être indulgent si je n'utilise pas les termes adéquats

).

Comme je tentais maladroitement de l'expliquer, la loi binomiale n'est pas très informative dans la mesure où :
* Elle ne permet pas de savoir dans quelle mesure un résultat donné est compatible ou non avec l'hypothèse nulle
* Elle tient compte de la distribution des résultats possibles (de 0 à 100 bonnes réponses dans mon exemple), et j'ai l'impression (et / ou le souvenir), qu'elle ne donne pas le niveau de confiance par rapport à l'hypothèse nulle.

D'où mon souhait de me tourner vers des statistiques type khi2 (à une variable, je pense) ou ANOVA (ou autres), dont il me semble me rappeler qu'on pouvait les assimiler (peut-être improprement) à un "niveau de signiticativité". Si le niveau de confiance souhaité est de 95%, on va moins calcule le khi2 et le comparer à la valeur théorique correspondante. Si la valeur calculée est supérieure à la valeur théorique, on a alors de 5% de "chances" que le résultat soit compatible avec l'hypothèse nulle.

Vous savez très certainement parfaitement cela, et c'est probablement très maladroitement exprimé, voire comportant des erreurs, mais je fais de mon mieux pour préciser ce que je cherche à calculer.

Cordialement.

**gg0** · 21/10/2022, 17h54

Bon, je comprends que tu veux tester par exemple l'équiprobabilité des sorties d'un dé. Dans ce cas, ce n'est pas la loi binomiale qui servira, mais la loi multinomiale. Ça tombe bien, elle est à la base du test du khi-deux.
C'est ce test qu'on peut utiliser.

Ça n'a pas l'air urgent, je regarderai plus tard.

Cordialement

A voir en vidéo sur Futura · Aujourd'hui

**Grumpf** · 23/10/2022, 16h39

Effectivement, il n'y a aucune urgence

. Je vais regarder de mon côté du côté de la loi multinomiale, merci.

**gg0** · 23/10/2022, 18h05

J'ai un peu plus de temps, et après réflexion, le test du khi-deux est tout à fait adapté. Il faut avoir un bon nombre de tirages, au moins 30 pour tester l'équiprobabilité des sorties d'un dé (plus si c'est une répartition inégale qu'on teste). Raisonnablement, il vaut mieux en avoir le double ou le triple.

Cordialement.

**Grumpf** · 26/10/2022, 11h33

Bonjour,

Merci pour ta réponse, ça nous renvoie donc à ma question initiale : comment le calculer ? J'ai fait des essais sous excel mais je ne comprends pas bien, j'ai l'impression que la formule est faite pour calculer le khi2 à plusieurs variables. J'ai également fait pas mal de recherches, mais je n'arrive pas à trouver la bonne formule pour mon cas.

**gg0** · 26/10/2022, 13h41

Le test du khi-deux sert à comparer deux séries ou tableaux d'effectifs de classes entre eux, l'hypothèse H0 étant que les deux séries sont tirées d'une même population (ou suivant la même loi). Pour un test de répartition suivant une loi donnée, on compare la série réelle avec la série théorique de même effectif total.
Par exemple, si les sorties de 1 à 6 se sont faites suivant la répartition
7, 12, 10, 13, 9, 10 (de total 61) on comparera à la série (théorique !!) correspondant à un tirage équiprobable :
61/6, 61/6, 61/6, 61/6, 61/6, 61/6.

La fonction TEST.KHIDEUX appliquée à ces tableaux renvoie une "probabilité", p, qui s'interprète, en fonction du risque r, ainsi :
* Si p<r alors le test échoue : On est fondé à rejeter l'hypothèse H0, avec le risque r de se tromper si H0 est vraie (ce n'est pas une preuve !!)
* Si p>r, on n'a pas de raison forte de rejeter H0. Ce qui ne veut pas dire qu'on est sûr qu'elle est vraie.

Pour la série ci dessus, au risque 5% (traditionnel, mais trompeur quand même une fois sur 20), r=0,05; on trouve p=0,814, on n'a pas de raison de rejeter l'idée que le tirage est équiprobable.
(attention, c'est une forme très peu conventionnelle du test, généralement on obtient une "p-value" 1-p à comparer à 1-r).

Si la taille des données augmente, le test devient plus puissant (fait mieux la différence entre rejet ou acceptation de H0). par exemple en multipliant par 10 les effectifs (70,120, ...) on a une série pour laquelle p=0,0004, donc on est fondé à rejeter l'hypothèse d'équirépartition.

Cordialement.

**Grumpf** · 31/10/2022, 20h19

Bonjour gg0,

J'ai repris mes recherches et je pense avoir enfin trouvé la réponse à ma question.

L'exemple que tu cites, sauf erreur, consiste à vérifier que la répartition des tirages de dés est équiprobable. On pourrait faire ce test, par exemple, pour vérifier que le dé n'est pas pipé. Mais ce n'est pas ce que je cherche à calculer.

J'aurais peut-être dû prendre un exemple concret. Supposons donc que je dispose d'un logiciel (un oracle) qui tente de répondre à la question : "quelle sera la prochaine valeur du tirage ?", par exemple en filmant et analysant les premiers dixièmes de secondes du lancer du dé. L'oracle peut trouver la bonne valeur qui va sortir, ou se tromper. Il n'y a donc que deux valeurs possibles (valeur correctement prédite ou erreur) et c'est bien la loi binomiale qui est applicable.

Supposons que je réalise 5 lancés : (1, 4, 2, 6, 4), et que l'oracle prédit les tirages (2, 4, 3, 6, 1). L'oracle a répondu correctement dans deux cas (deuxième et quatrième tirages). Ce qui importe, ce n'est pas la valeur du dé, mais est ce que l'oracle a trouvé la bonne valeur. Dans ce cas, il a trouvé 2 fois la bonne réponse, contre 0.833 pour une réponse au hasard (5 tirages avec chacun une chance sur 6). Bien sûr, je n'ai pas assez de tirages pour que cela soit significatif, c'est juste un exemple pour illustrer.

Je pense avoir trouvé comment calculer le khi2 dans ce cas, sur les pages suivantes :

independence-testing et goodness-of-fit.

J'ai calculé le khi2 de deux façons différentes :

1) en calculant la quaité d'ajustement (goodness of fit) d'après le second lien ci-dessus (c'est la valeur z2 dans le cas d'une distribution binomiale), puis en calculant le khi2 sous Excel (fonction LOI.KHIDEUX.DROITE), avec 1 degré de liberté (puisque 2 réponse possibles seulement).

2) en calculant directement le khi2 à partir d'un tableau à 4 cases : le nombre de bonnes et de mauvaises réponses attendues et le nombre de bonnes et mauvaises réponses obtenues (fonction TEST.KHIDEUX). Dans ce cas, le nombre de degrés de libertés est calculé automatiquement.

Je trouve le même résultat, ce qui semble bien indiquer que la formule est correcte. Par exemple, s'il y a 50 tirages et 15 bonnes réponses (pour 8.33 attendues), j'ai un khi2 égal à 1.14%, avec 0.0114 < 0.05, semblant indiquer que l'hypothèse nulle n'est pas valide, et donc que l'oracle fonctionne.

Je me pose maintenant une nouvelle question. Si par exemple l'oracle a trouvé 5 bonnes réponses sur 5, j'ai un khi2 très faible : 0.00006%. Pour autant, je ne peux pas être certain que l'oracle fonctionne, sur 5 tirages, il peut simplement s'agit d'un coup de chance. Donc, existe-t-il un moyen de savoir à partir de combien de tirages je peux me fier au test khi2 pour tirer une conclusion sur l'invalidité probable de l'hypothèse nulle ?

**Grumpf** · 31/10/2022, 20h34

Envoyé par Grumpf

Je me pose maintenant une nouvelle question. Si par exemple l'oracle a trouvé 5 bonnes réponses sur 5, j'ai un khi2 très faible : 0.00006%. Pour autant, je ne peux pas être certain que l'oracle fonctionne, sur 5 tirages, il peut simplement s'agit d'un coup de chance. Donc, existe-t-il un moyen de savoir à partir de combien de tirages je peux me fier au test khi2 pour tirer une conclusion sur l'invalidité probable de l'hypothèse nulle ?

Je tente une réponse partielle, j'ai vu qu'une condition nécessaire est que les valeurs théoriques calculées soient supérieures à 5. Cela implique, dans mon exemple, qu'il faut au moins 30 tirages (soit sous H0, 5 réponses correctes et 25 erreurs). Est-ce une condition suffisante ?

**gg0** · 31/10/2022, 22h06

Bonsoir.

Les tests d'hypothèses ne donnent aucune certitude. Une série de 100 bonnes réponses peut être un énorme coup de chance.
La règle des "au moins 5 individus par classe" ne concerne pas les conclusions du test, mais ses conditions d'utilisation. La loi du khi-deux étant utilisée comme approximation, il faut suffisamment d'individus pour que l'approximation soit acceptable.

Cordialement.

**Grumpf** · 01/11/2022, 12h35

Bonjour gg0,

Oui bien sûr, il ne s'agit pas de preuves, j'en ai conscience. Merci beaucoup pour ton aide.

Le fil peut être fermé, je n'ai plus de questions !

Statistiques sur une épreuve de Bernoulli

Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Re : Statistiques sur une épreuve de Bernoulli

Discussions similaires

Maîtrise statistiques des procédés (Qualité & Statistiques )

Epreuve de Bernoulli

Estimation de la probabilité de gagner un jeu de réussite (épreuve de Bernoulli)

Epreuve de statistiques partiel L2