Intervalle de confiance

Dlzlogic · 23/12/2016, 17h19

Bonjour,
Cette question du calcul de l'intervalle de confiance fait couler beaucoup de bits.
Il y a deux ou trois ans, j'avais écrit un papier assez détaillé sur le sujet, avec des exemples d'énoncés lus ici et là, avec l'analyse détaillée que me suggère ces exercices.
Je préfère ouvrit un autre fil, puisque j'essaye d'aborder le sujet de façon théorique.

http://www.dlzlogic.com/aides/Test_qualite.pdf

Bonne lecture et merci d'avance pour les reactions.

invitebd98b571 · 23/12/2016, 20h19

Bonsoir
il y a 3 jours :

Envoyé par mathias12

pour 136 personnes issues d'un échantillon aléatoire atteints d'une maladie, on recueille leur âge. Sur les 68 premiers il y a 64 personnes qui ont moins de 20 ans et sur les 68 dernières il y a 56 de moins de 20 ans. Sur l'ensemble de l'échantillon, on souhaite construire un intervalle qui contiendrait la probabilité d'avoir moins de 20 ans dans cette maladie avec une probabilité de 95%.

Tu répondais ceci :

Envoyé par Dlzlogic

Bon, voici mon calcul.
D'abord, il faut qu'on soit sûr de l'expression "intervalle de confiance à 95%". Pour moi, cela veut dire que sur un grand nombre d'expériences, il n'y en aura que 5% qui dépasseront les bornes de l'intervalle de confiance.
Le premier échantillon donne une proportion de moins de 20 ans = 64/68 = 0.941
Le second échanillon donne une proportion de moins de 20 ans = 56/68 = 0.823
soit une moyenne de 0.882. e1 = e2 = 0.059
L'écart type=sqrt((e1² + e2²)/(2-1)) = 0.083
L'intervalle de confiance = 95% est obtenu au niveau de 2 écart-type = 0.166
D'où borne supérieure = 0.882 + 0.166 = 1.048
borne inférieure = 0.082 - 0.166 = 0.716
Il est bien évident que la borne supérieure est à majorer par 1.00.

Discussion : les proportions observées étant 0.823 et 0.941, les bornes de l'intervalle de confiance seront forcément au-delà de celles-ci. Le contraire sous-entendrait que les valeurs servant au calcul seraient dans la tranche des 5%.

D'où intervalle [0.716 ; 1] pour 120 éléments positifs sur un échantillon de 136...
As-tu une réaction sur ta solution ?

Dlzlogic · 23/12/2016, 22h08

@ PrRou
Ta réponse est un peu hors-sujet, puisque il s'agit ici de critiquer mon papier, mais je vais répondre.
Dans le cas général et dans le cas particulier de l'énoncé que tu cites, l'intérêt de calculer un intervalle de confiance est de juger de la pertinence d'une observation.
En d'autres termes, si une statistique d'un hôpital quelconque est entre les bornes, alors elle peut être jugée satisfaisant et non satisfaisante dans le cas contraire.
Dans le cas présent, la proportion de malades de moins de 20 ans est estimée à 0.882. A partir de quoi ce nombre a été fixé ? à parir de deux comptages (0.823 et 0.941), soit une différence de 0.118. Etant donné cette imprécision dans le calcul de la moyenne à quel titre pourrait-on refuser une statistique qui serait hors de l'intervalle que tu proposes ? Et même, la statistique servant au calcul de la moyenne sera refusé.
Tu penses pas qu'il y a un petit souci de logique ?
*** agressivité inutile ***

invitebd98b571 · 23/12/2016, 23h36

Un souci de logique ? oh oui, il y en a un.

Grâce à un intervalle de confiance rudimentaire, un élève de seconde donnera l'intervalle de confiance
[f - 1/sqrt(n) ; f + 1/sqrt(n)] avec n=136 et f=120/n,
c'est-à-dire [0.797 ; 0.968]

Grâce à un intervalle de confiance plus habituel donné dans les livres de statistique (à partir de la terminale), on calcule l'intervalle de confiance
[f - 1.96 sqrt( f.(1-f)/n ) ; f + 1.96 sqrt( f.(1-f)/n )],
c'est-à-dire [0.828 ; 0.937]

On pourrait encore raffiner un peu mais ce n'est pas la peine, on voit déjà très bien ce qu'il en est.

Sur cet exercice élémentaire, comment expliques-tu que tu obtiens un intervalle de confiance énorme [0.716 ; 1] ?
(perdant ainsi tout intérêt dans l'estimation du paramètre inconnu avec le niveau de confiance demandé de 95%)

Quelle définition mathématique de l'intervalle de confiance utilises-tu pour arriver à un tel résultat ?
Ton papier traite des intervalles de confiance, donc tu peux nous rappeler cette définition, ou à défaut une formule.

A voir en vidéo sur Futura · Aujourd'hui

Dlzlogic · 24/12/2016, 00h20

Bon, c'est ma dernière réponse à ce hors-sujet.
Les hypothèses sont très simples :
On a un évènement A et un évènement B.
La manipulation de ces deux évènements permet de déterminer les bornes Bmin et Bmax tels que un évènement X est jugé satisfaisant s'il se situe dans l'intervalle [Bmin ; Bmax] (à concurrence de 95%).
Ton calcul mène à un intervalle valable (à 95%) tel que les évènements A et B lui sont extérieurs, c'est à dire que les évènements A et B sont hors de "l'intervalle de confiance à 95%". il en résulte que ces évènement A et B sont non satisfaisants. Ils doivent donc être rejetés.
On ne peut qu'en déduire que la logique du calcul est fausse. Il est impossible de tirer la moindre conclusion d'une méthode qui déclare les éléments de base faux.
[svp aux lecteurs, un coup de main. Merci.]

invitebd98b571 · 24/12/2016, 13h59

Nous sommes tout à fait dans le sujet : le titre de la discussion est "Intervalle de confiance", et nous parlons justement d'intervalle de confiance.
Tu veux qu'on porte un avis sur ta prose, alors je te demande de l'exposer. C'est ce que tu fais parfaitement bien.

Envoyé par Dlzlogic

On a un évènement A et un évènement B.
La manipulation de ces deux évènements permet de déterminer les bornes Bmin et Bmax tels que un évènement X est jugé satisfaisant s'il se situe dans l'intervalle [Bmin ; Bmax] (à concurrence de 95%).

Je ne sais pas si le mot événement est bien choisi.

...et si on avait une seule donnée, par exemple : "sur les 68 premiers il y a 64 personnes qui ont moins de 20 ans",
est-ce qu'on peut refaire ton calcul ? Vu ce que tu as présenté, j'ai peur que non, à cause d'une division par zéro... n'est-ce pas ?

Envoyé par Dlzlogic

Ton calcul mène à un intervalle valable (à 95%) tel que les évènements A et B lui sont extérieurs, c'est à dire que les évènements A et B sont hors de "l'intervalle de confiance à 95%". il en résulte que ces évènement A et B sont non satisfaisants. Ils doivent donc être rejetés.

Mauvaise interprétation de ce qu'est un intervalle de confiance, il n'y a rien à rejeter...
Il ne faut pas confondre la valeur du paramètre p de la loi de Bernoulli (c'est ce paramètre que l'on veut estimer par encadrement),
et les fréquences observées (qui fluctuent autour de p) qui sont données dans l'énoncé.

Quand on dit que l'intervalle de confiance est [0.828 ; 0.937], c'est qu'on "pense" que le paramètre inconnu p appartient à cet intervalle de confiance à 95%.

(Contrairement à ce que tu affirmes) cela ne signifie aucunement que toutes les fréquences observées via un échantillon appartiennent à [0.828 ; 0.937] à 95%, bien au contraire :
pour tout p appartenant à l'intervalle [0.828 ; 0.937] , les deux fréquences observées appartiennent à un intervalle de fluctuation à 95% lié à la valeur de p, et cet intervalle de fluctuation (dépendant de p) n'est pas [0.828 ; 0.937] !

Envoyé par Dlzlogic

On ne peut qu'en déduire que la logique du calcul est fausse.

Voilà qui rassurera tout lecteur.

Envoyé par Dlzlogic

Il est impossible de tirer la moindre conclusion d'une méthode qui déclare les éléments de base faux.

Qui déclare des << éléments faux >> ?

Dlzlogic · 24/12/2016, 15h21

Bon, j'ai lu soigneusement les définitions que j'ai trouvées et j'en ai compris ceci :

1- on réalise une certaine opération, quelle qu'elle soit, par les moyens que l'on veut. Cette opération produit un résultat, appelons là "moyenne". Tout ça est très bien, mais à quoi cela va servir ? Tout simplement, lors d'autres opérations du même type, à comparer les résultats. Donc on va chercher à déterminer la précision de cette opération qu'on peut appeler "de base". En langage mathématique, ça s'appelle moyenne et écart-type. En langage scolaire, ça s'appelle estimation et intervalle de confiance. Suivant la méthode utilisée, on pourra éventuellement appeler ça intervalle de fluctuation ou intervalle de pari (par exemple, dans le cas de jet de dés). Je précise bien que cette première opération n'a pour but que de trouver la moyenne et la précision.

2- Maintenant qu'on a mis au point notre méthode d'observation (moyenne et précision) on va pouvoir l'utiliser. Pour des raisons qui sont obscures pour moi, cf mon papier, on a l'habitude de tenir compte d'un rapport de 95%. Cela sous-entend que les observations dont le résultat se situe dans la tranche 95% sont considérés comme satisfaisants, pas les autres : faute à "pas de chance".

Dans le cas des malades de moins de 20 ans, on dispose de deux mesures, 0.941 et 0.823, et rien d'autre. Ces deux mesures (ou évènements) sont indépendant et résultent du hasard, quant à la valeur numérique. On n'a pas d'autre information.
La moyenne est 0.882, pas de problème. La question posée est quel est l'intervalle de confiance ? En d'autres termes, un peu peu plus mathématiques, quelle est la précision. Comme dit précédemment, on cherche cet intervalle à 95%, cela signifie : "quel est l'intervalle tel que 95% des observations y soit contenues ?".
N'importe quelle table de répartition des écarts montre que cette proportion de réussite de 95% est obtenue pour des écarts inférieurs à 2 écarts-types. Reste donc à calculer l'écart-type avec les valeurs observées, soit 0.941 et 0.823. J'ai détaillé cela dans des réponses précédentes.
Ceci est l'application stricte des lois de probabilités.

Les formule que tu utilises sont à peu près valables dans certaines conditions. De mémoire au moins 30 observations et une probabilité suffisamment proche de 50%. Aucune de ces conditions n'est respectée dans le cas présent, la preuve en est qu'on arrive à un résultat aberrant, puisque les valeurs servant au calcul sont hors de l'intervalle de confiance.

Il ne faut pas oublier que les techniques enseignées sont des simplifications à usage de formation. Dans le cas présent, on suppose que la liste, donc les deux groupes de comptage, résultent d'un tirage aléatoire, c'est à dire ne dépendant que du hasard. Les très nombreuses expériences réalisées dans cet esprit montrent que c'est toujours le cas (s'il n'y a pas eu de tricherie), c'est exactement ce que dit le TCL (théorème central en probabilités).

Petite remarque sur l'écart-type. On se situe exactement dans le contexte où le dénominateur dans le calcul est (N-1), puisque la moyenne vraie n'est pas connue. On ne connait que la moyenne observée.

invitebd98b571 · 25/12/2016, 00h53

Très joli laïus... où on a l'impression que tu ne comprends pas ce qu'est un "événement" dans cette situation :
tu dis qu'on dispose d'uniquement 2 événements, alors qu'il y en a réalité 2*68...

Envoyé par Dlzlogic

Dans le cas des malades de moins de 20 ans, on dispose de deux mesures, 0.941 et 0.823, et rien d'autre.
(...)
Petite remarque sur l'écart-type. On se situe exactement dans le contexte où le dénominateur dans le calcul est (N-1), puisque la moyenne vraie n'est pas connue. On ne connait que la moyenne observée.

Si on avait seulement cette partie d'énoncé : "sur les 68 premiers il y a 64 personnes qui ont moins de 20 ans", (c'est-à-dire un seul événement en ton sens)
est-ce qu'on peut refaire ton calcul ?

Vu ce que tu as présenté, j'ai peur que non, à cause d'une division par zéro, le fameux 1/(N-1) quand N=1...

C'est bien ça ?

Dlzlogic · 25/12/2016, 12h36

Bonjour,
L'exercice auquel tu fais allusion et très intéressant, puisqu'il met en évidence que l'utilisation de formules mal comprises peu mener à des aberrations.

Prenons donc l'exemple des 136 malades. On le divise en deux groupes A et B et on calcule les moyennes que tu sais.
Plus tard, arrive un autre groupe de 136 malades. On le divise en deux groupes C et D et on calcule les moyennes comme d'habitude.

Les services médicaux ont gardé en mémoire et même noté les deux proportions 0.941 et 0.823 pour A et B.
Comme il est consciencieux, il t'a demandé l'intervalle de confiance de cette moyenne, tu lui a répondu [tes résultats de calcul que je n'oserai répéter].
Les comptages pour C et D donnent 65 et 62 malades de moins de 20 ans. Le responsable des services médicaux viendra te dire "mais ce second groupe (C+D) est complètement faux, je vais appeler celui qui me l'a envoyés et lui dire ma façon de penser !

"

Ca me rappelle un énoncé où il était question d'un bandit qui se cachait dans une maison d'une rangée de 30, ou bien dans le bois. Le commandant de l'opération demande à l'adjudant quelle est la probabilité que le bandit se cache dans la dernière maison non encore visitée. Celui-ci fait le calcul où intervient naturellement le nombre 30.
Et là, c'est mon rajout : arrive, un peu essoufflé, un autre adjudant qui visitait 30 maisons d'une rue adjacente. Tu imagines l'invraisemblance du premier calcul ?

Là, intervient la notion "sachant que". Qui "sait que", le calculateur ou M. Le Hasard ? John Hartong dit même que "il faudrait supposer que la corde sache la position d'une de ses extrémités". Et bien figure-toi que certains croient en cette possibilité (réf si tu veux).

Pour en revenir à ce que tu appelles "le division par zéro", là tu as loupé une étape : il ne s'agit pas d'une division par zéro mais d'un cas d'indétermination 0/0. Je l'explique dans mon premier papier et je sais que tu l'as lu :

Supposons maintenant que l'on n'ait qu'une seule mesure. A l'évidence l'écart
type est inconnu, c'est à dire indéterminé et certainement pas 0, que l'on obtient
bien en calculant l'expression qui vaut 0/0.

(pages 9 et 10 de mon papier "Notions de probabilités")

Quand on parle d'intervalle de confiance, ça veut dire "dans quel intervalle peut-on supposer que tel résultat est vrai ?". Je pense réellement que ce rajout de "à 95%" fausse le jugement et la compréhension de la question. Si on avait dit à 99%, on aurait dit "il se réserve une marge de sécurité !". Si on avait dit à 99,3 % là on aurait dit, il se fiche de nous, où va-t-il chercher une telle précision ? Comme je l'ai dit au début de mon papier, j'ignore d'où vient cette habitude de 95%. Si on se contentais de préciser l'écart-type (= EMQ), ce serait parfaitement précis et clair pour ceux qui en ont besoin. Apparemment on a rajouté cette notion d'intervalle de confiance à X%.

Je cite une partie d'une question posée sur un autre forum tout dernièrement :

"Les mesures de la qualité géométrique font état d’une précision qui varie, selon les thèmes, entre 15
et 50 m en erreur moyenne quadratique."
[...]
Je ne suis pas un pro de la notion d'EMQ... avec une EMQ de 50m, a-t-on une idée de l'erreur vraie maximale sur un point donné ?

Cette expression EMQ (à l'évidence toujours utilisée) a été traduite en "écart type" il y a quelques dizaines d'années. Mais, on n'a jamais pu me dire de quoi c'était le type.

invitebd98b571 · 25/12/2016, 18h23

Envoyé par Dlzlogic

L'exercice auquel tu fais allusion et très intéressant, puisqu'il met en évidence que l'utilisation de formules mal comprises peu mener à des aberrations.

Je n'aurais pas dit mieux ! tu en as fait la preuve.

Dlzlogic · 25/12/2016, 18h57

Bon, soyons sérieux, j'ai ouvert ce fil pour parler de l'intervalle de confiance, et non d'un exercice théorique.
J'ai expliqué ce qu'était un intervalle de confiance, c'est à dire un intervalle à l'intérieur du quel on peut avoir confiance dans les résultats.
Tu m'as branché sur un exercice théorique, ne reflétant pas la réalité, mais intéressant quant aux résultats.
Ce fil concerne l'intervalle de confiance et non pas une application fantaisiste de la loi binomiale qui n'est vraie que pour N tendant vers l'infini et à peu près utilisable sous certaines hypothèses, ce qui n'est absolument pas le cas dans l'énoncé dont on parle.
Si tu as une opinion particulière à propos de l'intervalle de confiance (méthode de calcul et/ou utilisation) alors dis-le. Si tu tiens à prendre un exemple particulier, détaille-en les hypothèses et éventuellement ton interprétation personnel.

[HS] D'après tes calculs, les 2 groupes de 68 n'appartiennent pas à l'intervalle de confiance, alors, c'est bon ou c'est faux ou "c'est comme on veut" ou "on peut pas savoir" ou "quelle loi de probabilité" ou etc.? (je parle mathématiques, cf une discussion sur le sujet il n'y a pas très longtemps). [/HS]

**Médiat** · 25/12/2016, 19h27

Bonsoir

Ce fil étant intrinsèquement destiné à n'aller nulle part, autant le fermer

Médiat, our la modération

Intervalle de confiance

Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Re : Intervalle de confiance

Discussions similaires

intervalle de confiance et intervalle de pari

Intervalle de confiance à 90% et 99%

intervalle de confiance à 95%

intervalle de confiance

Intervalle de confiance