Calcul de la valeur p

invite27166b6c · 28/03/2016, 17h31

Bonjour à tous,

Je décris ci-dessous les méthodes que j'ai employées pour calculer la valeur p suite à une de mes études statistiques. Je requiers votre aide car les résultats que j'obtiens me semble aberrants.

Dans le cadre de mon mémoire, je viens de réaliser un recueil de données : ce dernier a consisté à faire passer un test à 3 groupes d'étudiants d'âges différents ; ce test permettant d'attribuer un score à chacun d'entre eux. Voici les résultats que j'obtiens :

Code:

Groupe	Moyenne	Nombre
A1	11,68	248
A2	10,71	151
A3	9,91	131
Total	10,97	530

L'hypothèse nulle est que l'âge n'influe pas sur les résultats de ce test. L'hypothèse alternative est donc que l'âge influe sur les résultats du test. Je souhaite donc connaître la valeur p afin d'affirmer si ces valeurs sont significatives.
Afin de calculer celle-ci, j'ai suivi le tuto présent sur ce site : http://fr.wikihow.com/calculer-la-valeur-P

1e étape : déterminer les résultats attendus. Le test en question n'ayant jamais été réalisé dans les conditions définies dans le cadre de mon expérimentation, je ne peux me baser sur aucun autre résultat. Cependant, si l'hypothèse nulle est vraie, nous devrions obtenir la même moyenne pour chaque groupe. Par conséquent, les résultats attendus sont les suivants :
Moyenne(A1) = 10,97
Moyenne(A2) = 10,97
Moyenne(A3) = 10,97

2e étape : déterminer les résultats observés (cf. mon premier tableau)

3e étape : déterminer le degré de liberté. Ayant trois groupes, mon degré de liberté est de 2 (3-1).

4e étape : calculer le khi-deux.
Si je ne me trompe pas dans la formule, le calcul est le suivant :
X² = (11,68-10,97)²/10,97+(10,71-10,97)²/10,97+(9,91-10,97)²/10,97 = 0,155

5e étape : choisir le seuil de significativité. Pour faire original, je choisis un seuil de 5%.

6e étape : déterminer la valeur p à l'aide d'un tableau. J'obtiens p > 25% (et même largement supérieur).

En réfléchissant un peu, je me suis dit que ma méthode de calcul était biaisée. En effet, le nombre de personnes ayant répondu au questionnaire n'est pas prise en compte. Par conséquent, j'ai décidé de refaire le calcul en me basant, non plus sur les moyennes, mais sur la somme des scores obtenus par chacun des groupes. Mes résultats sont donc les suivants :

Code:

Groupe	Moyenne	Nombre	Somme des scores
A1	11,68	248	2897
A2	10,71	151	1617
A3	9,91	131	1298
Total	10,97	530	5812

Je reprends donc mes étapes dans l'ordre.
1e étape : déterminer les résultats attendus. Là encore, si mon hypothèse nulle est vraie, la somme des scores d'un groupe doit valoir SommeTotale/NombreTotal*NombreGroupe. Par exemple, pour A1, je devrais obtenir 5812/530*248 = 2719,58.
Somme(A1) = 2719,58
Somme(A2) = 1655,87
Somme(A3) = 1436,55

4e étape : calculer le Khi-Deux.
X² = (2897-2719,58)²/2719,58+(1617-1655,87)²/1655,87+(1298-1436,55)²/1436,55 = 25,84

6e étape : déterminer la valeur p à l'aide d'un tableau. J'obtiens p < 0,005% (et même largement inférieur).

Dans les deux cas, les valeurs p que j'obtiens me semblent aberrantes : soit largement trop élevée, soit largement trop basse.
Dans le premier cas, je ne peux absolument pas rejeter l'hypothèse nulle alors que je suis totalement en droit de le faire dans le cadre de mon second mode de calcul.
J'aimerais donc avoir votre avis sur la méthode que j'emploie : est-elle correcte ou ai-je réalisé des erreurs dans mon calcul ?

Merci pour votre retour.

**gg0** · 28/03/2016, 17h52

Bonjour.

Le test de khi-deux porte sur les effectifs de différents groupes, les individus étant répartis suivant un caractère qualitatif, pas sur des valeurs d'un caractère. Donc c'est normal que tu obtiennes un résultat aberrant.
Pour ta comparaison, vu la taille des échantillons, une Anova est le bon test, sauf si tu constates que les variances des trois échantillons sont nettement différentes. Si deux échantillons ont des variances très différentes, la conclusion s'ensuit : Ils sont de structures différentes.
On peut traiter l'anova à la main (mais avec 530 valeurs ....) ou avec un tableur, en faisant faire les calculs par le tableur. Mais aujourd'hui on fait traiter les données par des logiciels statistiques, c'est plus rapide.
Si l'anova dit que les résultats sont différents (p faible), on peut faire des comparaisons de couples de groupes, en utilisant le test de Student.

Cordialement.

invite27166b6c · 28/03/2016, 20h59

Merci pour votre retour.

En effet, après recherches sur l'analyse de la variance, cet outil me semble bien plus approprié. Je viens de réaliser cette analyse à l'aide de LibreOffice et j'obtiens le résultat suivant :

Code:

ANOVA - Single Factor						
Alpha	0,05					
						
Groups		Count	Sum	Mean		Variance		
Column 1	248	2897	11,6814516129	97,1734197466		
Column 2	151	1617	10,7086092715	106,2345253863		
Column 3	131	1298	9,9083969466	71,2376981797		
						
Source of Variation	SS			df	MS		F		P-value		F critical
Between Groups		283,4744305201		2	141,7372152601	1,5182658367	0,2200482357	3,0128262371
Within Groups		49197,9142487252	527	93,3546759938			
Total			49481,3886792453	529

À en croire ce tableau, j'ai une valeur p de 22% ce qui ne me permet pas de refuser l'hypothèse nulle.

Du coup, que puis-je faire avec ces données non significatives ? Ont-elles une quelconque valeur ou dois-je jeter les résultats et travailler sur d'autres données ?
Ou alors puis-je tout de même aller au bout de mon étude ?

Merci beaucoup de votre aide.

**gg0** · 28/03/2016, 21h43

Ok.

Donc tes valeurs sont assez fortement dispersées ! Si ce sont des notes sur 20, c'est même très dispersé (pour le groupe 2, un écart type de plus de 10 !!). Autrement dit, tu as soit des grandes valeurs, soit des très faibles.
Dans ce cas, la dispersion des valeurs ne permet pas de comparer très utilement. Mais c'est un vrai résultat statistique : A priori, on ne voit pas de différence significative entre les âges, mais une très grande variabilité à tout âge. la variabilité est donc due à d'autres facteurs. Si tu veux approfondir, il faudra alors chercher les causes de cette forte variabilité.

Cordialement.

A voir en vidéo sur Futura · Aujourd'hui

invite27166b6c · 28/03/2016, 23h45

Ce ne sont pas des résultats sur 20 mais des scores allant de -35 à +35.
J'ai tracé une courbe pour chaque groupe afin de voir la répartition des notes et j'ai identifié, à l'œil, des groupes au sein de chaque tranche d'âge. Je pense utiliser la méthode des k-means pour faire cela de manière plus "statistique" et je verrai vers où cela me mène.

Merci beaucoup pour ton aide.

Calcul de la valeur p

Calcul de la valeur p

Re : Calcul de la valeur p

Re : Calcul de la valeur p

Re : Calcul de la valeur p

Re : Calcul de la valeur p

Discussions similaires

Calcul d'une valeur de pH

Calcul de valeur (V/mAh)

calcul de la valeur d'une force

Calcul d'une valeur éfficace

Calcul valeur de F