[statistiques] Tester la normalité d'un échantillon

invitea75bdba4 · 09/11/2004, 23h01

Bonjour,

Voici des mesures effectuées pour 10 rameaux : 205, 198, 185, 148, 172, 106, 207, 136, 198, 185 (en mm).

J'aimerais que quelqu'un puisse me dire comment faire pour tester la normalité de cette distribution dans le cadre d'une étude statistique (en gros suit-elle une distribution normale).
Il pourrait y avoir une possibilité par le test de Kolmogorov-Smirnov mais je ne sais pas très bien comment l'appliquer.

Je remercie d'avance quiconque pourra me venir en aide.

A bientôt.

invite6a26c75d · 10/11/2004, 17h21

Tu utilises un outil statistique (SPSS, Systat, S plus, SAS, Statview, Statistica, ..) ?

Sinon, le test de Kolmogorov indique si la distribution expérimentale est différente d'une distribution normale (donc si p<.05, aïe !).

Sinon, il existe un moyen de savoir rapidement si une distribution est normale, il faut que les indices d'aplatissement et d'asymétrie soit le plus proches possible de 0 (je crois qu'on admet un coefficient compris entre -1 et 1 comme acceptable).

**kinette** · 10/11/2004, 18h03

Bonjour,
Tu peux utiliser le test de Shapiro (qui ne teste que la normalité) ou le test de Kolgomorov-Smirnov par rapport à la loi normale.
Si tu utilises R le code sera:
[quote]> c(205, 198, 185, 148, 172, 106, 207, 136, 198, 185)->ram
> shapiro.test(ram)

Shapiro-Wilk normality test

data: ram
W = 0.8772, p-value = 0.1212

Conclusion: pas de raison de rejeter la normalité

> ks.test(ram, pnorm, mean(ram), sd(ram))

One-sample Kolmogorov-Smirnov test

data: ram
D = 0.2281, p-value = 0.6754
alternative hypothesis: two.sided

Même conclusion.

Tu peux aussi faire le graphique quantile-quantile (il me semble qu'on appelle aussi ça la droite de Henri) qui te donne visuellement une idée de la normalité:
> qqnorm(ram)
> qqline(ram)

Tu peux même faire les tests online ici: http://www.stat.umn.edu/~galin/teaching/Rstuff/

K.olgomorov-Smirnov

invitea75bdba4 · 10/11/2004, 19h10

Merci beaucoup à tous et surtout à kinette

qui a bien pris le temps de tout détaillé.

@+

A voir en vidéo sur Futura · Aujourd'hui

invitea75bdba4 · 13/11/2004, 17h57

Bonsoir,

Et pour tester la normalité de cette même distribution, est-il possible d'utiliser un test de khi-deux ??? Si oui, comment procéder??

Merci d'avance.

**kinette** · 14/11/2004, 21h48

Bonjour,
Oui c'est possible (mais là on a des effectifs trop faibles): il faut rechercher combien on devrait avoir en théorie (pour une loi normale de même moyenne et même écart-type) d'individus pour les intervalles sur lesquels tu observes expérimentalement des individus (ça se calcule grâce aux tables de la loi normale, qu'on trouve dans le bouquins de stats), et de faire un chi-deux pour comparer effectifs théoriques et observés (ne pas oublier que dans ce cas, le nombre de degrés de liberté équivaut à "nombre de comparaisons"-1- "nombre de paramètres estimés", le nombre de paramètres estimés étant ici de deux (écart-type et moyenne)).
Mais le Chi-deux n'est valable que pour des effectifs théoriques supérieurs à 5 (donc là ça ne va pas).

K.

invite3cad40e5 · 06/02/2007, 22h07

bonjour!
je suis un étudiant qui a besoin d'aide!
je réalise une étude visant à mettre en corrélation ou non l'obésité avec d'eventuelles hyperpression plantaire (source de différents problemes en aval)!
le probleme est que je suis plutot nul en biostat ou du moins cela fait tellement longtemps que j'en ai pas fait que je sui incapable d'être efficace!
Mais l'espoir m'est revenu quand je suis arrivé sur ce forum ou j'ai vu que tu as expliqué comment faire pour savoir si une distribution suivait une loi normale!
donc 2 requetes :
- comment faire pour savoir si le D et le p-value que j'obtiendrai à ma série en utilisant le Shapiro-Wilk normality test me permette d'affirmer qu'il y a bien normalité (y a t il un seuil de valeur qui exclu la normalité ?)
- par la suite je dois comparer des series de mesures d'un seul paramètre(pression plantaire)effectué sur 2 groupes de sujet(obèse et non obèse). Quel outil statistique te semble le plus aproprié pour faire ressortir ou pas de l'obésité sur les pressions plantaire!
en esperant avoir une réponse
merci beaucoup , beaucoup, beaucoup!

**kinette** · 06/02/2007, 22h47

Envoyé par piedo

- comment faire pour savoir si le D et le p-value que j'obtiendrai à ma série en utilisant le Shapiro-Wilk normality test me permette d'affirmer qu'il y a bien normalité (y a t il un seuil de valeur qui exclu la normalité ?)

Bonjour,
Le seuil de p qu'on choisit généralement est 0,05, ce qui signifie qu'on accepte une probabilité de 5% de se tromper si on affirme que ce qu'on observe n'est pas dû au hasard (dans le test de Shapiro on cherche la probabilité d'obtenir la répartition qu'on a dans son expérience si cette répartition est issue d'un tirage au hasard dans une population suivant une loi normale).
Donc si ton p est supérieur à 0,05 ça signifie que tu peux considérer que tu as le droit d'utiliser des tests paramétriques.

- par la suite je dois comparer des series de mesures d'un seul paramètre(pression plantaire)effectué sur 2 groupes de sujet(obèse et non obèse). Quel outil statistique te semble le plus aproprié pour faire ressortir ou pas de l'obésité sur les pressions plantaire!
en esperant avoir une réponse
merci beaucoup , beaucoup, beaucoup!

Tu es dans le cas où tu as une variable continue à comparer entre deux échantillons (obèse/non obèse), donc ce qui t'intéresse et une comparaison de moyenne (si tu veux savoir si les obèses ont plus de pression plantaire que les non obèses). Selon si ta variable est normale ou non tu pourras utiliser un test paramétrique ou non.
(une autre façon de considérer les choses est de regarder la proportion de personnes obèses en fonction de la pression plantaire, et de faire une régression binomiale: au niveau du résultat, normalement il est identique, c'est juste une autre façon de regarder le problème).

K.

invite3cad40e5 · 08/02/2007, 20h08

merci bcp kinette pour ta reponse ultra rapide!
je vais essayer d'appliquer tous tes bons conseils!
merci encore

invitec5eb4b89 · 17/02/2007, 17h04

Chouette des stats !

Et si je dois faire le test de comparaison des moyennes (ou tout autre test...), mais un grand nombre de fois (par exemple 1000 fois plus que ce que j'ai d'individus), est-il préférable que j'utilise une correction de type Bonferonni ou de type Benjamini-Hochberg...

Autrement dit, est-ce que je dois plutôt contrôler mon FWER ou mon FDR ?
Est-ce que je dois donner un exemple plus précis pour être plus clair ? (euh si cette discussion est mal placée, je veux bien créer un sujet ailleurs...)

**kinette** · 18/02/2007, 01h35

Bonjour,

Manifestement la correction de Bonferroni est pas mal critiquée (car trop conservatif), et il vaudrait mieux en utiliser d'autres.

Si tu utilises R il y a la fonction p.adjust qui peut te servir:
http://stat.ethz.ch/R-manual/R-patch.../p.adjust.html

K.

invitec5eb4b89 · 18/02/2007, 01h59

En effet c'est une de celles que j'utilise...

Pendant un moment je travaillais avec la fonction mt.rawp2adjp du package "multtest", mais après un certain nombre de tests, je me suis aperçu qu'elle traitait comme une cochonne les valeurs manquantes (d'où certains résultats étranges)...

J'utilise aussi un package qui s'occupe de modèles linéaires, et j'utilise des corrections bayésiennes auxquelles je ne comprends pas grand chose, ce qui motivent tous ces détails assomants : est-ce que quelqu'un saurait expliquer de façon non-empirique (comme ce que j'ai pu comprendre dans quelques articles) la pondération des p-values brutes qui a été imaginée par Benjamini et Hochberg (le contrôle du FDR) ?

J'espère que quelqu'un a compris ce que j'espère trouver et qu'on pourra m'aiguiller vers de la bibliographie !

**kinette** · 18/02/2007, 21h31

Hello,
Oulà, du temps où je m'étais penchée sur ces fameuses corrections j'avais essayé de comprendre... et j'ai rapidement abandonné, ça dépassait mes capacités en stats.
Je ne sais pas s'il y a beaucoup de férus de stats ici (ça serait d'ailleurs pas mal de créer une section séparée), mais peut-être les personnes du forum du Cirad dont j'ai donné l'adresse plus haut pourront te renseigner.

Bon courage,
K

invitec5eb4b89 · 19/02/2007, 01h03

Euh ben merci pour la réponse en tout cas... Je crois que pour le forum tu voulais parler du CRAN ? En tout cas ça me plairait d'avoir avec les gens de ce forum des discussions sur le sujet, si ça intéresse (je veux dire sur les stats et leur application à la bio...). Je suis allé pour comparer sur d'autres forums en français sur les stats et très franchement je n'en ai pas trouvé qui puisse même supporter la comparaison avec la discussion que vous avez eue plus haut !

(Je veux bien essayer d'initier le mouvement) Il faudrait créer une "rubrique" en Maths ? Ou en bio ? Ou en physique ? Ou même carrément une nouvelle "section" Statistiques qui permettrait de décliner tous ces thèmes ?

C'est peut être une idée inutile, qu'en pensez-vous ?

**kinette** · 19/02/2007, 13h15

Euh ben merci pour la réponse en tout cas... Je crois que pour le forum tu voulais parler du CRAN ?

Bonjour,
Non, le forum CRAN est pas mal, mais c'est en anglais.
Le seul forum valable que j'aie trouvé en statistiques est celui-ci http://forums.cirad.fr/logiciel-R/in...261c92e87647a5

Oui, sinon je pense qu'un forum plus généraliste de statistique aurait sa place sur FS, ou alors on pourrait utiliser des balises [stats] et [probas] dans le forum mathématiques...
(je vais essayer de relancer l'idée dans l'équipe).

K.

invitec5eb4b89 · 19/02/2007, 19h14

Merci !
Je vais donc aller voir ce qui se passe sur ce forum !

invite6c250b59 · 19/02/2007, 19h38

Envoyé par HigginsVincent

Et si je dois faire le test de comparaison des moyennes (ou tout autre test...), mais un grand nombre de fois (par exemple 1000 fois plus que ce que j'ai d'individus), est-il préférable que j'utilise une correction de type Bonferonni ou de type Benjamini-Hochberg...

Même une correction faiblement conservatrice (est-ce que ça existe d'ailleurs?) te mettra dans le champs avec autant de tests fait! Tu es sur de devoir faire tous ces tests? Dans ce cas à ta place je passerais par une méthode de permutation

invitec5eb4b89 · 20/02/2007, 11h18

Hello !

J'aimerais bien ne pas avoir à faire autant de tests d'un coup, mais c'est la stratégie qui est classiquement utilisée dans le domaine des "biopuces" pour identifier des gènes différentiellement exprimés entre deux situations biologiques.

Il existe également des stratégies qui sont basées sur des méthodes de classification (et qui n'exigent pas en première instance de mener autant de tests), mais elles sont beaucoup moins rodées !

A quel genre de méthode de permutation pensais-tu, Jiav ?

**kinette** · 20/02/2007, 13h24

Hello,
Peux-tu expliquer un peu plus en détail ton protocole et la structure de tes données?

K

invite6c250b59 · 21/02/2007, 03h43

Envoyé par HigginsVincent

A quel genre de méthode de permutation pensais-tu, Jiav ?

L'idée de base des permutations est la suivante: s'il n'y a pas de différence entre les conditions (hypothèse nulle) alors une étiquette condition est arbitraire.

Renversons l'argument: imaginons qu'à partir des vrai données on fasse de faux groupes où les étiquettes de conditions sont aléatoires (permutées). En moyenne il n'y aura pas plus de différence entre les faux groupes qu'entre les vrais.

En pratique:

1- choisit une mesure que tu veux faire sur tes données (anova, test de t, grande moyenne, peu importe c'est toi qui voit), et fait un script pour automatiser ce calcul

2- fait un script qui permute les étiquettes au hasard

3-

nb_test=10000,

for i=1:nb_test

data=permute_les_étiquettes(i) ;
distrib(i)=fait_le_calcul_de_m a_mesure(data);

end

distrib=sort(distrib);

4-choisit un p_value

5-

if
mesure_avec_les_vrai_étiquette s>distrib(nb_test*(1-p_value))

disp('c'est significatif!')

else

disp('flat -as your publication record this year')

end

PS: on peut argumenter qu'il faut faire un tirage sans remise, ce qui complique un peu la procédure
PSII: je serais assez pour égaliser les deux groupes en soustrayant avant toute chose la différence moyenne avant ces procédures. Je n'ai jamais lu personne le faire, mais ça me semble logique: soit il n'y a pas de différence entre groupe et ça devrait rien changer, soit il y en a et c'est justifié pour pas que la puissance du test soit cassé par l'effet systématique.

invitec5eb4b89 · 22/02/2007, 22h43

Merci pour la réponse, je comprends mieux maintenant comment fonctionnent ces fameuses méthodes par permutation !

Seulement je ne sais pas si elles peuvent s'appliquer à tous les jeux de données dont je dispose. J'en ai par exemple quelques uns pour lesquels une classe n'est composée que de trois (au mieux) réplicats "biologiques", ce qui est assez fâcheux si on veut effectuer des permutations, non ?

invite6c250b59 · 23/02/2007, 00h54

Envoyé par HigginsVincent

J'en ai par exemple quelques uns pour lesquels une classe n'est composée que de trois (au mieux) réplicats "biologiques", ce qui est assez fâcheux si on veut effectuer des permutations, non ?

Tant que la mesure que tu as définie est possible alors la procédure de permutation est possible (par exemple si tu voulais utiliser une anova il est probable qu'elle râle devant une condition avec 3 données). Mais bien sur ça n'est pas magique: avec peu de données dans une classe il y a plus de chance de se tromper (qu'on parle d'erreur de type I ou d'erreur de type II). Tu connais probablement l'adage: "bull shit in? bull shit out!".

invitec5eb4b89 · 23/02/2007, 03h04

Envoyé par Jiav

Tant que la mesure que tu as définie est possible alors la procédure de permutation est possible (par exemple si tu voulais utiliser une anova il est probable qu'elle râle devant une condition avec 3 données). Mais bien sur ça n'est pas magique: avec peu de données dans une classe il y a plus de chance de se tromper (qu'on parle d'erreur de type I ou d'erreur de type II). Tu connais probablement l'adage: "bull shit in? bull shit out!".

C'est un adage que les biologistes qui ont produit ces données ne connaissent manifestement pas

invite1ba07d1c · 28/02/2007, 18h50

Bonjour, je suis étudiante et je me noie dans mes stats!
J'ai mesurée une activité EMG de surface chez 20 patients dans 3 conditions différentes.Je voudrais savoir s'il existe une diffrence d'activité emg en fonction des conditions. J'ai pris pour chaque patient l'activité maximale obtenue dans chaque condition. Les variables ne suivent pas une loi normale ( shapiro test sur logiciel R). Je pensais utiliser un test de friedman pour mon analyse puis un test de Wilcoxon apparié. Est ce que vous pensez que ce test est adapté ? De plus je dois utiliser le logiciel "R" or je n'arrive pas à réaliser ce test avec ce logiciel. Connaissez vous la procédure ?
Enfin, pensez vous que ces analyses suffiront pour conclure ou y a t il d'autres test à ajouter ( puissanvce, ...)
QUELQU UN PEUT IL M AIDER ??????????????

invitec5eb4b89 · 01/03/2007, 15h13

Bonjour,
une première réponse rapide et intuitive de ma part !

Tout d'abord, il me semble que prendre le maximum d'un signal pour le "résumer" est un peu risqué : il y a des chances pour que le "point" maximum de ton EMG soit très peu significatif de la tendance générale (je peux également tout à fait me tromper : j'ai jamais vu d'EMG de ma vie)... Pour choisir la statistique qui conviendrait le mieux, je proposerais d'en élaborer plusieurs (par exemple la moyenne de l'EMG, son écart-type, différents quantiles ou même peut être des statistiques d'ordre supérieur...) et voir comment elles se comportent. On peut aussi imaginer que regarder ces signaux comme temporels ne permet pas de les discriminer assez bien, il faudrait peut être passer dans un espace de fréquences ou un autre espace ! Bref, on peut imaginer tout un tas de choses...

Une fois que tu as créé ta statistique, tu peux regarder sa distribution "à loeil" et voir quel test paramétrique sera le mieux adapté (pour essayer de gagner de la puissance) ! Si yen a pas, effectivement on peut passer à autre chose...

En résumé, ma "réponse" comporte plusieurs questions :
- comment se présentent de manière très générale tes signaux EMG ? (combien de points, quel pas temporel, est ce que c'est périodique, sur combien de périodes s'est faite l'acquisition etc...)
- est-ce que considérer le max du signal est vraiment ce qui se pratique dans la littérature ?
- "à l'oeil nu", est-ce que tes trois conditions présentent vraiment des comportements différents ?
- est-ce qu'on ne pourrait pas faire une analyse factorielle "de base" sur les caractéristiques des 20 EMG (par exemple une Analyse en Composantes Principales ?)

Sinon pour les tests de Wilcoxon, il y a les fonctions pairwise.wilcox.test(stats), wilcox.test(stats), tu les as essayées ?

Bon courage !

invite1ba07d1c · 01/03/2007, 22h51

Dejà merci beaucoup du temps que tu m'accorde à moi étudiante désespérée!

je pense que tu a raison au sujet des maximum que j'ai pris. Je vais essayer de faire ce que tu propose ( écart type, moyenne. . .) mais ca me semble compliqué pour la raison suivante : en fait j'ai mesuré l'activité EMG lors d'un exercice d'imagerie mentale pour voir un tel exercice provoquait une légère activité musculaire, aussi j'ai donné un signal de départ pour l'exercice mais chaque personne a pris plus ou moins de temps pour réaliser l'exercice. Je me demandais donc si faire une moyenne d'activité emg sur une durée différente pour chaque sujet était correct. De plus j'ai demandé différents exos d'imagerie mentale à chaque sujet, et là encore ils n'ont pas pris le même temps selon les exercices. J'espère que ce que je dis est compréhensible !
Je ne comprend pas trop le terme de "pas temporel"???
A l'oeil nu on voit une diffrence entre le repos et l'activité d'imagerie ( légère augmentation d'activité). Sinon j'ai essayé le wilcox.test() mais je ne comprend pas ce qu'il faut mettre entre parenthèse.....
Sinon en quoi consiste l'analyse que tu propose je ne l'ai pas vu dans mes cours de statistiques ( si tu as le courege de m'expliquer!)
Je te remercie encore vraiment sincèrement de ta réponse. Je retrouve espoir!

invitec5eb4b89 · 03/03/2007, 09h06

Rebonjour,

Pour le pas d'échantillonnage, je suppose que ça n'a pas grande importance (enfin peut-être pour l'instant).
Ce qui est important, c'est que tu arrives à déterminer à l'oeil un comportement différent entre les EMG de tes trois groupes de patients !
Reste à savoir à quel niveau se situe la différence...

Alors je reprends donc mes questions :
- sous quelle forme se présentent tes données : un tableau genre Excel avec des lignes et des colonnes, un format de fichier particulier ? (c'est pour l'importation sous R)
- la différence que tu observes entre EMG se situe à quel niveau ? En tendance moyenne ? En amplitude ?

L'Analyse en Composantes Principales permet de faire une représentation graphique assez simple qui te permettra d'oberver les facteurs qui importent dans la discrimination entre les 3 classes de patients... Je pense que ça peut s'appliquer à ton jeu de données, qui, en passant, me semble vraiment très intéressant !
http://fr.wikipedia.org/wiki/Analyse...es_principales

Bon courage !

invite1ba07d1c · 21/03/2007, 16h48

Excusez moi de ne pas avoir donné suite au message mais j'au eu un problème d'ordinateur ( en période de mémoire c'est parfait!!!). Du coup j'ai fais mes stats sur les moyennes d'activité EMG après avoir regardé les tendances générales. Ca donne des résultats pas mal. Je ne sais pas cependant si je dois faire un test de Puissance pour savoir si le test a une bonne puissance.
Sinon je voudrait faire un test stat non paramétrique sur 9 données appariées savez vous quel test il faut prendre ?
merci pour l'idée de prendre les moyennes car dans la littérature en effet analyse se font de cette facon

invitec5eb4b89 · 29/03/2007, 18h14

Bonjour !
Pour des données appariées, tu peux utiliser un t-test pairé... Bon évidemment ça ne fonctionne que sur deux situations différentes à la fois (donc si j'ai bien compris, comme toi tu as trois situations biologiques différentes, il te faudra faire trois tests). Après il faut évidemment vérifier que tes échantillons sont bien gaussiens, mais pour 3 individus, ça va être difficile... Et c'est un peu là que je veux en venir : dans la littérature que tu as parcourue, les effectifs sont si petits ?

invite13249cbc · 26/05/2007, 22h54

moi aussi j'ai le même problème. parmi les tests de normalité on trouve l'expansion de Cornish Fisher.
je veux savoir comment ça se calcule et égalment comment on peut représenté une distribution statisque sous forme de cloche c-à-d sous la forme de la courbe de loi normale.
je veux l'adresse d'un site intéressant qui traite le sujet de test de normalité.
merci

[statistiques] Tester la normalité d'un échantillon

[statistiques] Tester la normalité d'un échantillon

Re : tester la normalité d'unn échantillon

Re : tester la normalité d'unn échantillon

Re : tester la normalité d'unn échantillon

Re : tester la normalité d'unn échantillon

Re : tester la normalité d'unn échantillon

Re : tester la normalité d'unn échantillon

Re : tester la normalité d'unn échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon SOS

Re : tester la normalité d'un échantillon SOS

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Re : tester la normalité d'un échantillon

Discussions similaires

masse d'un échantillon

TAC d'un échantillon

Echantillon d'un DVD ?

Verification de la constance d'un echantillon

Tester si mon échantillon n'est pas issu d'une certaine distribution