Bonjour! NE FUYEZ PAS!!!! (oui la question paraît longue mais en fait c'est qu'une petite question) (donc ne fuyez pas)
J'ai les réponses d'un QCM (113 questions dont 82 questions à 2 choix "soit A soit B" et 31 questions à 4 choix "soit C soit D soit E soit F"). Donc 1 et 1 seule réponse par question. 60 sujets ont répondu.
Les questions à 2 choix proposent toujours les même réponses A et B (par exemple oui ou non). De même, les questions à 4 choix proposent toujours les mêmes réponses C,D,E,F (par exemple pas d'accord, plutôt pas d'accord, plutôt d'accord, tout à fait d'accord).
Les questions à 2 choix sont pour la plupart sans rapport entre elles, mais pas toutes. Il y a quelques paires de questions qui sont sans doute corrélées (car il s'agit par exemple de la même question posée légèrement différemment). Idem pour les questions à 4 choix: la plupart n'ont aucun rapport, sauf certaines qui en ont à coup sûr un, ou peut-être un sans qu'on s'y attende.
Ma question c'est : comment savoir si deux questions sont corrélées ? Personnellement je pensais par exemple décrire chaque réponse de question par un vecteur à 2 ou 4 dimensions du style:
v=[22,38] signifie 22 ont répondu A et 38 B à cette question.
v=[12,34,4,10] signifie 12 ont répondu C, etc.., 10 ont répondu F.
Pour mesurer la similarité, j'ai pensé prendre la distance euclidienne entre les vecteurs. Plus elle est petite, plus les réponses sont similaires. Mais c'est là le problème: 2 questions peuvent n'avoir aucun rapport et pourtant avoir plus ou moins les mêmes réponses... Et comment dire si 2 questions si significativement proches? On peut dire "tiens, elles ont une distance de 4, c'est peu", mais 7 c'est peu aussi, etc...
En gros: comment pouvoir dire chiffres à l'appui que les réponses à telle question sont corrélées à celles de telle autre question ?
Toute explication/idée est bienvenue Merci.
-----