Bonjour,

Veuillez m'excuser d'abord si le sujet ne convient pas à ce forum. J'ai cherché parmi les forums de l'informatique et aucun ne traite de l'analyse de données, et mes questions portant plus sur le côté mathématique, j'au jugé qu'il était mieux de les poser ici.

J'aimerais juste donner le principe rapidement au cas où quelqu'un a la réponse à mon problème mais n'est pas familier à la méthode. On dispose d'un tableau à K colonnes et I lignes. Les colonnes représentent les variables qui expliquent un phénomène donné et les lignes sont les mesures de ces variables pour chaque échantillon, on appelle les lignes les individus. Le problème étant avec un nombre de variables qui dépasse 3 strictement, nous ne pouvons pas représenter ces données et dans certains cas même l'étude des variables 2 à 2 etc est impossible vu le grand nombre de données. L'idée est donc d'extraire un petit nombre de variables synthétiques qui représenteraient "idéalement" toute l'information (en réalité nous prenons par exemple 98%) et qui sont décorrélées entre elles. Pour garantir que les unités de mesures et la variabilité des variables n'influence pas nos interprétations nous allons centrer-réduire ce tableau de données en retirant à chaque variable sa moyenne et en divisant par l'écart-type. Comme ce tableau est rectangulaire alors on peut faire une étude duale, soit représenter les individus dans l'espace des variables, soit les variables dans l'espace des individus. Ainsi nous avons soit un nuage de points (des individus) dans l'espace RK soit un nuage constitué par les extrémités des variables (qui sont des vecteurs) dans l'espace RI.

Une question pas très "fondamentale" que je me pose est pourquoi représenter les variables par des vecteurs, et aussi, à quoi bon étudier les variables dans l'espace des individus (chaque individu représente un axe). Je ne vois pas de raison "intuitive" qui motiverait cette étude.

La première question, disons mathématique, qui me taraude l'esprit, c'est que dans le cours que j'étudie, il est dit que la norme des variables dans l'espace des individus est de 1 lorsque les individus ont le même poids et lorsque le tableau est centré-réduit. Et ceci est expliqué par :
Avec [tex]x_{ik}[\tex] est la valeur de la variable k pour l'individu i, [tex]\bar{x}[\tex] la moyenne de la variable k. Je ne comprends pas d'où vient la formule de la norme au carré. Pour moi la norme au carré serait (pour la norme euclidienne) la somme au carré des projections sur chaque axe, ce qui revient juste à la variance de la variable multipliée par le nombre d'axes. Car au début nous avions une variable initiale k, on a retiré à chaque projection la moyenne de la variable et on a divisé chaque projection par l'écart-type. Et déjà nous ne pouvons dire que la norme c'est vraiment ça que si les axes sont orthogonaux 2 à 2, ce qui n'est pas forcément le cas avec tous les individus ...
J'aimerais vous demander si ce que je dis là est correct ou je dis n'importe quoi. Cela me taraude vraiment l'esprit.

En fait en y repensant, la supposition même que les individus s'écrivent dans l'espace RK n'est pas forcément correcte car si par exemple nous avons 5 variables mais les 3 premières sont juste un scalaire fois la 4ème variable, alors nous sommes juste dans R2 non ? Il faut vraiment supposer que nos variables de départ sont indépendantes pour ne pouvoir déjà que représenter les individus dans l'espace des variables. Si par exemple on a 3 variables, V1, V2 et V3 avec V2=2*V1 et V3 non corrélée avec V1, et qu'on venait tracer les individus dans un espace pour visualiser graphiquement les données. Alors on tracerait aléatoirement sur notre feuille un axe pour représenter V1, comme V2=2*V1 alors on garde le même axe, puis on trace un axe perpendiculaire à V1 pour représenter V3.

Et si on pouvait supposer préalablement que les variables que nous avons mesurées sont effectivement non corrélées, il ne peut pas en être de même pour les individus. Donc on ne peut pas représenter les variables dans un espace d'individus non ?

J'espère que vous pourrez m'aider à comprendre, je me sens vraiment confus et perdu.

Merci d'avance.