Bonjour,
J'ai un jeu de données à analyser en utilisant l'analyse ne composante principale.
De ce que j'ai compris la première étape consiste à :
-> calculer la matrice de corrélation de mon jeu de données
-> ensuite il faut la diagonaliser
-> et puis il faut classer les vecteur propre en ordonnant les valeurs propres
J'utilise le logiciel R, mais étant novice dans ce genre d'étude j'aurais besoin d'une petite orientation de départ, parce qu'il y a tellement d'info que l'on patauge.
Supposons que mon jeu de donnees soit (un truc très très débile, mais y a que ca qui me viennent à l'esprit):
cheveux couleur note1 note2
blond bleu 12 14
noir noir 12 15
chatain vert 13 12
Dans le logiciel R, il y a dans l'onglet statistique/matrice de corrélation un outil qui me sort la matrice de corrélation
note1 note2
note1 1.0000000 -0.9449112
note2 -0.9449112 1.0000000
Et quand je clique sur l'onglet statistiques/analyse_multivarié/analyse en composante principale, il me donne ceci :
> .PC <- princomp(~note1+note2, cor=TRUE, data=essai)
> unclass(loadings(.PC)) # component loadings
Comp.1 Comp.2
note1 -0.7071068 -0.7071068
note2 0.7071068 -0.7071068
> .PC$sd^2 # component variances
Comp.1 Comp.2
1.94491118 0.05508882
> summary(.PC) # proportions of variance
Importance of components:
Comp.1 Comp.2
Standard deviation 1.3946007 0.23471007
Proportion of Variance 0.9724556 0.02754441
Cumulative Proportion 0.9724556 1.00000000
> screeplot(.PC)
> essai$PC1 <- .PC$scores[,1]
> essai$PC2 <- .PC$scores[,2]
> remove(.PC)
Je ne vois pas trop comment interpréter les résultats.
Surtout que j'ai l'impression qu'il ne cherche des corrélation qu'entre les données chiffrés, si vous pouviez m'expliquer ces résultats sur ce petit exemple là ça m'aiderait beaucoup pour les vrais données que j'ai à analyser.
Cordialement.
-----