analyse en composante principale

invite5420aad7 · 09/08/2012, 09h21

Bonjour,

J'ai un jeu de données à analyser en utilisant l'analyse ne composante principale.
De ce que j'ai compris la première étape consiste à :
-> calculer la matrice de corrélation de mon jeu de données
-> ensuite il faut la diagonaliser
-> et puis il faut classer les vecteur propre en ordonnant les valeurs propres
J'utilise le logiciel R, mais étant novice dans ce genre d'étude j'aurais besoin d'une petite orientation de départ, parce qu'il y a tellement d'info que l'on patauge.
Supposons que mon jeu de donnees soit (un truc très très débile, mais y a que ca qui me viennent à l'esprit):

cheveux couleur note1 note2
blond bleu 12 14
noir noir 12 15
chatain vert 13 12

Dans le logiciel R, il y a dans l'onglet statistique/matrice de corrélation un outil qui me sort la matrice de corrélation

note1 note2
note1 1.0000000 -0.9449112
note2 -0.9449112 1.0000000

Et quand je clique sur l'onglet statistiques/analyse_multivarié/analyse en composante principale, il me donne ceci :

> .PC <- princomp(~note1+note2, cor=TRUE, data=essai)

> unclass(loadings(.PC)) # component loadings
Comp.1 Comp.2
note1 -0.7071068 -0.7071068
note2 0.7071068 -0.7071068

> .PC$sd^2 # component variances
Comp.1 Comp.2
1.94491118 0.05508882

> summary(.PC) # proportions of variance
Importance of components:
Comp.1 Comp.2
Standard deviation 1.3946007 0.23471007
Proportion of Variance 0.9724556 0.02754441
Cumulative Proportion 0.9724556 1.00000000

> screeplot(.PC)

> essai$PC1 <- .PC$scores[,1]

> essai$PC2 <- .PC$scores[,2]

> remove(.PC)

Je ne vois pas trop comment interpréter les résultats.
Surtout que j'ai l'impression qu'il ne cherche des corrélation qu'entre les données chiffrés, si vous pouviez m'expliquer ces résultats sur ce petit exemple là ça m'aiderait beaucoup pour les vrais données que j'ai à analyser.

Cordialement.

invitefb0f1e11 · 10/08/2012, 15h15

Salut,

La question est de savoir ce que tu veut mettre en évidence :
Notons $\text{[math]}$ , $\text{[math]}$ , les matrice contenant ton jeu de donné (de dimension 3x2) avec $\text{[math]}$ et $\text{[math]}$ les indices ce référent à un couple de couleur donné et $\text{[math]}$ et $\text{[math]}$ les indices ce référent au valeur des "notes".
-Ton approche revient à chercher une corrélation entre les grandeur "note1" et "note2" --> Donc tu as une matrice 2x2 en faisait : $\text{[math]}$
-Maintenant tu as trois ensemble de "note", chacun définit par un jeu de couleur ! Si tu veut étudier la corrélation entre ces ensemble tu doit calculer la matrice de covariance celons : $\text{[math]}$ .

Ensuite une fois que tu as ta matrice de covariance (la matrice de covariance, pas la matrice de corrélation) ! Tu diagonalise, c'est une matrice définit positive donc toute ces valeurs propre sont positives.
Ces valeur propres correspondent aux variance des "composante" de ton ensemble de donnée.
Ainsi les composantes principale de ton signal sont celle dont les valeurs propre sont les plus fortes.

Ainsi cela revient à faire une diagonalisation :
$\text{[math]}$
Attention ici les valeur propre contenu dans D sont organisé de la valeur la plus grande vers la valeur la plus petite.

Avec D une matrice diagonal et U une matrice unitaire

Toi tu obtient donc comme valeur propre (les élément de la diagonale de notre matrice D) :

Comp.1 Comp.2
1.94491118 0.05508882

Tu obtient aussi la matrice U, qui te donne le spectre des composante dans chacun des ensemble de donnée.

Comp.1 Comp.2
note1 -0.7071068 -0.7071068
note2 0.7071068 -0.7071068

En enfin tu obtient :

Importance of components:
Comp.1 Comp.2
Standard deviation 1.3946007 0.23471007
Proportion of Variance 0.9724556 0.02754441
Cumulative Proportion 0.9724556 1.00000000

La première ligne contient les racine carré des éléments diagonaux de D.
La seconde contient la fraction de variance totale porté par chaque valeur propre : X = diag(D)/total(diag(D))
La dernière contient le totale cumulatif de notre Y = total_cumulatif(X). Y est une mesure de la quantité d'information

Il est fréquent de considéré en PCA que les valeur propre faible devant la plus forte des composante ne contienne pas d'information sur le système. Et donc on peut tronquer ces degrés de liberté sans que cela n'impacte la description statistique du signal.
En pratique on choisit de placer une coupure sur Y, quand on atteint une valeur fixé (ex : 0.9999) on considère que toute les valeur propre suivant ne sont que du "bruit" et donc peuvent être tronquer.
On se restreint donc à l'analyse des seul composante principale.

Après pour aller plus loin, il s'agit de savoir ce que tu veut étudier avec précision. Et ton ensemble de donnée est un bien trop petit pour qu'une matrice de covariance est un sens

.

@+,
G.

analyse en composante principale

analyse en composante principale

Re : analyse en composante principale

Discussions similaires

Composante multipolaire?

Composante axiale

composante continue VS composante alternative

[matlab] Analyse par composante principale

Analyse en composante principale