analyse en composante principale
Répondre à la discussion
Affichage des résultats 1 à 2 sur 2

analyse en composante principale



  1. #1
    invite5420aad7

    Question analyse en composante principale


    ------

    Bonjour,

    J'ai un jeu de données à analyser en utilisant l'analyse ne composante principale.
    De ce que j'ai compris la première étape consiste à :
    -> calculer la matrice de corrélation de mon jeu de données
    -> ensuite il faut la diagonaliser
    -> et puis il faut classer les vecteur propre en ordonnant les valeurs propres
    J'utilise le logiciel R, mais étant novice dans ce genre d'étude j'aurais besoin d'une petite orientation de départ, parce qu'il y a tellement d'info que l'on patauge.
    Supposons que mon jeu de donnees soit (un truc très très débile, mais y a que ca qui me viennent à l'esprit):

    cheveux couleur note1 note2
    blond bleu 12 14
    noir noir 12 15
    chatain vert 13 12

    Dans le logiciel R, il y a dans l'onglet statistique/matrice de corrélation un outil qui me sort la matrice de corrélation

    note1 note2
    note1 1.0000000 -0.9449112
    note2 -0.9449112 1.0000000


    Et quand je clique sur l'onglet statistiques/analyse_multivarié/analyse en composante principale, il me donne ceci :

    > .PC <- princomp(~note1+note2, cor=TRUE, data=essai)

    > unclass(loadings(.PC)) # component loadings

    Comp.1 Comp.2
    note1 -0.7071068 -0.7071068
    note2 0.7071068 -0.7071068


    > .PC$sd^2 # component variances

    Comp.1 Comp.2
    1.94491118 0.05508882


    > summary(.PC) # proportions of variance

    Importance of components:
    Comp.1 Comp.2
    Standard deviation 1.3946007 0.23471007
    Proportion of Variance 0.9724556 0.02754441
    Cumulative Proportion 0.9724556 1.00000000


    > screeplot(.PC)

    > essai$PC1 <- .PC$scores[,1]

    > essai$PC2 <- .PC$scores[,2]

    > remove(.PC)


    Je ne vois pas trop comment interpréter les résultats.
    Surtout que j'ai l'impression qu'il ne cherche des corrélation qu'entre les données chiffrés, si vous pouviez m'expliquer ces résultats sur ce petit exemple là ça m'aiderait beaucoup pour les vrais données que j'ai à analyser.

    Cordialement.

    -----

  2. #2
    invitefb0f1e11

    Re : analyse en composante principale

    Salut,

    La question est de savoir ce que tu veut mettre en évidence :
    Notons , , les matrice contenant ton jeu de donné (de dimension 3x2) avec et les indices ce référent à un couple de couleur donné et et les indices ce référent au valeur des "notes".
    -Ton approche revient à chercher une corrélation entre les grandeur "note1" et "note2" --> Donc tu as une matrice 2x2 en faisait :
    -Maintenant tu as trois ensemble de "note", chacun définit par un jeu de couleur ! Si tu veut étudier la corrélation entre ces ensemble tu doit calculer la matrice de covariance celons : .

    Ensuite une fois que tu as ta matrice de covariance (la matrice de covariance, pas la matrice de corrélation) ! Tu diagonalise, c'est une matrice définit positive donc toute ces valeurs propre sont positives.
    Ces valeur propres correspondent aux variance des "composante" de ton ensemble de donnée.
    Ainsi les composantes principale de ton signal sont celle dont les valeurs propre sont les plus fortes.

    Ainsi cela revient à faire une diagonalisation :

    Attention ici les valeur propre contenu dans D sont organisé de la valeur la plus grande vers la valeur la plus petite.

    Avec D une matrice diagonal et U une matrice unitaire

    Toi tu obtient donc comme valeur propre (les élément de la diagonale de notre matrice D) :
    Comp.1 Comp.2
    1.94491118 0.05508882
    Tu obtient aussi la matrice U, qui te donne le spectre des composante dans chacun des ensemble de donnée.
    Comp.1 Comp.2
    note1 -0.7071068 -0.7071068
    note2 0.7071068 -0.7071068
    En enfin tu obtient :
    Importance of components:
    Comp.1 Comp.2
    Standard deviation 1.3946007 0.23471007
    Proportion of Variance 0.9724556 0.02754441
    Cumulative Proportion 0.9724556 1.00000000
    La première ligne contient les racine carré des éléments diagonaux de D.
    La seconde contient la fraction de variance totale porté par chaque valeur propre : X = diag(D)/total(diag(D))
    La dernière contient le totale cumulatif de notre Y = total_cumulatif(X). Y est une mesure de la quantité d'information

    Il est fréquent de considéré en PCA que les valeur propre faible devant la plus forte des composante ne contienne pas d'information sur le système. Et donc on peut tronquer ces degrés de liberté sans que cela n'impacte la description statistique du signal.
    En pratique on choisit de placer une coupure sur Y, quand on atteint une valeur fixé (ex : 0.9999) on considère que toute les valeur propre suivant ne sont que du "bruit" et donc peuvent être tronquer.
    On se restreint donc à l'analyse des seul composante principale.

    Après pour aller plus loin, il s'agit de savoir ce que tu veut étudier avec précision. Et ton ensemble de donnée est un bien trop petit pour qu'une matrice de covariance est un sens .

    @+,
    G.

Discussions similaires

  1. Composante multipolaire?
    Par invite60e37dfb dans le forum Physique
    Réponses: 2
    Dernier message: 30/08/2010, 22h02
  2. Composante axiale
    Par invitee8d22590 dans le forum Physique
    Réponses: 3
    Dernier message: 16/07/2010, 23h19
  3. composante continue VS composante alternative
    Par No1 dans le forum Électronique
    Réponses: 2
    Dernier message: 12/07/2010, 09h22
  4. [matlab] Analyse par composante principale
    Par inviteee281ed8 dans le forum Mathématiques du supérieur
    Réponses: 3
    Dernier message: 30/01/2010, 16h32
  5. Analyse en composante principale
    Par invited6089c2f dans le forum Mathématiques du supérieur
    Réponses: 5
    Dernier message: 26/04/2007, 10h58