Analyse en composantes principales
Répondre à la discussion
Affichage des résultats 1 à 16 sur 16

Analyse en composantes principales



  1. #1
    invitea20e1e07

    Analyse en composantes principales


    ------

    Bonjour,
    J'aurai besoin de votre aide concernant ce chapitre. Dans la page wiki:

    http://fr.wikipedia.org/wiki/Analyse...re_d.27inertie

    on y trouve cette phrase:

    Le principe de l'ACP est de trouver un axe u, issu d'une combinaison linéaire des Xn, tel que la variance du nuage autour de cet axe soit maximale.

    Quelqu'un aurait des explications concernant cette déclaration? Moi j'en déduis que le principe de l'ACP est comparable à une simple régression linéaire ...



    Merci

    -----

  2. #2
    gg0
    Animateur Mathématiques

    Re : Analyse en composantes principales

    Peux-tu expliciter ta déduction ? Je ne rejette pas à priori (le "comparable" permet tout !), mais je ne comprends pas.

    Rappel : les variables de base ont préalablement été réduites (et généralement centrées).

    Cordialement.

  3. #3
    Dlzlogic

    Re : Analyse en composantes principales

    Bonjour,
    Il serait intéressant d'avoir des exemples numériques de façon à permettre des comparaisons avec d'autres méthodes plus simples à expliquer.
    Par ailleurs, pour éviter les mal-entendus, il faudrait préciser ce qu'on entend par régression linéaire, par opposition à régression non linéaire.

  4. #4
    Dlzlogic

    Re : Analyse en composantes principales

    La lecture de http://www.incertitudes.fr/proba-stat-acp/livre.pdf, le support de cet article, est particulièrement intéressante. C'est très facile à suivre, et il faut évidemment commencer par le début et bien le lire.

  5. A voir en vidéo sur Futura
  6. #5
    leon1789

    Re : Analyse en composantes principales

    Merci pour cette référence.

    Attention toute fois, dans ce livre (dont l'auteur est agrégé en physique), il y a un mélange entre l'écart-type (resp. le coefficient de colinéarité) et l'estimateur "sans biais" de l'écart-type (resp. le coefficient de colinéarité) : dans le livre, on voit par définition des divisions par n-1 sur les séries statistiques alors qu'il s'agit d'estimation d'une la loi inconnue X via la connaissance d'un échantillon de taille n. La définition de l'écart-type (resp. coefficient de colinéarité) des séries statistiques utilisent des divisions par n.

    Ce mélange truc/(n-1) ou truc/n n'est pas grave en soi quand on sait comment sont établies les formules et comment on s'en sert, mais cela peut poser des soucis à des gens non avertis.

    Lire par exemple :
    http://tice.inpl-nancy.fr/modules/unit-stat/chapitre7/
    http://www.modulad.fr/archives/numer...Grenier-37.pdf
    http://fr.wikipedia.org/wiki/%C3%89c....C3.A9finition

  7. #6
    Dlzlogic

    Re : Analyse en composantes principales

    Pour clore mon intervention sur le sujet, j'ai connu un X qui, dans un cours, pour justifier le dénominateur (N-1) à écrit quelque-chose comme "on retire 1 parce qu'on en déjà assez". Comme c'était mon directeur, je n'ai pas osé relever cette énormité, supposons à sa décharge que ça pouvait être un moyen mnémonique pour d'en souvenir.

  8. #7
    leon1789

    Re : Analyse en composantes principales

    Belle anecdote, en effet, qui marque les esprits pour que l'on se souvienne d'une formule !
    Cela dit, tu aurais dû demandé une explication stricto-mathématique.
    Mais maintenant, avec les 3 références que j'ai données, ça devrait aller
    Surtout que la seconde, je crois (je ne suis pas absolument certain) que c'est toi qui me l'a montrée (à propos de la moyenne et de l'écart-type d'un dé).

  9. #8
    Dlzlogic

    Re : Analyse en composantes principales

    Concernant le tirage de dé, on connait la moyenne vraie. Chaque face a 1/6 chance de sortir (même si les faces comportent des petits dessins d'animaux au lieu de 1 à 6 taches).
    Donc dans ce cas, la moyenne vraie (ie valeur vraie de la moyenne) est connue, alors le dénominateur est N, et non pas N-1. On est dans le cas où il n'y a pas de biais. (J'aurais jamais osé donner un lien sur ce document.)

  10. #9
    invitea20e1e07

    Re : Analyse en composantes principales

    Merci pour le doc Dlzlogic
    Pour répondre à ta première question, ce que j'ai (cru) comprendre de l'ACP c'est que le but est de rechercher la "droite du meilleur ajustement" donc une droite qui passe au mieux par le nuage de points. Nuage de points qui peut être constitué de plusieurs sources de variable différente (age, sexe, ...). Donc pour moi c'est semblable à une méthode de régression linéaire où l'on cherche à déterminer 'a' et 'b' de l'équation y=a*x+b, y étant une droite qui modélise au mieux la problématique en passant au plus près possible des valeurs observées.

  11. #10
    invitea20e1e07

    Re : Analyse en composantes principales

    Je pense avoir trouvé la (ou plutôt une des) "différence" entre les deux méthodes, dans le document que tu m'as fwd:
    Les caractéristiques fluctuent autour d'une valeur
    moyenne. Les valeurs moyennes et les dispersions
    dépendent de chaque caractéristique. Or l'analyse en
    composantes principales (ACP) est basée sur les
    coefficients de corrélations linéaires entre les différentes
    caractéristiques, et ces coefficients ne dépendent pas de la
    moyenne et de l'écart-type.
    Il faut donc bien garder à l'esprit que pour l'ACP
    seules les corrélations linéaires comptent. Qu'une
    grandeur varie sur un millimètre, ou un mètre, autour d'un
    kilomètre, ou un micromètre, peu où prou, il importe
    seulement de savoir si cette grandeur varie, ou pas, dans
    le même sens que les autres.
    Est-ce juste?

  12. #11
    Dlzlogic

    Re : Analyse en composantes principales

    Si j'ai bien compris, voila le but.
    On dispose d'un certain nombre d'observations, pour fixer les idées, au moins une trentaine.
    Chaque observation contient un certain nombre de mesures, disons une dizaines.
    On peut établir une relation entre tous ces éléments, mais en l'occurrence, c'est pas le but recherché.
    On considère qu'on ignore si certains élément sont dépendants d'autres éléments, si certain éléments n'ont rien à voir avec l'étude concernée, enfin, si certains éléments doivent être considérés comme "anormaux" et doivent donc être examinés de plus près. Soit il s'agit simplement d'une faute de recopie que l'on peut facilement corriger, soit il s'agit d'un évènement sur lequel on doit porter son attention, je pourrais dire "tout est normal, pourquoi pas celui-là".

    La base de la méthode est de rendre indépendantes les variables correspondant à des éléments interdépendant.

    Mon avis personnel et qui n'engage que moi. Cette méthode me parait assez compliquée, et apparemment elle est difficile à standardiser. D'autant plus que l'interprétation personnelle me parait être un élément important. Etant donné l'époque où elle a été mise au point, les calculs devaient être simplifiés au maximum, cela se justifie. C'est la raison pour laquelle, il me paraitrait intéressant de faire une ou plusieurs comparaison avec d'autres méthodes.
    Cependant il faut reconnaitre que cette méthode répond à un besoin de statistique, d'outil de prise de décision, réel et permanent.

  13. #12
    leon1789

    Re : Analyse en composantes principales

    Citation Envoyé par Dlzlogic Voir le message
    J'aurais jamais osé donner un lien sur ce document.
    si si http://www.maths-forum.com/question-...ype-125391.php (le 03/04/2012 à 18h54)

  14. #13
    Dlzlogic

    Re : Analyse en composantes principales

    Alors là, vraiment j'ai honte.
    L'expression "Droite des moindres carrés" aurait dû me le faire fermer tout de suite.
    Mais je ne vais pas chercher d'excuse, j'aurais jamais dû le citer.

  15. #14
    gg0
    Animateur Mathématiques

    Re : Analyse en composantes principales

    Citation Envoyé par ziad91 Voir le message
    Merci pour le doc Dlzlogic
    Pour répondre à ta première question, ce que j'ai (cru) comprendre de l'ACP c'est que le but est de rechercher la "droite du meilleur ajustement" donc une droite qui passe au mieux par le nuage de points. Nuage de points qui peut être constitué de plusieurs sources de variable différente (age, sexe, ...). Donc pour moi c'est semblable à une méthode de régression linéaire où l'on cherche à déterminer 'a' et 'b' de l'équation y=a*x+b, y étant une droite qui modélise au mieux la problématique en passant au plus près possible des valeurs observées.
    Je comprends mieux ton parallèle avec la régression linéaire, et je le regrette pour toi, tu es passé complétement à côté de la méthode. C'est sans doute la notion d'axe qui te trompe.
    Dans la régression linéaire, on a deux variables seulement, et on cherche à en exprimer une Y en fonction de l'autre X sous la forme Y=aX+b +e où e est un terme aléatoire sur lequel on fait certaines suppositions (au minimum la somme des carrés est minimale). On trouve une droite (équation y=ax+b) qui passe dans le nuage, mais qui n'est pas l'axe principal du nuage de points. Sauf dans de rares cas et alors r=1 ou -1.
    Dans l'ACP, on commence par "trafiquer" les variables pour éviter que les unités diverses qu'elles ont n'aient une influence : on centre et on réduit. On fait ça avec bien plus de variables que 2 (pour 2 variables, inutile de faire une ACP). Ensuite, on cherche les axes principaux du nuage de points, c'est à dire dans cet espace de dimension n (nombre de variables) dans quelle direction s'étire le plus le nuage de points. on obtient alors une direction qui s'exprime par un vecteur ayant n composantes, vecteur directeur de l'axe principal. Puis on recommence pour trouver un deuxième (on s'arrête souvent là pour représenter en deux dimensions) voire un troisième, ...

    Cordialement.

  16. #15
    leon1789

    Re : Analyse en composantes principales

    Peut-être pour appuyer ce que vient de dire gg0, prenons cet exemple en dimension 2 :
    nuage de 4 points (0,1), (1,0), (2,3), (3,2)

    - la régression linéaire donne la droite y = 0.6(x+1)

    - la composante principale du nuage est la droite x=y .

    Un dessin ? http://commons.wikimedia.org/wiki/Fi..._2_559-572.jpg
    Dernière modification par leon1789 ; 02/06/2013 à 21h21.

  17. #16
    invitea20e1e07

    Re : Analyse en composantes principales

    Ah oui d'accord en effet je suis passé à coté.
    Merci à tous pour ces éclaircissements, ça m'aidera à mieux me projeter dans mon problème.

Discussions similaires

  1. [Analyse en composantes principales] Décorrélation des axes ?
    Par invite4f80dcbf dans le forum Mathématiques du supérieur
    Réponses: 0
    Dernier message: 02/11/2011, 12h58
  2. analyse en composantes principales
    Par invite48ff1192 dans le forum Mathématiques du supérieur
    Réponses: 2
    Dernier message: 25/08/2010, 17h09
  3. L'analyse en composantes principales"ACP"
    Par invitefe1390a2 dans le forum Mathématiques du supérieur
    Réponses: 9
    Dernier message: 17/05/2010, 13h27
  4. Analyse Composantes Principales
    Par invite40ab0cad dans le forum Mathématiques du supérieur
    Réponses: 1
    Dernier message: 12/04/2009, 22h59
  5. Analyse des composantes principales !
    Par invitea069fc56 dans le forum Mathématiques du supérieur
    Réponses: 2
    Dernier message: 02/12/2008, 12h03