Répondre à la discussion
Affichage des résultats 1 à 3 sur 3

Analyse de données : classification par conservation de variance ?



  1. #1
    IdC-Guillom

    Analyse de données : classification par conservation de variance ?

    Bonjour,

    (désolé si ce n'est pas le forum le mieux adapté - je découvre...)

    J'ai un petit problème dans l'analyse de données qui est le but principal de mon stage (école d'ingénieurs - première année) :

    j'ai des réponses, bref des variables : 22, quantitatives pour, disons, 20 situations.
    il y a donc 22 résultats par situation.
    tout ça me fait une jolie matrice, et le gentil SPSS me fait une ACP sans broncher, sauf que 22 variables c'est réductible mais pas tant que ça : grosso modo j'ai 3/4/5 valeurs propres intéressantes selon les cas, avec donc pas mal de perte d'information quand je projette sur 2 axes.

    ce que je voudrais faire, c'est réduire les variables sur un nombre limité d'axes, en faisant des regroupements de variables fortement corrélées expérimentalement (corrélations qui ont un sens, heureusement). J'ai donc exploré le monde de la classification hiérarchique et fait quelques manips avec SPSS toujours. mais je n'obtiens pas exactement ce que je veux : j'ai une certaine classification (mon indice de regroupement est le coefficient de Pearson, l'agrégation se fait sur la distance intra-groupe) mais je voudrais avoir plus :

    l'idéal, ce serait un regroupement par pourcentage de l'inertie expliquée par le premier axe d'une ACP faite sur les variables regroupées à chaque étape : comme ça je pourrais avoir une vraie information au moment de choisir mes "paquets" de variables.

    Mes questions sont donc :
    - existe-t-il un moyen de faire une telle classification (dans SPSS, par exemple...) ? (sinon je peux essayer de faire ça "à la main" en utilisant un truc du genre scilab, mais je n'ai plus trop de temps devant moi...)
    - je pense "sentir" qu'utiliser le coefficient de corrélation de Pearson va dans ce sens, mais est-ce vrai ?
    - surtout, est-ce que çela paraît cohérent comme démarche ?
    - si vous avez des documents, liens, qui vous semblent en rapport, je veux bien... (j'ai cherché sur la fouille de données alias exploration statistique alias data mining, mais sur un regroupement de variables sans utiliser d'ACP j'ai pas grand chose)

    Enfin, une précision : j'essaie de trouver un moyen plus "orienté" de regroupement qu'une ACP pour pouvoir garder un lien fort avec la signification de mes variables, c'est vraiment le point important...

    Merci...

    -----


  2. #2
    Woodette

    Re : Analyse de données : classification par conservation de variance ?

    L'idéal c'est de faire d'abord l'ACP avant d'effectuer une CAH, et donc de déterminer le nombre d'axes avant.
    Je ne vois pas très bien comment se servir d'une classification pour regrouper des variables, puisque le but d'une CAH est de typer les individus. Une CAH est postérieure à une ACP.
    Par contre se baser sur les corrélations de Pearson c'est mieux : quand la corrélation est supérieure à un certain seuil (généralement fixé à 0.3) on peut regrouper les variables.
    Personnellement je n'utilise pas SPSS pour les ACP et les les classifications, SPAD est plus pratique mais payant aussi, sinon on peut aussi utiliser ADDAD si on n'a pas peur de programmer un peu à la main (lien : http://www.math-info.univ-paris5.fr/...logiciels.html )

  3. #3
    invite986312212
    Invité

    Re : Analyse de données : classification par conservation de variance ?

    [QUOTE=Woodette]
    Je ne vois pas très bien comment se servir d'une classification pour regrouper des variables, puisque le but d'une CAH est de typer les individus.[\QUOTE]

    individus ou variables, le choix est parfois arbitraire. En tout état de cause, il suffit de transposer la matrice. La question qui se pose, c'est celle de la pertinence de la métrique euclidienne pour mesurer les distances (et les corrélations) entre les nouvelles variables, qui sont les anciens individus. Il y a pas mal de littérature sur ce thème (voir les publications de Benzécri, Escoufier, Pagès, etc.)

Sur le même thème :

Discussions similaires

  1. Analyse de variance
    Par Potache dans le forum Mathématiques du supérieur
    Réponses: 6
    Dernier message: 29/12/2008, 07h31
  2. Analyse de variance ou régression multiple ?
    Par Tom53 dans le forum Mathématiques du supérieur
    Réponses: 3
    Dernier message: 31/10/2007, 14h35
  3. Distribution d'une variable non normale! Comment faire une analyse de variance?
    Par valj dans le forum Mathématiques du supérieur
    Réponses: 8
    Dernier message: 02/06/2007, 16h41
  4. analyse de la variance ?
    Par BillBaroud__ dans le forum Mathématiques du supérieur
    Réponses: 0
    Dernier message: 13/03/2007, 10h37
  5. analyse de variance et test de fisher
    Par bakalegum dans le forum Mathématiques du supérieur
    Réponses: 0
    Dernier message: 24/01/2007, 14h49