Bonjour à tous,
Je dois actuellement réaliser une ACP pour mon mémoire. Le thème est le dynamisme des espaces ruraux.
Mon but est d'analyser les communes rurales du département de l'Indre (au nombre de 234) et d'en déterminer les dynamiques. J'ai sélectionné 31 variables dans différentes catégories (démographie, activité économique, accessibilité, équipements...), il s'agit d'indicateurs descriptifs des communes. Mon ACP est donc de 234 individus et 31 variables.
Le problème est que l'inertie expliquée par les composantes principales est trop faible (à peine de l'ordre de 30% cumulée pour les trois premiers axes).
Pour améliorer l'inertie expliquée, j'essaye de réduire les variables utilisées, si j'ai bien compris il s'agit de supprimer les variables trop corrélées entre elles (ce qui veut dire que une variable suffit à en résumer d'autres ou est inductrice des autres).
J'utilise donc la matrice de corrélation et en observant les indice de corrélation >0,5 ou <-0,5, je peux effectivement supprimer quelques variables qui sont potentiellement décrites par d'autres, je supprime donc 8 variables. A noter que cette suppression n'est pas véritablement rigoureuse pour moi car quand bien même deux variables sont corrélées il n'est pas évident de savoir laquelle conserver. En relancant l'ACP, l'inertie obtenue n'est pas beaucoup mieux.
En faisant des recherches, je trouve le test KMO, qui permet lui de supprimer des variables qui n'ont pas assez de sens, en effectuant ce test sur ma matrice de corrélation, je peux supprimer une dizaine de variables dont la valeur MSA du KMO<0,5 (seuil trouvé sur internet comme inacceptable). En relancant l'ACP, l'inertie n'est toujours pas satisfaisante.
Je pense que j'ai peut être mal compris les méthodes de suppression de variables, je suis perdue entre "les variables doivent être corrélées pour que l'ACP ait un intérêt" et "si les variables sont trop corrélées, la précision de l'ACP est réduite".
Je sais pas si vous avez réussi à me suivre, (si oui merci!) mais pour résumer la question que je me pose c'est : comment savoir quelles variables supprimer pour améliorer l'inertie de l'ACP, et comment les supprimer ?
Je vous remercie!
-----