Bonjour,
Je suis biologiste (donc nul en maths !) et j'ai une question sur les statistiques dans le cadre du étude que je mène actuellement.
J'essaye de mettre en relation des épisodes de développement de plancton avec des facteurs climatiques et des polluants apportés par les rivières. J'ai donc un jeu de 18 variables avec 30 données par variable. Par exemple j'ai une variable concentration en plancton, une variable pluviométrie,une variable concentration en nitrates dans la rivière, etc.
Pour faire des liens entre ces variables, j'ai repéré 3 outils de statistique multivariée :
- L'analyse en composante principale (ACP), couplée avec une matrice des coefficients de corrélation de Pearson
- La régression linéaire multiple (RLM).
- Le modèle linéaire généralisé, que je ne maîtrise pas du tout.
Je précise que mes données sont d'une très forte variabilité.
J'ai essayé l'ACP et mes axes n'expliquent que peu la variabilité des résultats (45 % pour les 2 axes). Les coefficients de corrélation ne sont pas folichons (0.49 pour le meilleur).
J'ai essayé la RLM et c'est encore pire. On obtient pas les mêmes coefficients de corrélation que pour l'ACP. Ils sont divisés par 10 !
Je voudrais savoir quelle est la différence entre les coefficients de corrélation de Pearson et ceux calculés par le RLM ? Par exemple, le coeff entre 2 variables vaut 0.49 pour la méthode Pearson mais ne vaut plus que 0.04 pour la RLM ! Quelle méthode utliser ?
Merci de votre aide.
-----