Bonjour,
Je suis biologiste - donc nul en maths - et je cherche à choisir actuellement des tests statistiques multivariés pour analyser des données. J'étudie le développement d'algues dans un lac et essaye de comprendre les facteurs qui favorisent des développements soudains et importants.
Bref, j'aimerais faire des liens statistiques entre la quantité d'algues du lac et les facteurs climatiques et hydrologiques : température, ensoleillement, etc.
J'hésite à partir soit sur des corrélations (analyses en composantes principales (ACP) + matrice des corrélations) soit sur des régressions (modèles linéaires généralisés).
Ce sont toutes deux des méthodes permettant de faire des liens, mais j'ai du mal à saisir vraiment les différences.
Ce que j'ai compris :
- ACP : analyse descriptive d'un tableau de données permettant de visualiser des corrélations entre variables.
- Régression : Expliquer une variable (quantité d'algues) par d'autres variables.
Je voudrais savoir dans quel cas utiliser la corrélation, et dans quel cas utiliser la régression ?
La corrélation se fait -t-elle avant la régression pour savoir s'il y a des liens et on approfondit ensuite avec une régression ? Pourquoi ne pas utiliser une régression de suite ?
Et quelle est l'intérêt de faire une ACP (graphe)+ une matrice de corrélation, je ne vois pas vraiment la différence ?
Merci !
-----