statistique : reduction du nombre de variables explicatives
Bonjour a tous,
Je travaille actuellement sur la recherche d'un modele mathématique qui va me permettre d'expliquer la durée de vie d'un patient (variable quantitative) en fonction du niveau d'expression des genes (variables quantitaives). Mon problème est que j'ai un nombre beaucoup trop important de variables explicatives quantitatives, et je voudrais réduire ce nombre. J'ai pensé faire une regression PLS je pense que ce n'est pas la seule solution possible (l'ACP peut etre aussi possible)...
question : pouvez vous me donné votre avis sur la question et savez vous s'il y a encore d'autres solutions possibles?
Re : statistique : reduction du nombre de variables explicatives
Bonjour,
c'est un problème qui est encore ouvert, et beaucoup de chercheurs en stats travaillent là-dessus, au moins en partie.
Effectivement, une ACP peut te permettre de réduire la dimension de l'espace sur lequel tu travailles... par contre, l'interprétation des variables devient plus compliquée.
Si tu travailles sous un modèle semi-paramétrique (par exemple, le modèle de Cox, puisque tu travailles dans un contexte médical), tu peux "éliminer" les variables dont les coeffs de régression sont presque nuls. (Il existe plusieurs tests de nullité des paramètres pour le modèle de Cox.)
Bref, la démarche à envisager dépend de beaucoup de choses, notamment le cadre dans lequel tu travailles (recherche ?), le temps dont tu disposes, tes connaissances en stats, ce qu'on fait les gens qui t'ont précédé sur ce même type de problématique...
11/02/2010 - 15h51
ganodelf
Date d'inscription
février 2010
Messages
7
Re : statistique : reduction du nombre de variables explicatives
Oui effectivement le modèle de cox a l'air d'etre approprié pour ce sur quoi je travaille (les données transcriptomiques : niveau d'expression des gènes qui sont données par les biopuces ou puces a ADN) comme l'indique un article tres interessant de Philippe Bastien (modele de cox-pls : application en transcriptomie).
Mais je me demande s'il n'y a pas une meilleure méthode pour réaliser mon étude qui consiste a expliquer la durée de survie à l'aide du niveau d'expression des gènes (eventuellement en correlation avec le traitement).
je dois trouver un moyen de réduire l'espace des variables explicatives (les genes), je veux trouver le meilleur moyen : est ce la regression pls? J'ai aussi lu dans un article que la correlation des rangs peut etre pas mal... avez vous d'autres idées?
Je suis actuellement en stage de fin d'étude (master de statistique) et je viens de commencer au début de la semaine, mes connaissances (pratiques et non théoriques) en stat appliqués ne sont pas encore vraiment acquises, je travaille dans un département de recherche (sur un medicament) biomedicale .
11/02/2010 - 16h10
HigginsVincent
Date d'inscription
février 2007
Localisation
Paris
Âge
32
Messages
611
Re : statistique : reduction du nombre de variables explicatives
Envoyé par ganodelf
...
Mais je me demande s'il n'y a pas une meilleure méthode pour réaliser mon étude qui consiste a expliquer la durée de survie à l'aide du niveau d'expression des gènes (eventuellement en correlation avec le traitement).
Si tu as des données cliniques avec tes données transcriptomiques et la variable de survie, tu peux éventuellement essayer ce test : http://www.biomedcentral.com/1471-2105/11/78
Re : statistique : reduction du nombre de variables explicatives
Comme je l'ai déjà dit, à mon avis, il n'y a pas de "meilleure" méthode pour ton problème. Je ne connais pas bien la régression PLS. Néanmoins, c'est une méthode en un certain sens meilleure que l'ACP puisque les facteurs tiennent compte de la variable à expliquer.
A ce stade, si tu veux vraiment être efficace, il faut lire ce que d'autres ont fait avant toi. Et dans le domaine de la réduction de dimension, ça ne manque pas...
Re : statistique : reduction du nombre de variables explicatives
merci a vous deux pour vos infos...
Alors justement par rapport à la lecture d'articles j'ai donc lu 4 articles (concernant tous les 4 les données des biopuces) de Philippe Bastien qui est chercheur chez l'Oréal , et pense que la régression pls associée à un modèle de cox est bien.
D'autre part, aujourd'hui j'ai lu deux articles (tous les 2 sur les données des biopuces) : l'un présente une réduction de la dimension de l'espace à l'aide de clusters et l'autre présente la réduction à l'aide de la corrélation des rangs.
Mais je ne compte pas m'arrêter là et lire encore d'autres articles que j'ai trouvé.... mais par contre je n'ai pas compris l'article sur l'analyse de données par clusters, quelqu'un pourrait il m'éclairer sur cette méthode car je n'ai pas trouvé grand chose sur le web?
Merci
12/02/2010 - 09h34
Romain-des-Bois
Date d'inscription
janvier 2005
Localisation
Bordeaux, parfois Montpellier
Âge
25
Messages
3 846
Re : statistique : reduction du nombre de variables explicatives
Bonjour,
si tu as individus sur lesquels tu mesures variables quantitatives (ou pas d'ailleurs, mais les méthodes ne seront pas les mêmes), tu peux vouloir former un nombre de groupes (clusters) tels que, tous les individus d'un même groupe se ressemblent en un certain sens et tels que les individus de deux groupes distincts soient les plus différents possibles. Il y a différents algorithmes qui permettent de faire ça (par exemple : CAH (classification ascendante hiérarchique), K-means).
Mais je crois qu'en génétique, un cluster a un sens bien particulier.