Bonjour,
Je suis actuellement stagiaire dans un labo de recherche en informatique.
Dans le cadre de mon stage j'ai créé un algorithme que je souhaite valider expérimentalement.
Cependant plusieurs paramètre entre en jeux et je ne souhaite présenter les résultats de performance que dans les cas pertinent. Cela me permet aussi, par ailleurs, de m'assurer que mon algorithme est "résistant" au variations de ces variables, ce qui n'est pas le cas d'algorithme proposé par des chercheurs de ma bibliographie.
Afin que mon problème soit facilement compréhensible, je vais l'exprimer à l'aide d'une alégorie.
*********
Imaginons que mon algorithme soit un (unique!) robot coureur.
Je souhaite mesurer les performances de mon coureur, c'est a dire le temps qu'il met pour parcourir une certaine distance. J'appelle cette variable Yo (désolé =p : à lire y-zéro
Je pars d'un a priori (relativement certain) qu'il existe une variable, Xo, qui est fortement corellé à Yo. C'est d'ailleurs ces deux variables que je mettrais en relation pour tester les performances de mon algorithme.
Dans le cas du coureur Xo est la distance à parcourir.
Je met donc en avant la fonction qui m'interesse, F : Xo -> Yo.
C'est cette fonction qui représente les performances du coureur (il peut être très bon en sprint et très mauvais en endurance, moyen en sprint et bon en endurance ...).
J'insiste sur le fait que c'est précisément la fonction F qui m'interesse et non pas simplement la variable Yo qui n'a pas de sens à elle seule.
Mon problème est de savoir si d'autre variables, tel que le matériau utilisé pour la piste, la force du vent, la direction du vent... (notées Zo à Zn) vont avoir un impact significatif sur les performances de mon coureur.
Je ne sais pas de plus, a prioiri, si elles sont indépendantes. Par exemple le matériau de la piste peut avoir une influence significative si et seulement si le vent souffle fort.
Je fais donc mon coureur courir pendant un mois (le pauvre ) dans toute les conditions possibles (vents, pluie, grêle, terre battue, béton - je m'éclate! =p) et sur plein de distance différentes.
A l'issue de cet étape je dispose d'une tonne de relevés, et je souhaiterais les analyser pour mettre en évidence que tel Z a une influence ou pas, ou déterminer des catégories de au sein desquelles les différences ne sont pas significative et pouvoir montrer des résultats de performances plus détaillé dans chacune de ces catégories.
*********
J'ai conscience que ce problème n'est pas simple et je ne m'attend pas à ce qu'on me serve la solution sur un plateau.
Je pense qu'il y a plusieurs méthodologie pour s'attaquer à ce genre de problème et je suis plutôt à la recherche de piste, d'autant plus que n'ayant pas fait de statistique depuis le lycée je suis peu familier avec ces techniques.
Par exemple en en discutant avec un collègue, il a mis en avant que ce que j'essayais de faire était peut être d'inférer la fonction F(Xo, Zo, ..., Zn) en utilisant par exemple une régression linéaire qui me dirait Yo = a*Xo + b*Zo + c*Z1 + ...
J'aurai alors les paramètres (a,b,c) qui me donnerait l'influence des autres paramètres (c = 0 <=> pas d'influence de Z1). Le désavantage de cette méthode est que les variables Zi ne sont peut être pas indépendantes entre elles (même problème pour une analyse différentielle).
Il serait possible de faire une inférence plus "générale" de F mais alors je devrai mettre en place un algorithme complexe pour obtenir quelque chose de bcp plus précis que je ne cherche et dont il serait difficile d'exploiter les résultats (la formule de F ne me donne pas les influences des variables!)
Une autre méthode serait d'utiliser l'ANOVA, technique que j'ai découverte récemment.
A vrai dire c'est elle qui ma donné l'idée d'un tel protocole expérimental mais je n'ai pas encore réussi à le modéliser avec. (Il faut préciser que je fais des recherche sur ANOVA uniquement depuis hier soir =p)
La dernière piste que j'ai est d'utiliser des techniques d'apprentissage automatique mais ca deviendrait bourrin. Bon c'est quand même sur elle que je me penche le plus .
Voila, j'espère avoir été suffisamment clair.
Je poste cette question sur ce forum car, dans la mesure ou beaucoup d'entre vous doit avoir des formation différentes de la mienne, je pense que vous pourrez me suggerer des pistes que je n'ai pas envisagées.
Merci d'avance,
Droopy
-----