Méthode statistique de séparation et/ou de classification

invite7473b9f4 · 04/07/2011, 10h08

Bien le bonjour,

Avant de poster, j'ai cherché sur le forum si ma question avait été posée, mais je n'ai rien trouvé.

Voici mon problème :

Je dispose d'une matrice de données composée de N mesures de 2 valeurs, F et A. Lorsqu'on représente A en fonction de F, voici ce que l'on obtient :

Je sais que dans ce nuage de points se cachent 2 tendances qui suivent une loi du type $\text{[math]}$
Je sais également que les coefficients $\text{[math]}$ et $\text{[math]}$ sont positifs.
Je sais aussi que les mesures sont bruitées. On peut faire l'hypothèse que le bruit est Gaussien.

Je souhaiterais pouvoir extraire les points qui suivent ces 2 tendances. L'idée est au moins de séparer le nuage en 2 ; dans l'idéal en 4, si l'on sépare aussi le bruit. Pour cela, je pense utiliser une méthode statistique de classification.

J'ai déjà testé l'analyse en cluster, mais ce n'est pas satisfaisant. D'autant qu'on ne spécifie pas la tendance que l'on souhaite suivre. Comme je suis une bille en stats, je m'en remets à vous, afin que vous puissiez m'indiquer une voie à suivre.

Merci !

invitea29b3af3 · 04/07/2011, 20h42

Salut

Tu peux reposter ton image ? (la mettre en pièce jointe)

invite7473b9f4 · 05/07/2011, 12h38

Oups, désolé pour l'image. La voici :

http://www.ecole.ensicaen.fr/~jperon/docs/LoiAmo1.png

J'ai simplifié le cas. Ce sont des points obtenus par synthèse, dont je connais les paramètres. Donc, pas de bruit ici.
Les courbes peuvent se croiser, ou pas.

Merci à vous.

invitea29b3af3 · 05/07/2011, 22h39

Je remets l'image en pièce jointe par sécurité, car les modérateurs risque de supprimer ton lien.

Question : j'espère que tu n'espères pas résoudre ça analytiquement (à la main, j'entends) ?

Bon, je pars du principe que non. Admettons que tu fasses ça sous Matlab. Personnellement je ferais comme ça:
J'utiliserais l'algorithme RANSAC (http://fr.wikipedia.org/wiki/RANSAC). Si tu sais pas comment ça marche, en gros: l'algo par du principe que tu as des points. Certains collent à un modèle (les "inliers"), les autres sont du bruit (les "outliers"). Vu que toi tu as 2 tendances, tu fais un RANSAC pour la 1ère, puis tu enlèves les inliers que tu as trouvés et tu refais un RANSAC pour la 2e. Comment on trouve les inliers: par exemple tu as 100 points au total. Tu en choisis 20 au hasard et tu essaie de leur coller un modèle A(F) comme t'as décrit (y'a des fonction dans MATLAB pour ça, par exemple lsqcurvefit). Le modèle est calculé seulement pour ces 20 points. Puis tu "supposes" que ce modèle est le bon (les bons paramètres alpha_G et alpha_R) et tu calcules l'erreur entre TOUS les points (les 100) et le modèle. Et tu gardes provisoirement ce modèle en copie comme étant ton "meilleur modèle pour l'instant". Puis tu recommences: tu reprends 20 points au hasard (complètement au hasard, même si certains points ont déjà été pris la 1e fois) et tu colle un modèle dessus (juste sur ces 20 là). Puis tu calcules l'erreur entre le modèle et TOUS les points. Si l'erreur est plus petite que celle d'avant, alors ce modèle devient ton "meilleur modèle pour l'instant", sinon c'est toujours l'autre. Et tu recommences, tu prends 20 points au hasard, etc... En faisant ça un très grand nombre de fois, il y aura certainement une fois où parmi tes 20 points se trouveront une grande majorité d'inliers de ta première tendance, donc le modèle sera bien estimé et quand tu calculera l'erreur, elle sera minimale. Si t'as pas tout compris, lis l'article de Wikipédia, en particuliers le pseudocode, c'est très clair.
Et si t'as pas envie de tout écrire sous Matlab y'a un type qui a implémenté RANSAC pour Matlab : http://www.csse.uwa.edu.au/~pk/research/matlabfns/ y'a un fichier ransac.m sous "Model Fitting and Robust Estimation". T'as juste à mettre les bons paramètres et le truc te sors le modèle (c'est à dire les paramètres alpha, la liste des points qui collent ce modèle (les inliers) et la liste des points qui le collent pas (les outliers)).

A voir en vidéo sur Futura · Aujourd'hui

invite7473b9f4 · 07/07/2011, 09h04

Merci pour ce conseil. T'inquiètes pas, j'ai 2 outils costauds à disposition : Matlab et SPSS (Et un calculateur si besoin

)

J'ai testé la méthode (depuis une toolbox matlab, car le programme que tu m'as linké, j'ai pas réussi à le faire marcher).
Bilan : Pour un cas d'école, ou la/les tendances se démarquent du reste des points, ça fonctionne. Quand la tendance n'est pas visible, et qu'on a plutôt un genre de nuage de points, c'est pas forcément génial.

J'ai 2 nouvelles pistes : soit un filtrage de Wiener généralisé (à mon avis, faut quand même avoir une tendance marquée aussi pour que ça marche), soit une analyse statistique par clustering à noyaux (Je ne sais pas encore ce que c'est, mais parait que ça peux marcher

).

Merci encore. Au passage, j'ai trouvé ton explication on-ne-peut plus claire.

invitea29b3af3 · 07/07/2011, 14h25

C'est clair que si y'a énormément de bruit (chaque tendance étant en plus du bruit pour l'autre) RANSAC risque de foiré...

T'arrives à mettre en pièce jointe tes données, que je vois à quoi ça ressemble. Mais je te dis honnêtement n'attends pas trop de moi, je suis de loin pas expert

Le clustering à noyaux se dit "kernel clustering" en anglais (au cas où, si tu veux chercher de la doc), mais j'en sais pas vraiment davantage.

invite7473b9f4 · 08/07/2011, 09h34

Héhé, tu m'as déjà bien aidé! Je te mets en pièce jointe 2 cas, un "sympa" ou on pourrait presque distinguer les tendances à l’œil, et un "pas sympa"..

On va dire que l'ensemble de mes données varient entre ces 2 cas, et sont plus souvent proches du cas "pas sympa"...

Je ne peux pas vraiment améliorer les données. Un prétraitement à déjà permis de diviser par 2 le nombre de points, en éliminant une grande partie du bruit.

invitea29b3af3 · 08/07/2011, 20h34

Ah ok ouais quand même

Bon.... bonne chance

Non plus sérieusement désolé, là je peux pas t'aider plus.

invite7473b9f4 · 11/07/2011, 08h59

Héhé

Merci quand même

Je te tiens au courant si jamais le clustering par noyaux fonctionne (J'connais quelqu'un qui peut me briefer dessus).

invitea29b3af3 · 11/07/2011, 09h45

Ok cool

invite7473b9f4 · 11/07/2011, 10h04

Au passage, si jamais quelqu'un rencontre le même genre de problème que moi :

le filtrage de Wiener ne peut pas fonctionner ici. Il faut un échantillonnage constant pour l'appliquer. Si vous avez confiance, vous pouvez tenter d'interpoler vos données, et les rééchantillonner par la suite. Dans mon cas, vu la tronche des données, cela introduirait d'avantage de bruit.

invite7473b9f4 · 29/07/2011, 13h56

J'avais promis de répondre il y a quelques temps... Mieux vaut tard que jamais. Bon, concernant le Kernel clustering :

L'idée c'est d'appliquer une transformation non linéaire par une "fonction noyau" (ou Kernel function) sur les vecteurs de base d'un espace. On obtient alors une nouvelle représentation de nos points dans un nouvel espace. Ce qu'on peut espérer, c'est qu'un choix optimal de kernel function puisse déformer suffisamment l'espace pour séparer nos données...

En théorie, c'est chouette. En pratique, ça peut s'avérer extrêmement efficace. Dans mon cas, je n'ai pas pu conclure. Le fait est qu'il faut réaliser une étude très complète afin de déterminer précisément quel noyau utiliser. De plus, les fonctions noyaux ne sont pas en nombre fini : on peut les créer soi-même. Pour information, voici un listing des fonctions courantes :
http://crsouza.blogspot.com/2010/03/...-learning.html

En plus du choix de la fonction noyau, il faut choisir une norme. Dans mon cas, j'ai choisi la norme Euclidienne, par défaut. Encore une fois, ce choix demande une étude précise, que je n'ai pas le temps de réaliser.

Je vous joins un exemple de ce que l'on peut obtenir.
- Le premier graphe représente mes données d'origine sur un exemple de synthèse. Je souhaite complètement séparer les points rouges et les bleus.
- Le second graphe est obtenu par Clustering classique sur ces données. Un cluster par couleur : c'est nul.
- Le troisième est le résultat du kernel clustering. Les points sont représenté dans le nouvel espace. On en conclut rien.

Bon courage à ceux qui liront ceci et qui pensent utiliser ces techniques. C'est surement très efficace, mais faut avoir le temps et la motivation de faire une étude précise.

invitea29b3af3 · 31/07/2011, 13h55

Ok, ben en tout cas merci pour les explications.

Est-ce que t'aurais pas meilleur temps d'essayer une kernel exponentielle ? Ou plutôt logarithmique ? Puisque t'as une loi A(F) qui est exponentielle... enfin je sais pas, je dis ça un peu comme ça au bol

invite7473b9f4 · 01/08/2011, 14h34

Oui oui, j'y ai pensé, et j'ai testé. Hélas, ça ne donne pas de meilleurs résultats...
C'est un problème complexe... Du coup, j'essaye une nouvelle approche (Je passe les explications, car ça va être long).

En tout cas, merci fiatlux

Méthode statistique de séparation et/ou de classification

Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Re : Méthode statistique de séparation et/ou de classification

Discussions similaires

méthode de séparation en cryogénie

Méthode de separation de variables

Méthode de séparation

Changement d'état ou méthode de séparation ?

Classification de Linné = méthode scientifique??