Répondre à la discussion
Affichage des résultats 1 à 6 sur 6

Test de la bimodalité



  1. #1
    kinette

    Bonjour,

    J'avais laissé de côté un problème de traitement de mes données, depuis un bon moment... et maintenant c'est assez urgent pour moi de le régler.
    Ce message est un peu une bouteille à la mer, des fois que quelqu'un puisse m'apporter la solution.
    J'ai déjà cherché un peu partout sur le net, et simplement trouvé des bouts de réponses qui ne m'ont finalement pas aidé.

    J'ai des données correspondant à la longueur de déplacement de larves de drosophiles pendant une minute (on s'amuse comme on peut!).
    La répartition de ces longueur ne suis à première vue pas une répartition normale: les données sont plutôt concentrées autour de deux valeurs, bref la répartition semble de nature bimodale.
    Ca c'est juste de l'observation.

    Mon problème est de montrer que c'est une répartition effectivement bimodale, et je cherche désespérément un moyen de le tester.

    Si quelqu'un m'apporte ici la solution, je promets un petit cadeau en échange (spécialité du Sud, ou autre...).

    Merci d'avance!!!!

    K.i perd trop de temps sur ce problème à la con...

    -----
    Nomina si nescis, perit et cognito rerum.

  2. Publicité
  3. 📣 Nouveau projet éditorial de Futura
    🔥🧠 Le Mag Futura est lancé, découvrez notre 1er magazine papier

    Une belle revue de plus de 200 pages et 4 dossiers scientifiques pour tout comprendre à la science qui fera le futur. Nous avons besoin de vous 🙏 pour nous aider à le lancer...

    👉 Je découvre le projet

    Quatre questions à explorer en 2022 :
    → Quels mystères nous cache encore la Lune 🌙 ?
    → Pourra-t-on bientôt tout guérir grâce aux gènes 👩‍⚕️?
    → Comment nourrir le monde sans le détruire 🌍 ?
    → L’intelligence artificielle peut-elle devenir vraiment intelligente 🤖 ?
  4. #2
    Marc

    Salut,
    Je ne sais pas trop ce que tu entends pas "bimodale".

    Mais par contre une répartition autour de deux longeurs, ça pourrait bien être la somme de deux lois normales, non ?
    Du genre les males qui vont plus vite que les femmelles, et donc leur loi normale est centrée autour d'une valeur plus grande.

    Marc

  5. #3
    kinette

    Merci d'avoir lu mon problème!

    Mais par contre une répartition autour de deux longeurs, ça pourrait bien être la somme de deux lois normales, non ?
    Du genre les males qui vont plus vite que les femmelles, et donc leur loi normale est centrée autour d'une valeur plus grande.
    Oui c'est effectivement ça le problème.

    Après discussion avec un membre de mon équipe (merci Niko...), une solution pourrait être de "fitter" la répartition avec un modèle bimodal, et tester avec un Chi-2 si l'ajustement est bon...

    K.hi-2
    Nomina si nescis, perit et cognito rerum.

  6. #4
    Marc

    Oui le test du Chi² me paraît bien adapté. Mais par contre, il va te falloir estimer les paramètres de ta loi bimodale. Si tu connais l'expression d'une loi bimodale, le "fittage" est facile. Pour ma part, je ne vois pas trop, à part dire qu'une loi bimodale est la somme de 2 lois normales de paramètres (m1 ; m2 ; sigma1 ; sigma2).

    => + de détails sur le test : http://rfv.insa-lyon.fr/~jolion/STAT/node116.html

    Marc

  7. A voir en vidéo sur Futura
  8. #5
    kinette

    Pour ma part, je ne vois pas trop, à part dire qu'une loi bimodale est la somme de 2 lois normales de paramètres (m1 ; m2 ; sigma1 ; sigma2).
    Ben voilà c'est aussi un peu mon problème... mais je suppose qu'avec les logiciels actuels ça doit être possible (???).

    De plus lorsqu'on veut tester si l'ajustement (ouf j'ai retrouvé le mot français) d'une courbe est correcte, le Chi-deux ne permet que de vérifier si l'écart entre la courbe théorique et l'observée est trop important.
    Ca ne dit pas si cette répartition est meilleure qu'une autre...
    Le truc serait donc de comparer la qualité de l'ajustement avec une courbe bimodale par rapport à celle obtenue avec un autre type de répartition... mais laquelle choisir: la répartition normale?

    (raaaa ça me rappelle l'utilisation du génial logiciel GLIM, pour tester les effets de différents facteurs sur la reproduction de mouettes... souvenirs souvenirs...).

    K.
    Nomina si nescis, perit et cognito rerum.

  9. #6
    curieux

    Bonjour,

    je ne sais pas si mon intervention t'apportera de l'aide. D'après ce que j'ai lu, tu te demandes si tu n'as pas affaire à deux populations, chacune suivant une loi Gaussienne X1, X2.

    Si c'est le cas, il te faut déterminer la répartition entre des deux populations 50% 50% ou k; 1-k?
    Ce problème est facile à résoudre de manière approchée: tes deux modes correspondent probablement aux valeurs moyennes de tes deux
    populations (en réalité les valeurs moyennes sont un peu décalées par rapport aux modes mais dans une première approximation, ça peut marcher) la valeur moyenne de ta série est alors la moyenne pondérée des deux moyennes précédentes. Tu peux calculer ta moyenne m, tu peux lire m1 et m2, et tu en déduis k
    km1 + (1-k)m2 = m donne k = (m2 - m)/(m2 - m1)

    il te faut trouver les écart-types s1 et s2
    Or tu sais que s² = ks1² + (1-k)s2² + k(m-m1)² + (1-k)(m - m2)² donc dès que tu connais s et s1, tu en déduis s2

    Il te faut donc déterminer s1 ou s2, tu choisis ta population prépondérante : X1 si k > (1-k) , X2 sinon (s'il n'y en a pas, tu choisis n'importe laquelle)
    pour la suite de mon calcul, je vais supposer que k>(1-k) et que m1 < m2

    je vais observer mon premier décile D1 (si la série prépondérante est X2 et si m1 < m2 il faut prendre le 9ème décile et travailler sur p(X > D9)

    0,1 = p(X < D1) = kp(X1 < D1) + (1-k)p(X2 < D1)
    On peut estimer que p(X2 < D1) est faible par rapport à p(X1 < D1) (on est plus loin de m2 que de m1)
    on peut donc dire que p(X < D1) est voisin de kp(X1< D1)
    Tu sais donc que p(X1 < D1) = env. 0,1/k
    Sur une table de loi normale réduite, tu regardes à quel ecart réduit t ça correspond. Et cela te permet de trouver s1
    t = (m1 - D1)/s1 donc s1 = (m1 - D1)/t

    Illustration par un exemple numérique
    série bimodale
    m1 = 15
    m2 = 20

    m = 17
    s = 3
    D1 = 13


    k = (20 - 17)/(20 - 15) = 0,6
    Il y a 60% de X1 et 40 % de X2

    p(X1 < 13) = 0,1/0,6 = 0,16666
    t = env. 0,95
    s1 = 2/0,95 = 2,10

    s2² = (3² - 0,6*2,1² - 6)/0,4 = (0,94)²

    Il suffit ensuite de construire la courbe 0,6*G(15 ; 2,1) + 0,4*G(20 ; 0,94) et de comparer avec le nuage de points

    Mais pour que ton regroupement en deux populations te donne une variable bimodale, il est nécessaire que leurs écart-type soient faibles par rapport à m2-m1

    Quand à l'adéquation, je ne peux pas te la chiffrer, pourquoi pas un Khi²

    j'espère t'avoir donné une piste possible mais c'est un peu de la
    cuisine (au moins deux approximations: sur m1 et m2, puis sur p(X1 < D1) et ça ne marche que pour un écart type faible.

    j'espère que ton hypothèse est la bonne... tant de calculs pour rien, ce serait dommage!

  10. Publicité

Discussions similaires

  1. Test : un autre test gauche droite
    Par Docteur X dans le forum Psychologies (archives)
    Réponses: 3
    Dernier message: 14/03/2012, 22h07
  2. génétique-Test d'identité / Test de paternité
    Par lola121 dans le forum Biologie
    Réponses: 0
    Dernier message: 26/12/2006, 09h37