Probabilités et ADN

inviteb389912d · 31/12/2005, 14h58

Bonjour,
Je bute en probabilités sur un exercice qui me parait relativement complexe:
Quelle est la probabilité de trouver une séquence donnée constituée de n bases dans un ADN génomique constitué de N bases (avec n < N) ?
Je rappelle rapidement que l'ADN est constitué d'un enchainement linéaire de 4 bases notées A(Adénine), C(Cytosine), G(Guanine) et T(Thymine).
Au début, j'avais fait le raisonnement suivant:
il s'agit de ranger N-n bases dans N-n "tiroirs", en rangeant la séquence de n bases à tous les endroits possibles de la séquence de N bases.
Par exemple, si l'on recherche la probabilité que la séquence AT apparaisse dans une séquence de 4 bases, on aurait:
ATxx: 4*4 cas favorables
xATx: 4*4 cas favorables
xxAT: 4*4 cas favorables
soit 3*4*4 cas favorables
x étant n'importe quelle base

Ce qui donne la formule suivante:
$\text{[math]}$
(nombre de cas favorables sur nombre de cas possibles).

Le problème est que (je m'en suis rendu compte après), ce raisonnement est faux. Car, si l'on reprend l'exemple précédent, on compte deux fois la séquence ATAT.

La formule précédente est donc aussi fausse (car par exemple si l'on prend n=2 et N=2000, on obtient un nombre > 1, qui n'est évidemment pas une probabilité).

Si quelqu'un a une ou des idées...

Merci d'avance.

invite6be2c7d9 · 31/12/2005, 16h10

Pourquoi est-ce que quand il s'agit de proba ça intéresse tout de suite moins de monde

lol ?

inviteb389912d · 01/01/2006, 20h52

Petit up si jamais...

invitedf667161 · 01/01/2006, 21h00

Salut.

j'ai l'impression que la proba que tu cherches est "simplement" $\text{[math]}$

4^N étant le nombre de cas possibles. 4^(N-n) le nombre de cas favorables quand la chaine donnée est placée à une certaine position donnée dans la chaine et N-n+1 étant le nombre de ces positions possibles.

A voir en vidéo sur Futura · Aujourd'hui

invitedf667161 · 01/01/2006, 21h02

Héhé j'avais même pas fini de lire ton premier message.

je ne vois pas en quoi c'est grave qu'on compte deux fois le "AT" de "ATAT".

invitedf667161 · 01/01/2006, 22h07

Après reflexion tu as raison, cette formule n'est pas bonne, elle dépasse 1 des fois.

mais je crois qu'on n'est pas loin du tout, il y a toujours des petits trucs pas graves qui font foirer comme ça ...

inviteb389912d · 02/01/2006, 00h51

Bonjour,
Merci Guyem de ton aide, mais j'ai l'impression que j'en suis quand meme assez loin. Pour plusieurs raisons:
tout d'abord, en effet ce n'est pas grave de compter ATAT, le problème est qu'en utilisant cette formule on le compte 2 fois:
ATxx: 4^2: ATAT une fois
xATx: 4^2
xxAT: 4^2: ATAT deux fois, d'où: 4^2 - 1

Un autre problème est qu'apparemment cela dépend de la complexité des n bases. Exemple:
je cherche la probabilité d'obtenir une séquence de 2 bases parmi 3.
Si ma séquence est AT, j'ai:
ATA
ATC
ATG
ATT
AAT
CAT
GAT
TAT
soit 8 cas favorables
P= 8/ 4^3 = 8/64

Maintenant si ma séquence est AA, j'ai:
AAA
AAC
AAG
AAT
AAA (déjà compté, donc -1)
CAA
GAA
TAA
soit non plus 8 mais 7 cas favorables
d'où P=7/4^3 = 7/64

Les probabilités sont donc différentes suivant la complexité de la séquence.

Et va caractériser la complexité d'une séquence d'ADN en maths...

Merci encore pour ton aide.
Si vous avez d'autres idées...

**invite4793db90** · 02/01/2006, 01h32

Salut,

la probabilité cherchée est peut-être

$\text{[math]}$

avec $\text{[math]}$ la longueur de la séquence cherchée et $\text{[math]}$ la partie entière (la somme est finie).

C'était l'idée du soir... Je vais me coucher.

Bonne nuit.

invitedf667161 · 02/01/2006, 09h36

Tu te couches trop tard martini !

Le L que tu introduis n'apparait pas dans la proba que tu donnes. De plus la longueur de la séquence cherchée m'a l'air d'être n non ?

**invite4793db90** · 02/01/2006, 09h41

Salut,

en fait dans la formule $\text{[math]}$ est la longueur totale du brin.

C'est la même formule, mais j'ai ôté les probabilités de trouver deux fois la séquence cherchée, trois fois, etc.

Cordialement.

inviteb389912d · 02/01/2006, 21h19

Bonjour,
Merci pour vos réponses.
Malheureusement selon moi la formule n'est toujours pas bonne.
Si on prend 2 bases parmi 4, il y a les cas suivants:
ATxx: 4^2
xATx: 4^2
xxAT: 4^2 - 1

Soit nombre de cas favorables: 2*4^2 + 4^2 - 1

Or, si j'ai bien compris ta formule, dans le cas où n=2 et N=4, la somme que tu donnes est égale à 1:
[2-1/1] + [2-1/2] + ... = 1 + 0 +0 ... = 1

Donc on aurait nombre de cas possibles:
(N-1)4^(N-n)
Soit 3 * 4^2 et non pas 2*4^2 + 4^2 - 1

Merci pour votre aide.

Si il y a d'autres idées...

Cordialement.

**invite4793db90** · 02/01/2006, 21h40

Salut,

Envoyé par philagui74

Malheureusement selon moi la formule n'est toujours pas bonne.

Ne t'inquiète pas, j'avais de sérieux doutes moi aussi... mais en théorie, c'est Guyem le pro en probas.

Si ça n'avance pas, je regarderai la chose de plus près.

Cordialement.

PS: ce post ne sert à rien, je sais...

invite5dca5f20 · 02/01/2006, 22h11

Efreien? Efreienne?...

invitedf667161 · 02/01/2006, 23h11

Envoyé par martini_bird

Salut,

Ne t'inquiète pas, j'avais de sérieux doutes moi aussi... mais en théorie, c'est Guyem le pro en probas.

Si ça n'avance pas, je regarderai la chose de plus près.

Cordialement.

PS: ce post ne sert à rien, je sais...

C'en est trop pour moi

Je trouve pas la réponse flagellez-moi !

invitedf667161 · 02/01/2006, 23h22

Bon alors après un peu de reflexion voilà une idée :

Trouver au moins une fois la chaine de longueur n dans la grande chaine de longueur N c'est soit la trouver une fois, soit la trouver deux fois, soit la trouver trois fois etc jusqu'ua nombre maximum de fois où on peut la trouver qui est évidemment $\text{[math]}$ .

De plus le nombre de cas favorables pour la trouver exactement une fois est comme précedemment $\text{[math]}$ . Celle pour la trouver deux fois est $\text{[math]}$ etc...

La probabilité cherchée serait donc : $\text{[math]}$

A vous de montrer que c'est faux

inviteb389912d · 02/01/2006, 23h51

Bonsoir,
Désolé lol
Le raisonnement me semble très intelligent et à mon avis on doit s'en approcher. Mais avec un cas simple, si j'ai bien compris ta formule, voici ce que ça donne:
si je prends 2 bases parmi 4, j'ai les cas suivants:
ATxx: 4^2
xATx: 4^2
xxAT: 4^2 -1 (car ATAT a déjà été compté)

Soit nombre de cas favorables = 2*4^2 + 4^2 - 1 = 47

Avec ta formule:
$\text{[math]}$

Ceci dit, comme déjà dit précédemment, ce qui me fait peur, c'est que la probabilité dépend de la séquence en elle-même. Si je reprend ce que j'ai écrit plus haut, pour 2 bases parmi 3, on a pas le même résultat si on prend la séquence AT que si l'on prend la séquence AA.
Donc si je raisonne bien ça veut dire que dans la formule, il doit y avoir un paramètre qui caractérise la complexité de la séquence ou la séquence en elle-même...
Cordialement.

invitec7204958 · 03/01/2006, 06h41

Envoyé par GuYem

Bon alors après un peu de reflexion voilà une idée :

Trouver au moins une fois la chaine de longueur n dans la grande chaine de longueur N c'est soit la trouver une fois, soit la trouver deux fois, soit la trouver trois fois etc jusqu'ua nombre maximum de fois où on peut la trouver qui est évidemment $\text{[math]}$ .

Le "évidemment" est de trop. Dans une chaine de longueur 8 il est possible de loger 3 fois la séquence ATAT : ATATATAT. Par conséquent la manière de compter le nombre de chaines où on trouve 2 fois la séquence ATAT est bien supérieure à celle où te conduit ton raisonnement : par exemple il faut aussi compter comme cas favorable CATATATG

Autre façon de dire la même chose : les chaînes commençant à la position N+1 ne sont pas indépendantes des chaînes de celles débutant en position N : tout raisonnement considérant ces "locus" comme remplis de façon indépendante est erroné

Bon, il faut que j'aille travailler, je reprends le problème ce soir. Une piste a priori : compter le nombre de cas défavorables

inviteb389912d · 03/01/2006, 10h37

Bonjour,
En effet j'ai aussi penser à compter le nombre de cas défavorables en faisant un arbre. Mais cela devient vite complexe, et j'ai abandonné.
Mais peut-être y a t-il une autre solution pour dénombrer les cas défavorables...
En tous les cas, merci à tous.

invitedf667161 · 03/01/2006, 10h55

Envoyé par Nemat

Le "évidemment" est de trop. Dans une chaine de longueur 8 il est possible de loger 3 fois la séquence ATAT : ATATATAT. Par conséquent la manière de compter le nombre de chaines où on trouve 2 fois la séquence ATAT est bien supérieure à celle où te conduit ton raisonnement : par exemple il faut aussi compter comme cas favorable CATATATG

Autre façon de dire la même chose : les chaînes commençant à la position N+1 ne sont pas indépendantes des chaînes de celles débutant en position N : tout raisonnement considérant ces "locus" comme remplis de façon indépendante est erroné

Bon, il faut que j'aille travailler, je reprends le problème ce soir. Une piste a priori : compter le nombre de cas défavorables

Tu as complètement raison. Mon "évidemment" est valide si on ne considère que des apparitions de la chaine en question qui ne se rentrent pas dedans !

Il semble en effet judicieux de compter le nombre de cas défavorable, à vous l'honneur messieurs.

invitedf667161 · 03/01/2006, 19h59

Bon après un peu plus d'approfondissement (merci Koléh&#232

il semble que le problème ne soit pas simple du tout.

En effet la réponse dépent non seulement de N et n comme on pouvait s'y attendre mais aussi de la "nature" de la chaine de longueur n que l'on cherche. Tu as bien vu ça Philagui. Pour s'en convaincre il suffit de ne travailler qu'avec deux symboles A et B et N=3. La proba de voir apparaitre AA est alors 3/8 et celle de voir AB est 4/8.

Tout ça pour dire que si formule fermée il existe alors elle fait apparaitre des trucs louches tenant compte de la nature de la chaine cherchée.

Cependant dans le cas où n=1 ou N on trouve facilement la probabilité et avec un raisonnement faux on trouve la proba suivante :
$\text{[math]}$

Il n'est pas dur de voir que cette proba est un minoration de la vraie proba et si N est assez grand elle doit donner un ordre de grandeur assez précis de la proba cherchée.

invitec7204958 · 03/01/2006, 20h04

Envoyé par GuYem

Salut.

j'ai l'impression que la proba que tu cherches est "simplement" $\text{[math]}$

4^N étant le nombre de cas possibles. 4^(N-n) le nombre de cas favorables quand la chaine donnée est placée à une certaine position donnée dans la chaine et N-n+1 étant le nombre de ces positions possibles.

Je suis d'accord avec cette formule. A condition de compter dans CHAQUE chaîne de longueur L le nombre total d'exemplaires DISTINCTS de la chaîne recherchée (ce qui est d'ailleurs l'énoncé) : il faut surtout ne pas chercher à compter le nombre de chaînes ayant AU MOINS un exemplaire de cette liste

J'ai recherché une démonstration faisant appel au dénombrement
* je considère d'abord toutes les chaînes de longueur N : il y en a $\text{[math]}$
* chacune de ces chaînes contient L-L+1 sous-chaînes de longueur l
* le fil directeur de la démonstration, c'est de montrer que toutes les combinaisons de longueur l sont équiprobables... Comme il existe $\text{[math]}$ chaînes différentes on arrive à la formule ci-dessus

invitea7843ff1 · 03/01/2006, 20h28

Je voudrai pas vous mettre la pression, mais toute une promo attend vos réponses avant midi.

Allez bon courage et rendez vous sur un autre forum pour les prochains TAI

invitedf667161 · 03/01/2006, 20h37

Envoyé par un_efrein

Je voudrai pas vous mettre la pression, mais toute une promo attend vos réponses avant midi.

Allez bon courage et rendez vous sur un autre forum pour les prochains TAI

Elle peut attendre, on s'en f**t de la promo.

(enfin disons, je m'en f**s et je crois que pas mal de personne sur ce forum aprtagent cet avis, et excusez mes mauvais mots mais quand je vois des posts comme ça, j'enrage

)

invitedf667161 · 03/01/2006, 20h39

Envoyé par Nemat

Je suis d'accord avec cette formule. A condition de compter dans CHAQUE chaîne de longueur L le nombre total d'exemplaires DISTINCTS de la chaîne recherchée (ce qui est d'ailleurs l'énoncé) : il faut surtout ne pas chercher à compter le nombre de chaînes ayant AU MOINS un exemplaire de cette liste

La question de Philagui est : "Quelle est la probabilité de trouver une séquence donnée constituée de n bases dans un ADN génomique constitué de N bases (avec n < N) ?"

Il faut se mettre d'accord sur ce qu'on cherche messieurs.

la question de Philagui est dure, la tienne l'est moins.

inviteb389912d · 03/01/2006, 21h04

Bonjour,
Ce sujet a été posé à la promo de l'EFREI dans le cadre d'un travail en groupes du cours de probabilités.

Comme je ne trouvais pas la réponse à cette question malgré avoir pas mal cherché, je me suis décidé à poser la question sur ce forum. Evidemment, grâce à google, d'autres membres de la promo ont retrouvé le message, ce qui a conduit au message de un_efreien.

Comme vous pouvez le voir, certains d'entre nous cherchent un raisonnement mathématique leur permettant d'arriver à la réponse d'un problème mathématique, d'autres cherchent une réponse toute faite qu'ils pourront parachuter dans leur rapport sans l'avoir comprise.

Je suis vraiment désolé du message de un_efreien et m'en excuse, même si je n'en suis pas responsable.

Cordialement.

un_efreien> si tu veux me répondre, utilises mon adresse mail si tu l'as ou le forum de la promo, mais merci de ne pas polluer un topic qui concerne un problème mathématique et non la réponse toute faite à un exercice.

invitedf667161 · 03/01/2006, 21h11

Tu pourrais redonner l'énoncé exact de l'exercice Philagui stp ?

Il me semble que la question n'est pas celle que j'ai abordée car elle est me parait trop complexe.

inviteb389912d · 03/01/2006, 21h20

Bonjour
Guyem> L'énoncé exact est le suivant:
Tout d'abord il y a un petit extrait nous expliquant rapidement la structure d'un ADN:
Les ADN des êtres vivants sont constitués de plusieurs milliards de bases. L'ADN qui contient le code génétique, qualifié de génomique, est constitué d'un enroulement en hélice de deux ADN simples brins. Les séquences des deux ADN simple brins sont complémentaires, c'est à dire que pour une base A d'une séquence correspond une base T de l'autre et pour une base C d'une séquence correspond une base G de l'autre.
Question: Quelle est la probabilité de trouver une séquence donnée constituée de n bases dans un ADN génomique constitué de N bases (n<N) ?

invitec314d025 · 03/01/2006, 21h24

Ce qui rappelle, pour simplifier le problème, qu'il faut prendre en compte les deux brins

**invitea0443c8c** · 03/01/2006, 21h28

Salut!
Bon moi je suis biologiste et pas matheux mais ce style d'exo (en plus simple je pense) est souvent proposé aux étudiants en bio moléculaire, génétique and Co.... Et la plupart du temps, on oublie le 2ème brin alors Matthias fait bien de le rapeller : l'ADN n'est pas l'ARN....

A+
Vinc

inviteb389912d · 03/01/2006, 21h33

Nemat> Si j'ai bien compris ton message, selon toi la formule donnée au début est bonne ?
En tous les cas, cette formule ne peut pas être bonne, car si l'on fait l'essai avec n=2 et N=2000, on obtient un nombre supérieur à 1, qui est tout sauf une probabilité...

matthias, Vinc> lorsque j'avais posé le problème sur le forum, je pensais qu'étant donné que les deux brins étaient complémentaires, trouver la séquence dans un brin revenait à la trouver dans les deux, mais vous avez raison il faut prendre en compte les deux brins, ce qui complique encore plus le problème

Probabilités et ADN

Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Re : Probabilités et ADN

Discussions similaires

[Biologie Moléculaire] l'hybridation ADN/ADN "les différent méthodes???"

Probabilités

Probabilités

Probabilités

probabilités