Bonjour,
Je bute en probabilités sur un exercice qui me parait relativement complexe:
Quelle est la probabilité de trouver une séquence donnée constituée de n bases dans un ADN génomique constitué de N bases (avec n < N) ?
Je rappelle rapidement que l'ADN est constitué d'un enchainement linéaire de 4 bases notées A(Adénine), C(Cytosine), G(Guanine) et T(Thymine).
Au début, j'avais fait le raisonnement suivant:
il s'agit de ranger N-n bases dans N-n "tiroirs", en rangeant la séquence de n bases à tous les endroits possibles de la séquence de N bases.
Par exemple, si l'on recherche la probabilité que la séquence AT apparaisse dans une séquence de 4 bases, on aurait:
ATxx: 4*4 cas favorables
xATx: 4*4 cas favorables
xxAT: 4*4 cas favorables
soit 3*4*4 cas favorables
x étant n'importe quelle base
Ce qui donne la formule suivante:
(nombre de cas favorables sur nombre de cas possibles).
Le problème est que (je m'en suis rendu compte après), ce raisonnement est faux. Car, si l'on reprend l'exemple précédent, on compte deux fois la séquence ATAT.
La formule précédente est donc aussi fausse (car par exemple si l'on prend n=2 et N=2000, on obtient un nombre > 1, qui n'est évidemment pas une probabilité).
Si quelqu'un a une ou des idées...
Merci d'avance.
-----