Bioinfomatique - alignement de séquences

inviteef2bc70c · 29/01/2009, 19h14

Bonsoir,
Voici un exercice de bioinformatique tombé à notre l'examen de biochimie. Je vous donne l'énoncé et mes réponses, j'aurais voulu connaitre vos idées sur la question (si jamais il y a un spécialiste qui passe par là

)

Enoncé :
"Lors d'un alignement global entre deux séquences, les premiers algorithmes utilisaient des pénalités fixes pour les indels, quel que soit leur longueur.
1- Définissez ce qu'est un indel ?
Par la suite les algorithmes ont pris en compte la succession d'indels dans un gap, plutôt que l'indel en tant qu'événement isolé. Un modèle assez classique consiste à affecter une pénalité à l'ouverture et une autre à l'élongation de l'indel.
2 - A quel type d'algorithme se réfère ce dernier concept.
On propose ici un nouveau système de score pour lequel le coût d'un gap de longueur n est k√n, où k est un nombre entier négatif donné.
3 - Que change ce nouveau mode de calcul par rapport au système de scores utilisant des pénalités fixes ? Que pensez-vous de l'impact de la longueur du gap sur le score final ?
4 - Quelle est à votre avis la motivation biologique pour introduire ce type de méthode ?"

Réponses:
1 - indel = insertion de délétion, pour optimiser un alignement
2 - algorithme de type Needleman et Wunsch, calcul de pénalité du type p = x + yl (x : pénalité initiale, y : pénalité d'insertion, l : longueur du gap)
3 - Les pénalités augmentent moins vite que dans le cas de pénalités fixes
4- aucune idée ....

J'espère que ce n'était pas trop long... ^^
Merci beaucoup de votre aide !

Lulu

invite17a570c1 · 29/01/2009, 23h28

Hello,

Envoyé par Lulu Bentusi

1 - indel = insertion de délétion, pour optimiser un alignement

Euh... non

En fait, quand tu fais un alignement, tu compares position par position seq1 et seq2 :
seq1 : ATG - CATG
seq2 : ATGGCATG
On dit que si l'on décide que seq1 est la référence, il y a une insertion d'un G (en gras) dans seq2. Mais on peut voir ça différemment : si on a seq2 comme référence, on peut dire qu'il y a une délétion dans seq1. Donc, pour ne pas prendre l'une des séquence comme référence, on parle d'indel

Envoyé par Lulu Bentusi

2 - algorithme de type Needleman et Wunsch, calcul de pénalité du type p = x + yl (x : pénalité initiale, y : pénalité d'insertion, l : longueur du gap)

Beh en fait, je crois que l'algo originel de NW prenait les pénalité de gap fixes. Mais bon, je crois que maintenant tout ce qui relève de la programmation dynamique peut être considéré comme suivant cette formule. Faut juste faire gaffe parce que les algos type SW (alignement local) ainsi que les SW-bestfit acceptent les paramètres ouverture et extension de gap.
Sinon, j'ai des définitions un peu différentes :
x = pénalité d'ouverture du gap
y = pénalité d'extension du gap
L = longueur de l'indel

Envoyé par Lulu Bentusi

3 - Les pénalités augmentent moins vite que dans le cas de pénalités fixes

Comment ça? Si j'ai un gap de n = 4 (4 trous) et que j'ai défini mon k = -10.0, si je suis ta formule j'aurai -10.0*2 = -20. Si j'ai une pénalité fixe de k = -10.0, il changera comment le système de scores? Sachant que tu regarderas un score à la fin : quel est le système de score favorisé dans le cas du NW? C'est dans ce cadre que tu dois répondre à la question

Je te laisse conclure sur l'influence de la longueur du gap.

Envoyé par Lulu Bentusi

4 - Quelle est à votre avis la motivation biologique pour introduire ce type de méthode ?"
aucune idée ....

Oh, allez

Je sais que ce n'est pas super évident de trouver quelle est la question en fait. Si je te la pose ainsi :
Quelle est la motvation biologique pour introduire une pénalité d'ouverture de gap et une pénalité d'extension de gap plutôt que de laisser une pénalité de gap fixe?

Est-ce que là tu as une pitite idée?

Hope that helps.

inviteef2bc70c · 30/01/2009, 19h28

bah je suis peut-être bête mais je comprends pas du tout ... en particulier les questions 3 et 4.
Si tu pouvais me donner tes réponses directement ce serait sympa, en fait j'essaie de faire réviser des étudiants chinois pour un rattrapage

Merci beaucoup !

invite17a570c1 · 31/01/2009, 01h49

Salut,

Je suis désolée, j'ai horreur de donner des réponses toutes faites. Surtout si c'est pour que tu expliques après à d'autres.
Dis ce que tu ne comprends pas et où tu bloques et on reprendra

A voir en vidéo sur Futura · Aujourd'hui

inviteef2bc70c · 31/01/2009, 10h20

Je suis d'accord avec toi, mais il me faudrait une explication avant demain soir

(le rattrapage pour eux est lundi matin)

En attendant, voici mes réflexions :
3 - Il faut d'abord savoir l'intérêt d'introduire un système qui prend en compte la longueur du gap au lieu de pénalités fixes.
"En conséquence, une longue insertion est légèrement plus pénalisante qu'une courte, ce qui revient en fait à minimiser le poids de la longueur des insertions par rapport à l'introduction même d'une insertion."
Le but serait donc de minimiser le nombre d'insertion dans une séquence.
Admettons qu'on a un k fixe de -2, selon la formule k√n, la pénalité serait "fixe" mais pondérée en fonction de la longueur du gap. L'utilité serait peut être de simplifier encore plus les calculs...

4 - J'ai toujours du mal à voir la "motivation biologique", à part peut être d'utiliser un k différent selon les espèces ou les protéines. Ou alors la réponse est presque le même que la précédente : il s'agit de minimiser le nombre d'ouverture de gap.

Merci encore de ton aide ^^

invite17a570c1 · 31/01/2009, 13h16

Hello,

Envoyé par Lulu Bentusi

3 - Il faut d'abord savoir l'intérêt d'introduire un système qui prend en compte la longueur du gap au lieu de pénalités fixes.
"En conséquence, une longue insertion est légèrement plus pénalisante qu'une courte, ce qui revient en fait à minimiser le poids de la longueur des insertions par rapport à l'introduction même d'une insertion."
Le but serait donc de minimiser le nombre d'insertion dans une séquence.
Admettons qu'on a un k fixe de -2, selon la formule k√n, la pénalité serait "fixe" mais pondérée en fonction de la longueur du gap. L'utilité serait peut être de simplifier encore plus les calculs...

Quand tu cites, faut dire d'où tu prends ta citation

Simplifier les calculs, pas vraiment : c'est plus difficile de calculer une multiplication d'un entier négatif par le produit de la racine carrée d'un autre entier que de prendre en compte seulement l'entier négatif.
Mais le truc est qu'un gap de 3 positions n'aura pas la même incidence sur l'alignement qu'un gap de 10 positions.
Après, c'est toi qui fixe le système de score, n'oublie pas. Donc, si tu veux, tu peux favoriser la similitude (donner des valeurs très fortes à l'identité et substitution) ou favoriser la distance (donner des valeurs très fortes aux indel).

Envoyé par Lulu Bentusi

4 - J'ai toujours du mal à voir la "motivation biologique", à part peut être d'utiliser un k différent selon les espèces ou les protéines. Ou alors la réponse est presque le même que la précédente : il s'agit de minimiser le nombre d'ouverture de gap.

En fait, ça c'est un truc très marrant dans le sens où l'hypothèse est que dans la "Nature", il est plus "naturel" de produire un gros trou que d'en produire plusieurs pitits. Autrement dit, ces algos prennent comme point de départ le fait qu'une délétion/insertion de taille (assez importante) est plus susceptible d'arriver comparé à plusieurs indel le long d'une séquence. Pour cette raison, on instaure les indels longs plutôt qu'une "passoire"

Cette idée n'a pas été démontrée biologiquement. Elle ne choque pas pour autant notre logique. Ce que tu dis est vrai aussi, dans le sens où il n'y a pas un système de scores universel : il y en a tellement qu'il y a des chercheurs et des séquences. Il faut s'en rappeler lorsqu'on fixe les paramètres de l'alignement.

J'espère que c'est un peu plus clair

Le site d'où tu as pris ta citation est très bien, regarde un peu en profondeur les choses. Et même si c'est un peu ch***, il est très utile de refaire tout le chemin d'alignement (les matrices dans la programmation dynamique).

Bioinfomatique - alignement de séquences

Bioinfomatique - alignement de séquences

Re : Bioinfomatique - alignement de séquences

Re : Bioinfomatique - alignement de séquences

Re : Bioinfomatique - alignement de séquences

Re : Bioinfomatique - alignement de séquences

Re : Bioinfomatique - alignement de séquences

Discussions similaires

Bioinformatique : alignement des séquences par méthode pairwise

[Génétique] Alignement de sequences nucleotidiques

[Evolution] [Proteomique] Logiciel d'alignement de sequences proteiques

alignement de séquences