bonjour j'ai quelques difficultés avec l'exercice d'application ci dessous, c'est un exercice sans corrigés censé nous aider a appliquer le cours. Voici l'énoncé, Je vous fais part également des réponses que j'ai trouvé ( ci possible aidez moi à comprendre mes erreurs ou les questions auquel j'au buté, je vous remercie d'avance)
1) On vous donne une séquence d'EST (ADNc) humain extraite d'une base de donnée de séquence. Répondez brièvement aux trois questions suivantes.
a)En quoi cette séquence se distingue-t-elle de la séquence génomique correspondante ?
--->pas d'introns
b)Comment faire pour trouver la phase codante dans cet ADNc ?
--->calcul du score de biais delta
c)Comment vérifier qu'il s'agit bien d'une séquence humaine et pas d'une séquence provenant par exemple d'une bactérie contaminant les tissus ?
--->par anayse comparative on quantifie le degré d'homologie entre les séquences.
d)On veut produire la protéine dans Escherichia coli. Comment prédire a priori si la protéine sera correctement exprimée ?
--> je ne sais pas
2) On rappelle que l’Arginine peut être codée par les six codons suivants :
Arg -->AGG, AGA, CGT, CGC, CGG, CGA
et la Lysine par les des codons suivants :
Lys ---> AAA, AAG
a)Ecrivez une expression régulière reconnaissant les codons Arginine et seulement eux.
--> la réponse auquel je pensais était celle de la question b mais apparemment ça n'est pas le cas, je ne comprend pas pourquoi, car quand je constate les différents codons on remarque que G est toujours en position 2 alors qu'en position 1 on a soit A ou C donc entre crochet, pour la troisième position on a soit A, G, C, ou T donc comme celle présentée ci-dessous, pourquoi ne convient- elle donc pas ?
b)Pourquoi l’expression [AC]G[AGCT] ne convient pas ?
c)Ecrivez une expression régulière reconnaissant tous les codons correspondant aux acides aminés basiques (Lys et Arg). Essayez de mettre cette expression sous une forme synthétique (courte).
--->[AC][AG][AGCT]
3) Pour analyser et prédire les gènes dans le génome d'un eucaryote supérieur, on se sert d'un programme utilisant des modèles de Markov cachés. Ce programme est conçu pour repérer les introns et les exons.
a)Pourquoi le repérage des exons est-il particulièrement difficile dans les très grands génomes ?
b)En quoi le fait de disposer d'un grand nombre d'EST pour ce même organisme est-il utile et quelle méthode informatique applique-t-on pour utiliser cette information supplémentaire ?
Pour la question 3 je ne sais pas également, merci de m'aiguiller s'il vous plait.
-----