Bonjour!
Je suis interessé par la création d'une base de de données ne contenant que les régions 3'UTR des ARNms, j'avais pensé récuperer sur ncbi les séquences d'ARNm au format genbank puis faire un parser récupérant au niveau des features les valeurs de 3'UTR.
Le souci est que ce "feature" est rarement présent (en faisant une recherche je trouve 47836 séquences). COmment puis -je faire pour récupérer un maximum de données tout en étant cohérentes et valides?
Si quelqu'una une piste, je suis preneur!
J'avais pensé récuperer le dernier résidu du CDS et faire une sous-chaine de cette position à la fin de la séquence , mais le souci est que souvent les CDS sont partiels.
-----