Tri d'un fichier FASTA
Répondre à la discussion
Affichage des résultats 1 à 8 sur 8

Tri d'un fichier FASTA



  1. #1
    invite7753e15a

    Question Tri d'un fichier FASTA


    ------

    Bonjour à tous, comme l'indique le titre du topic j'aimerai effectuer un petit tri dans un fichier fasta. Dans ce fichier, j'ai les séquences protéiques récupérées à partir d'un pathosystème (donc les séquences de l'hôte et du parasite), or j'aimerai effectuer un BLAST uniquement sur les protéines du pathogène. Le problème, c'est que le logiciel que j'utilise pour créer le fichier fasta ne me permet pas d'exporter uniquement les accession du pathogène...
    Auriez-vous, par hasard, une solution à m'apporter ? Existe-t-il par exemple un logiciel permettant de supprimer toutes les séquences protéiques d'une espèce donnée ou contenant un certain mot dans le numéro d'accession ? J'ai bien essayé un copié/collé dans Excel pour trier les lignes, mais comme l'accession et la séquence ne sont pas sur la même ligne cela ne marche pas...

    En vous remerciant par avance pour votre aide.

    Cordialement,

    R+

    -----

  2. #2
    Flyingbike
    Modérateur*

    Re : Tri d'un fichier FASTA

    a quoi ressemble un fichier type ?
    La vie trouve toujours un chemin

  3. #3
    invite7753e15a

    Re : Tri d'un fichier FASTA

    Bonjour Flyingbike, un fichier ressemble à ça.

    >Traes_1BL_930EA5040.1
    MAPKAEKKPAGKKPAEEEPATEKAEKAPAG KKPKAEKRLPAGKTASKEGGGEKRGRKKG
    KKSVETYKIYIFKVLKQVHPDAGEAAKLAR YNKKPTITSREIQTSVRLVLPGELAKHAVS E
    GTKAVTKFTSS
    >Traes_4DS_CC0357102.1
    AGDKKKKRSKKSVETYKIYIFKVLKQVHPD IGISSKAMGIGESSKLARYNKKPTITSREI
    QTAVRLVLPGE
    >FGSG_11616 probable HTB1 - histone H2B
    MAPKAADKKPASKAPATASKAPEKKDAGKK TAASGDKKKRSKSRKETYSSYIYKVLKQ
    VHPDTG
    >Traes_4DS_CC0357102.1
    AGDKKKKRSKKSVETYKIYIFKVLKQVHPD IGISSKAMGIGESSKLARYNKKPTITSREI
    QTAVRLVLPGE

    Ici j'ai laissé 3 accessions, mais dans mon fichier j'en ai environ 10 000. Donc ça va être très long si je dois tout trier à la main... Ce que j'aimerai c'est retirer tous les >Traes et conserver tous les >FGSG afin qu'il ne reste plus que ça (voir ci-dessous) dans le fichier final que j'analyserai.

    >FGSG_11616 probable HTB1 - histone H2B
    MAPKAADKKPASKAPATASKAPEKKDAGKK TAASGDKKKRSKSRKETYSSYIYKVLKQ
    VHPDTG

    Je te remercie pour ton intérêt et ton aide

  4. #4
    Flyingbike
    Modérateur*

    Re : Tri d'un fichier FASTA

    je ferai comme ça :

    entrer le fichier dans http://darwin.biochem.okstate.edu/fasta2tab/

    il sort un fichier ou le séparateur est tab

    importer dans excel en spécifiant que tab est un séparateur

    on a donc
    Traes_1BL_930EA5040.1 MAPKAEKKPAGKKPAEEEPATEKAEKAPAG KKPKAEKRLPAGKTASKEGGGEKRGRKKGK KSVETYKIYIFKVLKQVHPDAGEAAKLAR YNKKPTITSREIQTSVRLVLPGELAKHAVS EGTKAVTKFTSS Traes_4DS_CC0357102.1 AGDKKKKRSKKSVETYKIYIFKVLKQVHPD IGISSKAMGIGESSKLARYNKKPTITSREI QTAVRLVLPGE FGSG_11616 MAPKAADKKPASKAPATASKAPEKKDAGKK TAASGDKKKRSKSRKETYSSYIYKVLKQVH PDTG Traes_4DS_CC0357102.1 AGDKKKKRSKKSVETYKIYIFKVLKQVHPD IGISSKAMGIGESSKLARYNKKPTITSREI QTAVRLVLPGE

    éventuellement retirer les balises html

    ensuite trier selon la colonne A, et récupérer la portion intéressante.

    j'ai testé avec l'exemple et ça marche
    Dernière modification par Flyingbike ; 07/11/2016 à 16h48.
    La vie trouve toujours un chemin

  5. A voir en vidéo sur Futura
  6. #5
    Flyingbike
    Modérateur*

    Re : Tri d'un fichier FASTA

    ah par contre il faut repasser en fasta ensuite j'imagine....
    La vie trouve toujours un chemin

  7. #6
    Flyingbike
    Modérateur*

    Re : Tri d'un fichier FASTA

    La vie trouve toujours un chemin

  8. #7
    invite7753e15a

    Re : Tri d'un fichier FASTA

    Oh merci beaucoup, cela devrait fonctionner !!
    Merci encore pour ton aide !

  9. #8
    Loupsio

    Re : Tri d'un fichier FASTA

    J'espère que tu as trouvé solution à ton problème depuis,
    Sinon pour ma part je passerai par un petit script python
    Si t'as jamais fait de programmation, on peut en parler,
    Si tu en as déjà fait, il suffirait d'un readlines() qui tr créé une liste avec pour chaque ligne = 1 élement de la liste
    Et puis tu fais une boucle qui passe en revue tous les éléments de la liste et dès qu'elle trouve ">Traes" en début de chaine supprime tout ce qui suit jusqu'au prochain symbole ">"

    L'avantage, c'est rapide, tu peux l'utiliser sur autant de fichiers que tu as par la suite si tu as d'autres fichiers avec ce problème, et ca peux te ressortir un fasta au final
    Dernière modification par Loupsio ; 12/11/2016 à 23h17.

Discussions similaires

  1. Comment sauvegarder un fichier txt avec un 'nom de fichier' en variable input
    Par invite5a202ed7 dans le forum Programmation et langages, Algorithmique
    Réponses: 3
    Dernier message: 23/10/2015, 19h10
  2. Mise à jour d'un fichier adhérents par rapport à un fichier de base
    Par invite5e4c8f6b dans le forum Programmation et langages, Algorithmique
    Réponses: 10
    Dernier message: 13/10/2014, 11h56
  3. Un logiciel qui permet de convertir un fichier en hexadécimal vers un fichier en decimal???
    Par invite3cd28103 dans le forum Logiciel - Software - Open Source
    Réponses: 4
    Dernier message: 08/06/2012, 14h07
  4. convertir un fichier solidworks vers un fichier .c openGL sous visual studio ?
    Par invitec871b1d7 dans le forum Programmation et langages, Algorithmique
    Réponses: 3
    Dernier message: 27/02/2012, 16h21
  5. [Biochimie] conversion fasta/PDB
    Par invitecc7146d2 dans le forum Biologie
    Réponses: 1
    Dernier message: 16/01/2008, 14h20
Dans la rubrique Santé de Futura, découvrez nos comparatifs produits sur le sport et la santé : thermomètre médical, soins personnels...