Découpe d'un fichier fasta

invite7753e15a · 03/03/2017, 12h10

Bonjour à tous !
J'ai un problème tout simple à résoudre, malheuresement je n'ai pas les compétences en bio-info pour le résoudre moi-même. Voilà, j'ai un fichier fasta contenant plus 100 000 séquences et j'aimerais le découper en plusieurs fichier fasta de 10 000 séquences. Est-il possible de faire cela avec un script ? Si oui, comment ?
Je suppose qu'il faut que je me serve des balises > situées au début de chacune de mes accessions... Le fichier se présente comme ça :

>FGSG_11626 probable HTB1 - histone H2B
MAPKAADKKPASKAPATASKAPEKKDAGKK TAASGDKKKRSKSRKETYSSYIYKVLKQVH
PDTGISNRAMSILNSFVNDIFERVASEASK LAAYNKKSTISSREIQTSVRLILPGELAKH
AVSEGTKAVTKYSSSTK
>FGSG_04289 probable histone H4
MTGRGKGGKGLGKGGAKRHRKILRDNIQGI TKPAIRRLARRGGVKRISAMIYEETRGVLK
TFLEGVIRDAVTYTEHAKRKTVTSLDVVYA LKRQGRTLYGFGG
>FGSG_05491 probable histone H4
MTGRGKGGKGLGKGGAKRHRKILRDNIQGI TKPAIRRLARRGGVKRISAMIYEETRGVLK
TFLEGVIRDAVTYTEHAKRKTVTSLDVVYA LKRQGRTLYGFGG
>FGSG_09471 probable glucose-regulated protein 78 of hsp70 family
MARSRSSMALGLGLLCWIALLFSPLAFVQT VQADDVDSYGTVIGIDLGTTYSCVGVMQKG
KVEILVNDQGNRITPSYVAFTEDERLVGDA AKNQAAANPTNTIYDIKRLIGRKYSEKTLQ
GDIKHFPFKVVNRDDRPVVQVEVDGAKKQF TPEEISAMVLGKMKEVAEGYLGKKVTHAVV
TVPAYFNDNQRQATKDAGIIAGLNVLRIVN EPTAAAIAYGLDKNDGERQIIVYDLGGGTF
DVSLLSIDDGIFEVLATAGDTHLGGEDFDQ RVINYFAKQYNQKNNVDITKDLKAMGKLKR
EAEKAKRTLSSQKSTRIEIEAFHAGKDFSE TLTQAKFEELNIDLFKKTMKPVEQVLKDAK
LKKSEIDDIVLVGGSTRIPKVQQLIEDFFN KKASKGINPDEAVAFGAAVQAGVLSGEEGT
SGVVLMDVNPLTLGIETTGGVMTKLIPRNT AIPTRKSQIFSTAADNQPVVLIQVFEGERS
LTKDNNILGKFELTGIPPAPRGVPQIEVSF ELDANGILKVSAHDKGTGKQESITITNDKG
RLTPEEIERMVAEAEKYAEEDKATRERIEA RNGLENYAFSLKNQVNDEEGLGGKIDEEDK
ETLLDAVKETNEWLDEHGADATAEDFEEQK EKLSNVAYPITSKMYQGAGGAGGEQDDNIH
DEL

Si vous avez une solution, je suis preneur

Merci par avance,

R

inviteeecca5b6 · 03/03/2017, 14h29

Hello,

Si je comprends bien, tu appelles "séquences" ce qui se situe entre 2 ">" ?

invite7753e15a · 04/03/2017, 12h06

Salut Evil. Saien, oui c'est bien cela ! Une séquence correspond à une accession + la suite d'acides aminés. En voici une :
>FGSG_11626 probable HTB1 - histone H2B
MAPKAADKKPASKAPATASKAPEKKDAGKK TAASGDKKKRSKSRKETYSSYIYKVLKQVH
PDTGISNRAMSILNSFVNDIFERVASEASK LAAYNKKSTISSREIQTSVRLILPGELAKH
AVSEGTKAVTKYSSSTK

Etant donné qu'elles ne font pas toutes la même taille, je ne sais pas trop comment découper mon fichier fasta en plusieurs fichiers de 10 000 séquences chacun...

En tout cas, merci pour ton intérêt

**pm42** · 04/03/2017, 12h37

En Unix, Linux, OSX, Windows avec les bons outils, la commande split avec l'argument -p permet de découper un fichier en donnant un critère de séparation.

J'ai essayé sur ton exemple avec split -p '^>' ce qui veut dire "ligne qui commence par >" et ça m'a donné 4 fichiers :

Fichier 1 :

>FGSG_11626 probable HTB1 - histone H2B
MAPKAADKKPASKAPATASKAPEKKDAGKK TAASGDKKKRSKSRKETYSSYIYKVLKQVH
PDTGISNRAMSILNSFVNDIFERVASEASK LAAYNKKSTISSREIQTSVRLILPGELAKH
AVSEGTKAVTKYSSSTK

Fichier 2 :

>FGSG_04289 probable histone H4
MTGRGKGGKGLGKGGAKRHRKILRDNIQGI TKPAIRRLARRGGVKRISAMIYEETRGVLK
TFLEGVIRDAVTYTEHAKRKTVTSLDVVYA LKRQGRTLYGFGG

Fichier 3 :

>FGSG_05491 probable histone H4
MTGRGKGGKGLGKGGAKRHRKILRDNIQGI TKPAIRRLARRGGVKRISAMIYEETRGVLK
TFLEGVIRDAVTYTEHAKRKTVTSLDVVYA LKRQGRTLYGFGG

Fichier 4 :

>FGSG_09471 probable glucose-regulated protein 78 of hsp70 family
MARSRSSMALGLGLLCWIALLFSPLAFVQT VQADDVDSYGTVIGIDLGTTYSCVGVMQKG
KVEILVNDQGNRITPSYVAFTEDERLVGDA AKNQAAANPTNTIYDIKRLIGRKYSEKTLQ
GDIKHFPFKVVNRDDRPVVQVEVDGAKKQF TPEEISAMVLGKMKEVAEGYLGKKVTHAVV
TVPAYFNDNQRQATKDAGIIAGLNVLRIVN EPTAAAIAYGLDKNDGERQIIVYDLGGGTF
DVSLLSIDDGIFEVLATAGDTHLGGEDFDQ RVINYFAKQYNQKNNVDITKDLKAMGKLKR
EAEKAKRTLSSQKSTRIEIEAFHAGKDFSE TLTQAKFEELNIDLFKKTMKPVEQVLKDAK
LKKSEIDDIVLVGGSTRIPKVQQLIEDFFN KKASKGINPDEAVAFGAAVQAGVLSGEEGT
SGVVLMDVNPLTLGIETTGGVMTKLIPRNT AIPTRKSQIFSTAADNQPVVLIQVFEGERS
LTKDNNILGKFELTGIPPAPRGVPQIEVSF ELDANGILKVSAHDKGTGKQESITITNDKG
RLTPEEIERMVAEAEKYAEEDKATRERIEA RNGLENYAFSLKNQVNDEEGLGGKIDEEDK
ETLLDAVKETNEWLDEHGADATAEDFEEQK EKLSNVAYPITSKMYQGAGGAGGEQDDNIH
DEL

A voir en vidéo sur Futura · Aujourd'hui

invite2800a7c8 · 04/03/2017, 12h45

Salut,

j'avais cru comprendre qu'il voulait 10000 Séquences par fichier, je pense qu'il faut encore rajouter un compteur

Cordialement

Ludwig

**pm42** · 04/03/2017, 13h19

Envoyé par Ludwig1

j'avais cru comprendre qu'il voulait 10000 Séquences par fichier, je pense qu'il faut encore rajouter un compteur

En effet. Dans ce cas, split ne fera pas directement et il faut soit un autre outil soit remerger les fichiers derrière.

invite2800a7c8 · 04/03/2017, 13h37

Re,

En principe une routine avec deux boucles imbriquées devrait faire l'affaire pour le langage on à l' embarras du choix.

Cordialement

Ludwig

**pm42** · 04/03/2017, 13h58

Envoyé par Ludwig1

En principe une routine avec deux boucles imbriquées devrait faire l'affaire pour le langage on à l' embarras du choix.

Oui mais vu qu'il dit avoir des compétences limitées en info, je cherchais une solution sans programmation.

invite2800a7c8 · 04/03/2017, 14h01

Envoyé par pm42

Oui mais vu qu'il dit avoir des compétences limitées en info, je cherchais une solution sans programmation.

re,

Tout à fait bien que ça me semble un peut plus délicat à résoudre sans la moindre ligne de code.

Cordialement

Ludwig

invite7753e15a · 06/03/2017, 13h25

Bonjour à tous les deux, désolé je n'avais pas accès à mon ordinateur ce week-end... Je vous remercie pour votre aide. Je vais essayer le "split" et voir s'il y a pas moyen de fusionner les fichiers fasta qui en ressortira. Il doit bien y avoir un logiciel qui permette de faire ça ^^

Merci encore

invite2800a7c8 · 06/03/2017, 14h44

Envoyé par Rammstein43

Bonjour à tous les deux, désolé je n'avais pas accès à mon ordinateur ce week-end... Je vous remercie pour votre aide. Je vais essayer le "split" et voir s'il y a pas moyen de fusionner les fichiers fasta qui en ressortira. Il doit bien y avoir un logiciel qui permette de faire ça ^^

Merci encore

Salut,

De rien, l'idéal serait que tu te mettes à apprendre un peu PHP ou PYTHON par exemple ( ou autre chose)
ça aide à résoudre ce genre
de PB

Cordialement

Ludwig

invite7753e15a · 06/03/2017, 14h56

Je me suis acheté un bouquin pour Perl ce week-end, mais je vais avoir besoin d'un peu de temps ^^
Merci encore

**polo974** · 07/03/2017, 05h31

supposons que le fichier source s'appelle gag:

Code:

sed '1 s/^/\n/; 2,$ s/>/~\n>/' gag |split -t '~' -l 10000 -d --filter="tail -n+2 | grep -v '^~$' > \$FILE"

chaque fichier produit (x00 à x09 normalement) contient 10000 séquences.

bref, ça tient en une (longue) ligne...

**pm42** · 07/03/2017, 06h07

Cela dépend de ce qu'il utilise. --filter est une option de gnu-split mais qui ne marche pas sur d'autres implémentations.

S'il veut le faire en perl, ça donne ça :

perl -e '$count=10000; $n=0; $l=0; open(F, "gaa"); open(G,">gaa_$n"); while($line=<F>) { if($line =~ "^>") { $l++; if($l==$count+1) { $l=1; $n++; close(G); open(G,">gaa_$n") } } print G $line }'

Je recommenderais plutôt d'écrire un script.pl et de formatter :

Code:

$n=0;
$l=0;
$count=10000;
open(F, "gaa");
open(G,">gaa_$n");
while($line=<F>) {
    if($line =~ /^>/) {
	$l++;
	if($l==$count+1) {
	    $l=1; $n++; close(G); open(G,">gaa_$n")
	}
    }
    print G $line
}

invite2800a7c8 · 07/03/2017, 08h36

Envoyé par pm42

Cela dépend de ce qu'il utilise. --filter est une option de gnu-split mais qui ne marche pas sur d'autres implémentations.

S'il veut le faire en perl, ça donne ça :

perl -e '$count=10000; $n=0; $l=0; open(F, "gaa"); open(G,">gaa_$n"); while($line=<F>) { if($line =~ "^>") { $l++; if($l==$count+1) { $l=1; $n++; close(G); open(G,">gaa_$n") } } print G $line }'

Je recommenderais plutôt d'écrire un script.pl et de formatter :

Code:

$n=0;
$l=0;
$count=10000;
open(F, "gaa");
open(G,">gaa_$n");
while($line=<F>) {
    if($line =~ /^>/) {
	$l++;
	if($l==$count+1) {
	    $l=1; $n++; close(G); open(G,">gaa_$n")
	}
    }
    print G $line
}

Salut,
J'opterais aussi pour ta solution, c'est lisible et ont sait ce que l'on fait.
J'aurai juste une autre syntaxe, mais c'est secondaire.

Cordialement

Ludwig

**pm42** · 07/03/2017, 08h52

Envoyé par Ludwig1

J'aurai juste une autre syntaxe, mais c'est secondaire.

En perl encore plus que dans d'autres langages, on peut écrire les choses de plein de façons différentes.
J'ai choisir cette syntaxe parce que c'est la plus "généraliste", la plus proche des langages courants (Pascal, C, Java...)

inviteeecca5b6 · 07/03/2017, 09h42

Envoyé par pm42

En perl encore plus que dans d'autres langages, on peut écrire les choses de plein de façons différentes

Ca c'est bien vrai, c'en est limite voodoo parfois

invite2800a7c8 · 07/03/2017, 10h34

Envoyé par pm42

En perl encore plus que dans d'autres langages, on peut écrire les choses de plein de façons différentes.
J'ai choisir cette syntaxe parce que c'est la plus "généraliste", la plus proche des langages courants (Pascal, C, Java...)

Re,

Tout à fait, PERL me semble un bon choix d'ailleurs l'initiateur du Fil à choisi de travailler avec PERL. Il se trouve que la machine que j'utilise sait aussi avaler du PERL.

Cordialement

Ludwig

invite7753e15a · 07/03/2017, 13h54

Oh super, merci beaucoup

Je vais essayer cela, cela devrait marcher !! Merci beaucoup à vous

Découpe d'un fichier fasta

Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Re : Découpe d'un fichier fasta

Discussions similaires

Tri d'un fichier FASTA

Un logiciel qui permet de convertir un fichier en hexadécimal vers un fichier en decimal???

convertir un fichier solidworks vers un fichier .c openGL sous visual studio ?

Écrire un fichier avec un .h, en ouvrant le fichier dans main

[Biochimie] conversion fasta/PDB