Bonjour à tous !
J'ai un problème tout simple à résoudre, malheuresement je n'ai pas les compétences en bio-info pour le résoudre moi-même. Voilà, j'ai un fichier fasta contenant plus 100 000 séquences et j'aimerais le découper en plusieurs fichier fasta de 10 000 séquences. Est-il possible de faire cela avec un script ? Si oui, comment ?
Je suppose qu'il faut que je me serve des balises > situées au début de chacune de mes accessions... Le fichier se présente comme ça :
>FGSG_11626 probable HTB1 - histone H2B
MAPKAADKKPASKAPATASKAPEKKDAGKK TAASGDKKKRSKSRKETYSSYIYKVLKQVH
PDTGISNRAMSILNSFVNDIFERVASEASK LAAYNKKSTISSREIQTSVRLILPGELAKH
AVSEGTKAVTKYSSSTK
>FGSG_04289 probable histone H4
MTGRGKGGKGLGKGGAKRHRKILRDNIQGI TKPAIRRLARRGGVKRISAMIYEETRGVLK
TFLEGVIRDAVTYTEHAKRKTVTSLDVVYA LKRQGRTLYGFGG
>FGSG_05491 probable histone H4
MTGRGKGGKGLGKGGAKRHRKILRDNIQGI TKPAIRRLARRGGVKRISAMIYEETRGVLK
TFLEGVIRDAVTYTEHAKRKTVTSLDVVYA LKRQGRTLYGFGG
>FGSG_09471 probable glucose-regulated protein 78 of hsp70 family
MARSRSSMALGLGLLCWIALLFSPLAFVQT VQADDVDSYGTVIGIDLGTTYSCVGVMQKG
KVEILVNDQGNRITPSYVAFTEDERLVGDA AKNQAAANPTNTIYDIKRLIGRKYSEKTLQ
GDIKHFPFKVVNRDDRPVVQVEVDGAKKQF TPEEISAMVLGKMKEVAEGYLGKKVTHAVV
TVPAYFNDNQRQATKDAGIIAGLNVLRIVN EPTAAAIAYGLDKNDGERQIIVYDLGGGTF
DVSLLSIDDGIFEVLATAGDTHLGGEDFDQ RVINYFAKQYNQKNNVDITKDLKAMGKLKR
EAEKAKRTLSSQKSTRIEIEAFHAGKDFSE TLTQAKFEELNIDLFKKTMKPVEQVLKDAK
LKKSEIDDIVLVGGSTRIPKVQQLIEDFFN KKASKGINPDEAVAFGAAVQAGVLSGEEGT
SGVVLMDVNPLTLGIETTGGVMTKLIPRNT AIPTRKSQIFSTAADNQPVVLIQVFEGERS
LTKDNNILGKFELTGIPPAPRGVPQIEVSF ELDANGILKVSAHDKGTGKQESITITNDKG
RLTPEEIERMVAEAEKYAEEDKATRERIEA RNGLENYAFSLKNQVNDEEGLGGKIDEEDK
ETLLDAVKETNEWLDEHGADATAEDFEEQK EKLSNVAYPITSKMYQGAGGAGGEQDDNIH
DEL
Si vous avez une solution, je suis preneur
Merci par avance,
R
-----