Bonjour à tous!
Après avoir essayé toute la journée, je suis toujours incapable de faire une seule chose avec VBA (la programmation n'a jamais vraiment été mon truc).
Alors, voilà, j'ai un unique "gros" fichier texte (47Mo, cela représente pas mal de ligne!), que je dois rapidement analyser. J'ai déjà réussi à mettre au pont sous Excel les fonctions d'analyse, mais pour pouvoir les lancer, il faut "légèrement" remanier la disposition des cellules. J'entends par là des "Concatenate" et des déplacements, donc théoriquement rien de difficile (juste impossible pour moi). J'aurais donc besoin de votre précieuse aide
Les données que je cherche à analyser représente un total de 800000 lignes (un peu près). Et ce sont des séquences protéiques, pour ceux que cela intéresse. Il y en a normalement un peu moins de 80000, et mon objectif est une ligne=une protéine.
J’enchaîne ensuite (et cela, je sais faire ), sur un comptage de certains acides aminés dans chaque protéine.
En exemple :
Et j'aimerai pouvoir obtenir ceci :>tr|I3L4K7|I3L4K7_HUMAN Nuclear pore complex protein Nup88 (Fragment) OS=Homo sapiens GN=NUP88 PE=4 SV=1
XIRSILQRSVANPAFLKASEKDIAPPPEEC LQLLSRATQVFREQYILKQDLAKEEIQRRV
KLLCDQKKKQLEDLSYCREERKSLREMAER LADKYEEAKEKQEDIMNSSL
>tr|I3L4K8|I3L4K8_HUMAN Carboxylesterase 5A OS=Homo sapiens GN=CES5A PE=4 SV=1
MSGNWVHPGQILIWAIWVLAAPTKGPSAEG PQRNTRLGWIQGKQVTVLGSPVPVNVFLGV
PFAAPPLGSLRFTNPQPASPWDNLREATSY PNLCLQNSEWLLLDQHMLKVHYPKFGVSED
CLYLNIYAPAHADTGSKLPVLVWFPGGAFK TGSASIFDGSALAAYEDVLVVVVQYRLGIF
GFFTTWDQHAPGNWAFKDQVAALSWVQKNI EFFGGDPSSVTIFGESAGAISVSSLILSPM
AKGLFHKAIMESGVAIIPYLEAHDYEKSED LQVVAHFCGNNASDSEALLRCLRTKPSKEL
LTLSQKTKSFTRVVDGAFFPNEPLDLLSQK AFKAIPSIIGVNNHECGFLLPMKEAPEILS
GSNKSLALHLIQNILHIPPQYLHLVANEYF HDKHSLTEIRDSLLDLLGDVFFVVPALITA
RYHREGATEEEKLLSRKMMKYWATFARTGN PNGNDLSLWPAYNLTEQYLQLDLNMSLGQR
LKEPRVEFWTSTIPLILSASDMLHSPLSSL TFLSLLQPFFFFCAP
Les "|" représentent les tabulations (ou un changement de cellule dans Excel)>tr|I3L4K7|I3L4K7_HUMAN Nuclear pore complex protein Nup88 (Fragment) OS=Homo sapiens GN=NUP88 PE=4 SV=1 |XIRSILQRS/.../DIMNSSL
>tr|I3L4K8|I3L4K8_HUMAN Carboxylesterase 5A OS=Homo sapiens GN=CES5A PE=4 SV=1 MSGNWVHPGQ/.../SLTFLSLLQPFFFFCAP
J'avais pensé à une stratégie en boucle, vu le grand nombre de protéines, où on recherche en premier lieu les ">", puis on concatenate jusqu'au prochain ">", sans l'inclure, on déplace la cellule avec la séquence au bout après le nom de la protéine (en Dx), puis on supprime la ligne vide qui vient de se créer, avant de recommencer. Impossible pour moi de faire cela, trop compliqué
En fait, je parle de VBA et Excel, mais il est peut-être également possible (c'est même sur) de traiter directement le fichier .txt.... Mais je pense cela plus simple avec VBA.
Est ce que quelqu'un pourrait m'aider?
Je vous en remercie d'avance
-----