Bonjour,

j'ai un miniprojet à effectuer durant ce semestre et j'ai de la peine à comprendre la question qui m'est posée car elle n'est pas claire. Je sais programmé mais j'ai des lacunes en génétiques.

J'ai recu 4 fichiers

- aln1.fastq
- aln2.fastq
- aln.bam
- aln.bam.bai

Les deux premiers fichiers sont des fichiers "fastq" qui contiennent les informations de séquences et de qualités.

On me demande:

"One task is to write a C++ program for pairwise sequence alignment."

Je ne comprends pas bien la question. Les fichiers fastq contiennent les séquences pour des millions de fragments. Ma question est la suivante:

Que fait-on d'habitude avec ce genre de fichiers? Compare-t-on les fragments avec une séquence référence? Le problème c'est que je n'ai pas de séquence référence. Tout ce que je sais c'est qu'il s'agit de "NGS reads for some human DNA regions".

Ou est-ce que je peux trouver la région de référence via les fichiers bam (grâce à un quelconque outil ou programme)? Ou est-ce que la région de référence est contenue dans la première ligne de mes fichiers fastq (@M01636:3:000000000-A442D:1:1101:15821:1569 1:N:0:1)?

Ou dois-je simplement comparer les séquences entre elles?

Comment interpréter vous la question. Je n'ai pas moyen de poser la question directement. C'est pourquoi je la pose ici.

Je vous remercie pour votre aide.

Salutations.