Génome humain: 22000, 24000, 25000 gènes ?

inviteec2f08ae · 03/12/2011, 11h31

Bonjour à tous,

Depuis la publication du gènome humain en 2001 dans un article dans Nature, ainsi que dans Science, nous sommes censé avoir terminé le recensement des gènes humains.

Pourtant quand je lis des livres récents, je ne trouve pas un ouvrage décrivant le nombre de gènes, pire, en fonction des ouvrages, ça va de 22000 à 30000....

Alors que dans d'autres formes de vie, c'est au gène près (par exemple Caenorhabditis elegans ).

Voilà. Si quelqu'un a un article qui ENFIN indique le nombre exact de gènes pour l'humain, suis preneur.

Cyrille

inviteb3a6feac · 03/12/2011, 13h06

Bonjour

Non vous n'aurez pas le nombre exact de gènes pour l'Homme.
Malgré son séquençage complet, il est difficile d'estimer très précisément l'expression des parties du génôme. Effectivement, on entend plus souvent 25.000 à 30.000.

Attention avec C. elegans, c'est un organisme très simple, dont on connait même à la cellule prêt, le nombre (qui doit etre dans les 981 qqch comme ça.)

Cordialement
Nowell

**Geb** · 03/12/2011, 14h21

Bonjour,

J'ai trouvé un article du fameux International Human Genome Sequencing Consortium, publié dans Nature le 21 octobre 2004 :

Finishing the euchromatic sequence of the human genome

Il indique que le génome humain baptisé "Build 35" aurait 2.851.330.913 nucléotides exactement. Par contre, pour un nombre au gène près, il faut aller sur le site du Human Genome Project :

How Many Genes Are in the Human Genome?

Consortium researchers have confirmed the existence of 19,599 protein-coding genes in the human genome and identified another 2,188 DNA segments that are predicted to be protein-coding genes.

Donc en octobre 2004, il y avait 21.787 gènes codants pour des protéines, dont 19.599 (90%) formellement identifiés.

Cela dit, il me semble que l'épigénétique est venue chambouler cette vision de décompte de "gènes codants pour des protéines" uniquement. Moi non plus je ne pense pas que tu trouveras de chiffre au gène près, et à vrai dire, je suis même étonné de lire que tu en as trouvé un qui ne fasse pas débat pour C. elegans.

Cordialement.

invitec9f0f895 · 03/12/2011, 15h31

Salut

tout dépends ce que l'on entends par genes, car si on engloble ceux codants les divers RNA non codant on n'est pas sorti de l'auberge!
Ca montre bien la difficulté de prédire un gène ayant un role fonctionnel.

YOyo

A voir en vidéo sur Futura · Aujourd'hui

**Geb** · 03/12/2011, 15h47

La biologie est le domaine dans lequel je suis le moins à l'aise. Cela dit, si je devais répondre à la question de départ, je dirais que le chiffre de 22000 gènes (21787 exactement) est le plus correct.

On voit en effet sur le site du Human Genome Project que les autres chiffres précédemment avancés étaient soit des estimations grossières, soit des simulations en aucun cas basées sur un décompte systématique de "gènes codants pour des protéines".

Cela dit, le nombre de ces gènes était auparavant envisagé comme un moyen correct et commode de "quantifier" la complexité relative des organismes vivants. L'épigénétique est venue chambouler tout ça. Ce changement de paradigme a rendu un simple décompte de "gènes codants pour des protéines", complètement inutile, car vide de sens.

Cordialement.

**Geb** · 08/08/2012, 20h50

Bonsoir,

Souvenez-vous, au message #3 de cette discussion, j'avais posté un article du International Human Genome Sequencing Consortium, publié dans Nature le 21 octobre 2004 :

Finishing the euchromatic sequence of the human genome

Il indiquait le nombre exact de 2.851.330.913 nucléotides dans le génome humain analysé (baptisé "Build 35") et estimait le nombre de gènes codants pour des protéines à 21.787.

Je viens de trouver un article intéressant datant de juin 2005 :

How many human genes and transcripts are there?

discute notamment le papier d'octobre 2004 que j'avais mis en lien. Il tend aussi à prouver que le nombre de 21787 est loin d'être exact. Je dois bien avouer que je n'y comprends plus grand chose. Il y a certains passages dans le texte que je souhaiterais que l'on m'explique :

In fact, a final sequence reference set or description of all human genes and their variants is still a work in progress at the National Center for Biotechnology Information (NCBI), the European Bioinformatics Institute (EBI), and the DNA Data Bank of Japan (DDBJ). [...] The completion of the human genome sequence has not led to the creation of a complete human transcript reference set, the transcriptome. The genome sequence provides the data necessary to determine the number of genes, but not the number of transcripts that differ due to post-transcriptional alternative splicing.

Qu'est-ce que le "transcriptome" et en quoi diffère-t-il du "génome" ?

The International Human Genome Sequencing Consortium (IHGSC) has recently published their analysis. While the total number of gene loci (individual genomic locations) is currently believed to be 21,787, there are (only) 2,188 of these that are predicted. The expected total number of transcripts including the splice variants is expected to be 1.54 times that, or 33,552 (3). For purposes of this discussion, genes are defined as those genomic regions or loci that are capable of being transcribed into mRNA. Transcripts, therefore, are the mature mRNA molecules that have undergone alternative splicing. Messenger RNA molecules can be copied by reverse transcriptase to create more stable DNA copies called cDNA. When linked to a functional vector, the cDNA is called a clone. OriGene is dedicated to the task of collecting a cDNA clone for every gene variant in the human transcriptome, linked to a consistent mammalian expression vector for use in a systems biology tool. To date, the estimate of 21,787 gene loci underrepresents the total number of genes, and includes some sequence prediction errors.

Quelle est la différence entre un "locus" (singulier de "loci" ?) de gène et un "locus" de gène "prédit" ? D'où vient le facteur de 1,54 et que traduit le nombre de 33552 ?

Secondly, despite all efforts, current technology is not able to sequence through 252 gaps in the genome representing approximately 37.2 million bp of euchromatic sequence (gene-rich regions). With an average gene size of 10-15kb and intergenic distance of 25-30kb, these gaps could easily produce another 1500 genes and gene variants.

Que sont ces "écarts" (gaps) ? Pourquoi ne peut-on pas séquencer ces parties du génome ? Quelle est la différence entre un gène et des "variantes d'un gène" ?

At NCBI (http://www.ncbi.nlm.nih.gov/) this database is called RefSeq which currently contains 24,911 mRNA references annotated from overlapping cDNA sequences. ENSEMBL (www.ensembl.org), a joint project between EMBL-EBI and the Sanger Institute, has done a parallel analysis and reports that there are 24,194 gene loci producing 35,845 gene transcripts. Both of these data sets are similar in their analysis of the recent genome build, #35. Therefore, the correct answer must still be posted as a range. The number of gene loci is 22-24k and the number of transcripts resulting from the alternative splicing of these genes is 33-35k.

On retrouve là la distinction entre "gène" et "transcription"... Il n'y a même plus le "fameux" facteur 1,54 puisque 35845 = ~1,48 x 24194 (et pas 1,54 fois).

A closer look at the quality of these reference sequences suggests that the numbers may be correct but the quality or authenticity of many transcripts remains suspect. Each of these transcripts has an associated coding sequence (CDS) and a recent combined effort has been launched to include quality assessments for each. The new Consensus CDS (CCDS) project reported in Entrez gene (http://www.ncbi.nlm.nih.gov/CCDS/) has released its first set of quality coding sequences for which there are currently 14,975 members from 13,142 genes. This means that a maximum of only 60% of RefSeq references have met the specified quality criteria, while the others remain suspect. This number of validated coding sequences is also significantly less than the 21,787 (x 1.54 variants per loci) predicted in the IHGSC Nature paper (3). Only 30% of the RefSeq sequences have been qualified as Reviewed or Validated while the remaining are listed as Provisional, Predicted, or Inferred.

Euh, traduction svp ?

Quelles étaient nos quelques certitudes (ce sont les pourcents et les nombres qui m'intéressent) en juin 2005 ?

In the world of genome sequencing, a variant is inferred to mean a single or simple nucleotide polymorphism (SNP). These are natural differences between the genomes of individuals that may or may not fall within a coding exon or within a gene region altogether. Such variations are not usually accorded a separate transcript record, but are recorded in SNP databases.

Qu'est-ce qu'un polymorphisme nucléotidique, autrement dit, quel est la définition donnée dans cet article en particulier (ça parle d'exon, etc...). Quelle importance à l'existence des SNP dans le décompte exact des gènes codant composant le génome humain ?

A complete understanding of the biological significance of these millions of SNP-variants will take decades of research. In the meantime, it is a truth that all molecular biologists must accept and embrace. Considering the prevalence of human SNPs at 0.1% within 33,000 transcripts having average lengths of 2.5kb, the human transcriptome would have more than 82,500 differences to investigate (2.5 per transcript on average). In fact, there are many more than this already reported from the results of quality sequence clustering. In the world of cDNA cloning and sequencing, a variant is more often inferred to represent a splice variant arising from a single gene. Each gene is typically comprised of 8 exons. The inclusion of all exons is regulated by a multicomponent spliceosome that recognizes splice boundaries, removes the exonic DNA and splices them together. Sometimes the spliceosome is directed to leave out 1 or more exons, thereby creating a different transcript. Certain polymorphisms can influence this process causing a prevalence of one form, which might lead to certain disease phenotypes (2). Because the alternative splice forms usually impose significant changes to the coded protein, each spliced transcript is accorded its own accession number within NCBI’s RefSeq.

Que traduit ce nombre de 82500 et le pourcentage de 0,1% ?

[In February 2001, the] IHGSC quoted 24,500 genes and 3040,000 total variant transcripts, while Celera quoted 26,588 genes plus 12,000 predicted genes totaling 38,588 genes. An in-depth comparison of the two annotations by Michael Cooke and John Hogenesch of the cutting edge Genomics Institute of Novartis Foundation revealed that only 16,000 genes were in common bringing the gene estimate to about 42,000. Those in common between the sets were believed to be correct while the others remained suspect.

Si j'ai bien compris, en février 2001, le IHGSC avait annoncé 24500 gènes et 3,04 millions de SNP, mais l'équipe de Craig Venter, qui était censé obtenir les mêmes résultats avait trouvé 38588 gènes et seulement ~16000 gènes étaient identiques dans les 2 cas ? Donc finalement, on a 25000, 39000 ou 42000 gènes codants ?

As work on the human genome continued, October 2004 marked the publication of build 35 annotation which should stand as the working template for some time. The key statistics boast that 99.9 percent of the euchromatic DNA is covered by quality sequence (one error per 100,000; PHRED >50).

Que signifie en terme simple le passage en gras ?

Francis Collins initiated a HapMap program in the same month that looks at all human genetic variation, both inside and outside ancestral populations. In much the same vein, the Venter Institute embarked on a human genome re-sequencing project aimed to expand the Celera coverage by sequencing the genomes from other donors in order to generate more SNPs.

Donc, pour dénombrer les SNP il existe un programme qui s'appelle HapMap. Quels sont les résultats les plus récents de ce programme ?

Merci d'avance pour votre aide.

invite179e6258 · 08/08/2012, 21h47

Il indiquait le nombre exact de 2.851.330.913 nucléotides dans le génome humain analysé

en fait ce nombre est différent d'un individu à l'autre. Il y a énormément de séquences répétées dans notre génome et le nombre de répétitions est variable (cherche par exemple "short tandem repeat"). Et puis dans toutes les séquences il y a des insertions et délétions. Bref la taille du génome humain doit varier de plusieurs milliers de paires de bases (au pif)

**Geb** · 08/08/2012, 21h58

Envoyé par toothpick-charlie

Bref la taille du génome humain doit varier de plusieurs milliers de paires de bases (au pif)

Sauf que j'ai dit : "Il indiquait le nombre exact de 2.851.330.913 nucléotides dans le génome humain analysé".

Le nombre varie d'un humain à l'autre, mais dans un seul génome (celui qui a fait l'objet de l'analyse) il ne varie pas. Ou peut-être que oui ?

Cordialement.

invite179e6258 · 08/08/2012, 22h23

Envoyé par Geb

Bonsoir,
Qu'est-ce que le "transcriptome" et en quoi diffère-t-il du "génome" ?

ben c'est ce qui est transcrit.

Quelle est la différence entre un "locus" (singulier de "loci" ?) de gène et un "locus" de gène "prédit" ? D'où vient le facteur de 1,54 et que traduit le nombre de 33552 ?

locus : ça dépend du contexte, en gros c'est une adresse le long du chromosome (de la molécule d'ADN) mais ce n'est pas une adresse "en dur", on y fait plutôt référence par le contenu ou l'environnement.

Que sont ces "écarts" (gaps) ? Pourquoi ne peut-on pas séquencer ces parties du génome ? Quelle est la différence entre un gène et des "variantes d'un gène" ?

-"gap" ne signifie pas écart mais plutôt "trou", c'est des parties du génome pas encore séquencées.

On retrouve là la distinction entre "gène" et "transcription"... Il n'y a même plus le "fameux" facteur 1,54 puisque 35845 = ~1,48 x 24194 (et pas 1,54 fois).

je ne sais pas d'où vient le facteur 1.54 qui tient compte des épissages alternatifs, mais ça ne doit pas être mieux qu'une estimation, à mon humble avis. Alors, 1.48 ou 1.54 ce n'est pas très différent.

Euh, traduction svp ?

Quelles étaient nos quelques certitudes (ce sont les pourcents et les nombres qui m'intéressent) en juin 2005 ?

sortie de son contexte cette phrase est difficile à comprendre. Je pense que les auteurs s'interrogent sur la qualité du séquençage des transcrits (des ARN).

Qu'est-ce qu'un polymorphisme nucléotidique, autrement dit, quel est la définition donnée dans cet article en particulier (ça parle d'exon, etc...). Quelle importance à l'existence des SNP dans le décompte exact des gènes codant composant le génome humain ?

ce que les auteurs disent en gros, c'est qu'il y a des SNP dans tous les gènes, et que donc si on analyse le transcriptome, on va trouver des transcrits différents alors qu'il s'agit du même gène (au même locus). C'est le cas si on analyse le transcriptome d'un hétérozygote (mais on est toujours hétérozygote en plein de locus) ou bien si on analyse le transcriptome de plusieurs individus.

Que traduit ce nombre de 82500 et le pourcentage de 0,1% ?

le 0.1% c'est le rapport des 3 millions de snips sur les 3 milliards de paires de base. Ils font un calcul du nombre de transcrits différents attendus, compte tenu de la longueur moyenne des transcrits (2.5kb) et du nombre attendu de snips dans les gènes correspondants. C'est curieux, ils ne parlent pas de la distinction SNP synonyme/ non synonyme.

Si j'ai bien compris, en février 2001, le IHGSC avait annoncé 24500 gènes et 3,04 millions de SNP, mais l'équipe de Craig Venter, qui était censé obtenir les mêmes résultats avait trouvé 38588 gènes et seulement ~16000 gènes étaient identiques dans les 2 cas ? Donc finalement, on a 25000, 39000 ou 42000 gènes codants ?

là je passe.

Que signifie en terme simple le passage en gras ?

qu'une bonne partie du génome est couverte par des séquences de bonne qualité (avec peu d'erreurs). En fait il ne faut pas croire que le séquençage du génome humain a produit une suite de 3 milliards de lettres connues avec certitude. Les méthodes d'assemblage produisent des séquences avec des parties "propres" et puis d'autres parties plus ou moins douteuses. Petit à petit, ces zones mal connues sont éliminées et on arrivera sans-doute à une connaissance parfaite du génome mais ce n'est pas encore le cas.

Donc, pour dénombrer les SNP il existe un programme qui s'appelle HapMap. Quels sont les résultats les plus récents de ce programme ?

hapmap est un programme de recherche qui a pour but d'identifier des haplotypes associés à certaines maladies (je crois, mais tu peux regarder sur leur site).

invite853321bf · 09/08/2012, 08h30

Envoyé par Geb

Qu'est-ce que le "transcriptome" et en quoi diffère-t-il du "génome" ?

Le [url=http://fr.wikipedia.org/wiki/Transcriptome]transcriptome[/quote] est l'équivalent du génome pour les ARN messagers, et il diffère car il est plus... révélateur, plus simple à lire.
Pour faire une espèce de comparaison, le génome est un peu le code source d'un programme, qu'on vous livre tel quel, sans indication, à vous de vous y retrouver. Et c'est loin d'être simple

Par contre, si on vous met en forme le code, en séparant chaque commande, c'est plus facile de savoir ce qu'il fait. Il "suffit" de compter les ARNm pour en connaitre leur nombre, sans s'embêter à inventer des facteurs pour tenir compte de l'épissage alternatif ou autre. Pour rappel, au départ du projet de séquençage de notre génome, on considérait qu'on avait plus de 100 000 gènes (avec la même défintion que dans l'article), mais au cours des avancées, ce nombre n'a pas arrêté de réduire, du à l'extraordinaire complexité de notre génome et transcriptome
Avec le transcriptome, vous avez tous les ARNm, donc vous pouvez avoir tous les gènes, les possibilités d'épissage alternatif, etc.
Et ces nombres ne sont que des estimations, basées sur des séquences de l'ADN ayant ce qu'il faut pour ressembler à un gène. Ça ne veut pas dire que c'est forcément un gène, ni que d'autres séquences ne peuvent pas l'être.

Quelle est la différence entre un "locus" (singulier de "loci" ?) de gène et un "locus" de gène "prédit" ? D'où vient le facteur de 1,54 et que traduit le nombre de 33552 ?

C'est expliqué juste après (et oui c'est le singulier) , genes are defined as those genomic regions or loci that are capable of being transcribed into mRNA" donc comme expliqué par Yoyo, cette définition de gène peut déjà paraitre réductrice.
Là de cet extrait, ce nombre doit représenter la part d'ARNm produit par l'épissage alternatif, d'où vient il je ne sais pas, et donc 33552 = 1.54 * 21787

Il n'y a même plus le "fameux" facteur 1,54 puisque 35845 = ~1,48 x 24194 (et pas 1,54 fois).

Faudrait que je me plonge dans la publi pour trouver l'origine de ce 1.54 (mais pas de violence, c'est les vacances

) mais ici les nombres de 35845 et 24194 sont issus d'observations bio informatiques.
La phrase importante étant pour moi "[b]the correct answer must still be posted as a range. The number of gene loci is 22-24k and the number of transcripts resulting from the alternative splicing of these genes is 33-35k.[b]"

Euh, traduction svp ?

Quelles étaient nos quelques certitudes (ce sont les pourcents et les nombres qui m'intéressent) en juin 2005 ?

Suffit de lire la suite "[b][...]there are currently 14,975 members from 13,142 genes. This means that a maximum of only 60% of RefSeq references have met the specified quality criteria, while the others remain suspect.[b]"

Qu'est-ce qu'un polymorphisme nucléotidique, autrement dit, quel est la définition donnée dans cet article en particulier (ça parle d'exon, etc...). Quelle importance à l'existence des SNP dans le décompte exact des gènes codant composant le génome humain ?

Pour compléter ce qu'a expliqué toothpick-charlie, ils parlent d'exon simplement car il peut y avoir des SNP dans les exons. C'est bien pour différencier les individus, mais pour le transcriptome, ça n'a bien sur aucune incidence.

Si j'ai bien compris, en février 2001, le IHGSC avait annoncé 24500 gènes et 3,04 millions de SNP, mais l'équipe de Craig Venter, qui était censé obtenir les mêmes résultats avait trouvé 38588 gènes et seulement ~16000 gènes étaient identiques dans les 2 cas ? Donc finalement, on a 25000, 39000 ou 42000 gènes codants ?

D, la réponse D

. Honnêtement je ne suis pas assez calé dans ce domaine pour choisir un des ces 3 réponses (j'ai déjà du mal à voir comment ils arrivent au nombre de 42000 d'après l'extrait). Et je ne suis pas sur que quelqu'un puisse en être sur du moins au moment de l'article. "[b]Those in common between the sets were believed to be correct while the others remained suspect.[b]"

Génome humain: 22000, 24000, 25000 gènes ?

Génome humain: 22000, 24000, 25000 gènes ?

Re : Génome humain: 22000, 24000, 25000 gènes ?

Re : Génome humain: 22000, 24000, 25000 gènes ?

Re : Génome humain: 22000, 24000, 25000 gènes ?

Re : Génome humain: 22000, 24000, 25000 gènes ?

Re : Génome humain: 22000, 24000, 25000 gènes ?

Re : Génome humain: 22000, 24000, 25000 gènes ?

Re : Génome humain: 22000, 24000, 25000 gènes ?

Re : Génome humain: 22000, 24000, 25000 gènes ?

Re : Génome humain: 22000, 24000, 25000 gènes ?

Discussions similaires

[Génétique] Séquençage du génome humain

génome=ensemble des gènes ?

[Génétique] La différence entre le génome humain et le génome du chimpanzé

le génome humain

sequencage du genome humain