L'annotation d'un génome - le reste du génome
La Doua Dans l'Oeil :: Biologie :: Génétique :: Questions & Débats :: Génomique
Page 1 sur 1
L'annotation d'un génome - le reste du génome
Résumé des épisodes précédents : "Capitaine, on a réussi à faire apparaître des séquences codantes sur le radar, mais il reste énormément de séquences à analyser!"
Les séquences codantes représentent l’écrasante majorité des génomes bactériens mais seulement 1% du génome humain.
Alors quid des 99% restant ? Ces séquences non traduites peuvent êtres fonctionnelles ou pas. On estime les séquences fonctionnelles non traduites à 7% du génome humain. Identifier ces séquences est bien plus dur que pour des séquences codantes. En effet, il n’y a pas de consensus sur une séquence fonctionnelle non traduite, comme il y en a pour les séquences codantes. Là réside, vous l’aurez compris toute la difficulté du travail.
Quelques séquences consensus existent, surtout chez les procaryotes, pour les promoteurs par exemple, même s’ils changent entre espèces. De plus, l’organisation en opérons des génomes procaryotes et la quasi-absence de régions intergéniques rend l’annotation d’un génome bactérien relativement facile.
Chez les eucaryotes, il existe aussi des séquences consensus (boîte TATA), mais d’autres méthodes doivent êtres utilisées. Par exemple, on peut voir si une région a une forte probabilité d’être un promoteur en regardant la présence d’îlots CpG.
Reste qu’il n’y a pas que les promoteurs comme région fonctionnelle non traduite dans un génome. Il y a tout plein d'autres séquences. Mais on ne les connaît pas toutes. Là réside un autre obstacle à l’annotation d’un génome : trouver des séquences fonctionnelles sans savoir ce qu’elles peuvent bien faire.
Comme on ne peut pas les détecter directement, une méthode consiste alors à détecter des traces de la sélection naturelle dans les séquences. L’hypothèse de travail est d’une simplicité Darwinienne : si une région particulière est fonctionnelle, alors elle va être conservée au cours de l’évolution. En comparant des génomes entre eux, on peut détecter ces régions sous contrainte sélective. Mais encore une fois, les résultats ne sont pas absolu. Plusieurs problèmes peuvent se poser.
Premièrement, même si une région est détectée comme conservée, reste à lui assigner une fonction, comme pour les gènes putatifs : seules les expériences paillasse pourront faire une démonstration formelle d’une fonction.
Deuxièmement, une région ou des caractéristiques peuvent très bien se retrouver chez plusieures espèces sans être fonctionnelles. On peut citer comme exemple les variations du taux de G et C le long d’un génome chez les mammifères, que l’on croyait être sous pression de sélection mais qui en fait sont causés par des événements neutres.
Reste un autre type de séquence à détecter dans un génome comme le génome humain. Ce sont les éléments répétés (comme les éléments transposables). Là, c’est un peu plus facile, puisqu’il suffit d’opérer par similarité : un type d’élément transposable aura des caractéristiques bien établies, il suffit juste de les chercher dans un génome.
Que retenir de tout ça ? Qu’annoter un génome est un travail monstre mais essentiel. La complexité de ce travail va croissant avec la complexité du génome. Ainsi il sera aisé d’annoter un génome bactérien que le génome humain. Le premier génome eucaryote séquencé, celui de la levure, n’est pas encore complètement annoté, alors il y a encore du boulot pour le génome humain et tous les autres génomes.
Les séquences codantes représentent l’écrasante majorité des génomes bactériens mais seulement 1% du génome humain.
Alors quid des 99% restant ? Ces séquences non traduites peuvent êtres fonctionnelles ou pas. On estime les séquences fonctionnelles non traduites à 7% du génome humain. Identifier ces séquences est bien plus dur que pour des séquences codantes. En effet, il n’y a pas de consensus sur une séquence fonctionnelle non traduite, comme il y en a pour les séquences codantes. Là réside, vous l’aurez compris toute la difficulté du travail.
Quelques séquences consensus existent, surtout chez les procaryotes, pour les promoteurs par exemple, même s’ils changent entre espèces. De plus, l’organisation en opérons des génomes procaryotes et la quasi-absence de régions intergéniques rend l’annotation d’un génome bactérien relativement facile.
Chez les eucaryotes, il existe aussi des séquences consensus (boîte TATA), mais d’autres méthodes doivent êtres utilisées. Par exemple, on peut voir si une région a une forte probabilité d’être un promoteur en regardant la présence d’îlots CpG.
Reste qu’il n’y a pas que les promoteurs comme région fonctionnelle non traduite dans un génome. Il y a tout plein d'autres séquences. Mais on ne les connaît pas toutes. Là réside un autre obstacle à l’annotation d’un génome : trouver des séquences fonctionnelles sans savoir ce qu’elles peuvent bien faire.
Comme on ne peut pas les détecter directement, une méthode consiste alors à détecter des traces de la sélection naturelle dans les séquences. L’hypothèse de travail est d’une simplicité Darwinienne : si une région particulière est fonctionnelle, alors elle va être conservée au cours de l’évolution. En comparant des génomes entre eux, on peut détecter ces régions sous contrainte sélective. Mais encore une fois, les résultats ne sont pas absolu. Plusieurs problèmes peuvent se poser.
Premièrement, même si une région est détectée comme conservée, reste à lui assigner une fonction, comme pour les gènes putatifs : seules les expériences paillasse pourront faire une démonstration formelle d’une fonction.
Deuxièmement, une région ou des caractéristiques peuvent très bien se retrouver chez plusieures espèces sans être fonctionnelles. On peut citer comme exemple les variations du taux de G et C le long d’un génome chez les mammifères, que l’on croyait être sous pression de sélection mais qui en fait sont causés par des événements neutres.
Reste un autre type de séquence à détecter dans un génome comme le génome humain. Ce sont les éléments répétés (comme les éléments transposables). Là, c’est un peu plus facile, puisqu’il suffit d’opérer par similarité : un type d’élément transposable aura des caractéristiques bien établies, il suffit juste de les chercher dans un génome.
Que retenir de tout ça ? Qu’annoter un génome est un travail monstre mais essentiel. La complexité de ce travail va croissant avec la complexité du génome. Ainsi il sera aisé d’annoter un génome bactérien que le génome humain. Le premier génome eucaryote séquencé, celui de la levure, n’est pas encore complètement annoté, alors il y a encore du boulot pour le génome humain et tous les autres génomes.
Yves- Bavard
- Nombre de messages : 79
Age : 39
Niveau et domaine de formation : Etudiant en thèse sur l'évolution des génomes de rongeurs
Etablissement : Max-Planck-Institute, Berlin
Date d'inscription : 17/10/2007
La Doua Dans l'Oeil :: Biologie :: Génétique :: Questions & Débats :: Génomique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum