L'annotation d'un génome - les gènes
La Doua Dans l'Oeil :: Biologie :: Génétique :: Questions & Débats :: Génomique
Page 1 sur 1
L'annotation d'un génome - les gènes
Chers amis, bonjour. Comme vous l’avez vu (lu) récemment, séquencer un génome, ce n’est pas facile. Ce n’est pourtant pas grand-chose à coté du travail qu’il faut pour annoter un génome. Par ce que c’est bien joli d’avoir la séquence complète, encore faut-il savoir comment il marche.
Donc, soit un génome complet (ou presque). Il faut pouvoir identifier et placer dans la séquence les régions caractéristiques du génome. On utilise pour cela différentes méthodes selon le type de région que l’on étudie. Je vais séparer les gènes des autres régions.
Pour les gènes déjà connus et étudiés, c’est noisettes (pardon, peanuts). Vu que la séquence codante de ces gènes est déjà connue, il suffit de faire une recherche de similarité dans le génome pour replacer le gène, les exons et les introns.
Mais tous les gènes ne sont pas connus et étudiés. Il faut donc savoir trouver des gènes dans un génome à partir de (presque) rien.
On peut utiliser une approche moléculaire qui consiste simplement à isoler et à séquencer des ARNm dans un ou plusieurs tissus. Le premier problème est que pour obtenir un panel suffisant et satisfaisant de gènes, il faut effectuer un gros travail sur de nombreux tissus à de nombreux moments, ce qui, à la longue, risque de coûter un peu cher. l’autre problème est qu’à un gène correspond souvent une foule d’ARNm (merci, l’épissage alternatif), ce qui complique les recherches.
L’autre approche est statistique et bioinformatique. Elle consiste à lire la séquence et d’y rechercher les signatures d’une séquence codante : codons start et stop, distance entre ces codons, signaux d’épissage, etc. Une séquence est analysée dans les 6 phases possibles (3 phases de lecture dans chaque sens). Le résultat final est une probabilité que la séquence étudiée soit une séquence codante. Ce n’est en aucun cas un résultat absolu.
Une fois le gène trouvé, il faut lui assigner une fonction. Pour cela, on peut utiliser classiquement BLAST pour rechercher des homologues chez d’autres espèces (deux gènes très similaires auront une forte probabilité d’avoir la même fonction). Une recherche de domaines permet d’affiner cette recherche. Toutes ces recherches sont également statistiques : les fonctions ainsi définies sont putatives et ne peuvent pas être confirmées sans expériences de paillasse.
Certains gènes peuvent ne correspondre à rien dans les bases de données. On parle alors d’ORFans, ou gènes orphelins, qui peuvent représenter jusqu’à 10% des gènes chez une bactérie.
Voila pour les gènes. Le reste du génome au prochain épisode.
Donc, soit un génome complet (ou presque). Il faut pouvoir identifier et placer dans la séquence les régions caractéristiques du génome. On utilise pour cela différentes méthodes selon le type de région que l’on étudie. Je vais séparer les gènes des autres régions.
Pour les gènes déjà connus et étudiés, c’est noisettes (pardon, peanuts). Vu que la séquence codante de ces gènes est déjà connue, il suffit de faire une recherche de similarité dans le génome pour replacer le gène, les exons et les introns.
Mais tous les gènes ne sont pas connus et étudiés. Il faut donc savoir trouver des gènes dans un génome à partir de (presque) rien.
On peut utiliser une approche moléculaire qui consiste simplement à isoler et à séquencer des ARNm dans un ou plusieurs tissus. Le premier problème est que pour obtenir un panel suffisant et satisfaisant de gènes, il faut effectuer un gros travail sur de nombreux tissus à de nombreux moments, ce qui, à la longue, risque de coûter un peu cher. l’autre problème est qu’à un gène correspond souvent une foule d’ARNm (merci, l’épissage alternatif), ce qui complique les recherches.
L’autre approche est statistique et bioinformatique. Elle consiste à lire la séquence et d’y rechercher les signatures d’une séquence codante : codons start et stop, distance entre ces codons, signaux d’épissage, etc. Une séquence est analysée dans les 6 phases possibles (3 phases de lecture dans chaque sens). Le résultat final est une probabilité que la séquence étudiée soit une séquence codante. Ce n’est en aucun cas un résultat absolu.
Une fois le gène trouvé, il faut lui assigner une fonction. Pour cela, on peut utiliser classiquement BLAST pour rechercher des homologues chez d’autres espèces (deux gènes très similaires auront une forte probabilité d’avoir la même fonction). Une recherche de domaines permet d’affiner cette recherche. Toutes ces recherches sont également statistiques : les fonctions ainsi définies sont putatives et ne peuvent pas être confirmées sans expériences de paillasse.
Certains gènes peuvent ne correspondre à rien dans les bases de données. On parle alors d’ORFans, ou gènes orphelins, qui peuvent représenter jusqu’à 10% des gènes chez une bactérie.
Voila pour les gènes. Le reste du génome au prochain épisode.
Yves- Bavard
- Nombre de messages : 79
Age : 39
Niveau et domaine de formation : Etudiant en thèse sur l'évolution des génomes de rongeurs
Etablissement : Max-Planck-Institute, Berlin
Date d'inscription : 17/10/2007
La Doua Dans l'Oeil :: Biologie :: Génétique :: Questions & Débats :: Génomique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum