Le séquençage et l'assemblage d'un génome
La Doua Dans l'Oeil :: Biologie :: Génétique :: Questions & Débats :: Génomique
Page 1 sur 1
Le séquençage et l'assemblage d'un génome
Salut à tous. On va commencer une série sur le séquençage des génomes, quelles sont les étapes pour obtenir la séquence complète d’un génome, prête à l’emploi.
Vous avez vu précédemment la méthode moléculaire pour séquencer de l'ADN et les intérêts que pouvait avoir le séquençage d'un génome complet. On va voir maintenant comment ça se passe dans les détails...
La méthode la plus utilisée pour séquencer de l'ADN est donc la méthode dite de Sanger (les didesoxynucléotides, ça vous rappelle quelque chose ?). Le problème est qu'aujourd'hui, cette méthode ne permet de séquencer que jusqu'à 1 kb à la fois, avec une précision qui laisse un peu à désirer. Problème, le génome humain fait 3 Gb. Vous voyez le casse-tête...
C’est là que le Shotgun intervient (fusil à pompe en anglais). Cette méthode dite aléatoire globale consiste à séquencer un génome un peu au hasard.
Au départ le génome est découpé en morceaux de 2 kb d’un côté, de 10 kb (ou plus) de l’autre, soit par des enzymes de restriction, soit par un découpage physique. Les fragments sont insérés dans des vecteurs bactériens qui sont ensuite introduits dans des bactéries (E. coli la plupart du temps) pour êtres amplifiés. C'est là qu'est le coup de génie.
Car comment séquencer un génome dont on ne connaît pas la séquence ? Il faut pour la réaction d'élongation des amorces complémentaires d’une séquence particulière (comme pour la PCR). Mais si la séquence est inconnue, impossible d’avoir des amorces. Insérer les fragments dans des vecteurs connus permet donc d'utiliser des amorces complémentaires des vecteurs et de séquencer les fragments génomiques.
Les fragments de 2 kb sont séquencé intégralement en partant des deux extrémités. Ensuite les fragments sont analysés et sont regroupés par similarité : deux fragments ayant une région commune seront assemblés ensemble pour au fur et à mesure former des contigs. À ce point il y a beaucoup de trous.
Les fragments de 10 kb ne sont séquencés qu’à leurs extrémités. Si ces deux extrémité sont complémentaires de deux contigs différents, alors ces deux contigs sont liés : on parle alors de super-contigs. Cette étape permet de réduire considérablement les trous dans la séquence.
À ce stade, il y a encore pas mal de problèmes à résoudre. Premièrement lors du découpage et de l’insertion des fragments, certains ont pu être perdus (rien ne marche jamais à 100%, surtout en biologie), ce qui veut dire qu’en séquencant seulement l’équivalent d’un seul génome (on parle de couverture 1X) on rate pas mal de choses. La solution consiste à augmenter la couverture : pour le génome humain elle a été de 12X (une autre définition de la couverture est que chaque nucléotide peut être séquencé 12 fois). Augmenter la couverture permet donc de réduire le nombre de régions non séquencées et diminuer les trous dans la séquence. Une autre manière est d’utiliser les marqueurs physiques, les SNP par exemple, dont les positions sur les chromosomes ont été établies et confirmées avec précision. Au final, on peut définir un chromosome comme un long super-contig bien reconstruit.
Pourtant cela ne permet pas de résoudre tous les problèmes. C’est la similarité de séquences qui permet d’associer les fragments en contigs. Cela marche si les séquences similaires sont uniques. Or le génome humain est composé pour moitié d’éléments répétés, des éléments transposables aux microsatellites. D’où la difficulté de reconstruire avec précision des contigs et des super-contigs. Au final, environ 1% du génome est « manquant » : impossible de séquencer ou d’assembler ces régions.
Si vous voulez voir des photos et des animations, il faut aller ici et aussi là.
La suite au prochain numéro...
Vous avez vu précédemment la méthode moléculaire pour séquencer de l'ADN et les intérêts que pouvait avoir le séquençage d'un génome complet. On va voir maintenant comment ça se passe dans les détails...
La méthode la plus utilisée pour séquencer de l'ADN est donc la méthode dite de Sanger (les didesoxynucléotides, ça vous rappelle quelque chose ?). Le problème est qu'aujourd'hui, cette méthode ne permet de séquencer que jusqu'à 1 kb à la fois, avec une précision qui laisse un peu à désirer. Problème, le génome humain fait 3 Gb. Vous voyez le casse-tête...
C’est là que le Shotgun intervient (fusil à pompe en anglais). Cette méthode dite aléatoire globale consiste à séquencer un génome un peu au hasard.
Au départ le génome est découpé en morceaux de 2 kb d’un côté, de 10 kb (ou plus) de l’autre, soit par des enzymes de restriction, soit par un découpage physique. Les fragments sont insérés dans des vecteurs bactériens qui sont ensuite introduits dans des bactéries (E. coli la plupart du temps) pour êtres amplifiés. C'est là qu'est le coup de génie.
Car comment séquencer un génome dont on ne connaît pas la séquence ? Il faut pour la réaction d'élongation des amorces complémentaires d’une séquence particulière (comme pour la PCR). Mais si la séquence est inconnue, impossible d’avoir des amorces. Insérer les fragments dans des vecteurs connus permet donc d'utiliser des amorces complémentaires des vecteurs et de séquencer les fragments génomiques.
Les fragments de 2 kb sont séquencé intégralement en partant des deux extrémités. Ensuite les fragments sont analysés et sont regroupés par similarité : deux fragments ayant une région commune seront assemblés ensemble pour au fur et à mesure former des contigs. À ce point il y a beaucoup de trous.
Les fragments de 10 kb ne sont séquencés qu’à leurs extrémités. Si ces deux extrémité sont complémentaires de deux contigs différents, alors ces deux contigs sont liés : on parle alors de super-contigs. Cette étape permet de réduire considérablement les trous dans la séquence.
À ce stade, il y a encore pas mal de problèmes à résoudre. Premièrement lors du découpage et de l’insertion des fragments, certains ont pu être perdus (rien ne marche jamais à 100%, surtout en biologie), ce qui veut dire qu’en séquencant seulement l’équivalent d’un seul génome (on parle de couverture 1X) on rate pas mal de choses. La solution consiste à augmenter la couverture : pour le génome humain elle a été de 12X (une autre définition de la couverture est que chaque nucléotide peut être séquencé 12 fois). Augmenter la couverture permet donc de réduire le nombre de régions non séquencées et diminuer les trous dans la séquence. Une autre manière est d’utiliser les marqueurs physiques, les SNP par exemple, dont les positions sur les chromosomes ont été établies et confirmées avec précision. Au final, on peut définir un chromosome comme un long super-contig bien reconstruit.
Pourtant cela ne permet pas de résoudre tous les problèmes. C’est la similarité de séquences qui permet d’associer les fragments en contigs. Cela marche si les séquences similaires sont uniques. Or le génome humain est composé pour moitié d’éléments répétés, des éléments transposables aux microsatellites. D’où la difficulté de reconstruire avec précision des contigs et des super-contigs. Au final, environ 1% du génome est « manquant » : impossible de séquencer ou d’assembler ces régions.
Si vous voulez voir des photos et des animations, il faut aller ici et aussi là.
La suite au prochain numéro...
Yves- Bavard
- Nombre de messages : 79
Age : 39
Niveau et domaine de formation : Etudiant en thèse sur l'évolution des génomes de rongeurs
Etablissement : Max-Planck-Institute, Berlin
Date d'inscription : 17/10/2007
La Doua Dans l'Oeil :: Biologie :: Génétique :: Questions & Débats :: Génomique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum