top of page

INTRODUCTION

Dans les années 1950, les travaux de Rosalind Franklin, Maurice Wilkins, James Watson et Francis Crick ont permis d’établir les liens entre la structure et la fonction de l’ADN (Maddox, 2003). De nouveaux pans de la recherche, de la biologie et de la médecine se sont alors ouverts. Il aura fallu toutefois attendre 25 ans avant de pouvoir lire puis déchiffrer le code génétique grâce aux travaux de Frederick Sanger et le développement d’une première méthode de séquençage, en 1977 (Sanger et al, 1977). Cette méthode consistait en l'ajout, en terminaison de chaîne, d'un marqueur radioactif ou fluorescent avant d’effectuer le séquençage d'un brin d'ADN, complémentaire au brin matrice interrogé. Les fragments étaient ensuite séparés selon leur taille et analysés par électrophorèse sur gel afin de déterminer la séquence. Connue sous le nom de séquençage de Sanger, cette méthode s'est améliorée avec l'introduction de l'électrophorèse capillaire qui a été largement acceptée en tant que méthode de "séquençage de première génération", plus particulièrement pour le séquençage d’échantillons de petites tailles, mais qui pouvait s’adapter à des génomes de taille variée (bactérie, phages, virus, plantes, animaux, homme) (Heather et Chain, 2016). La limite première de cette technologie résidait dans son débit restreint, une seule réaction de séquence ne pouvant être analysée à un temps donné. Ce procédé gourmand en ressources a néanmoins contribué au premier projet de description du génome humain (Human Genome Project), projet international s’étalant sur 15 ans, avec un budget proche des 3 milliards de dollars US (Hood et Rowen, 2013).
 
Les limites techniques étant atteintes, il a fallu développer de nouvelles technologies afin d’accélérer les procédés, et d’en multiplier les usages et les débits. A cet effet, au milieu des années 2000 apparaissaient les méthodes de séquençage de nouvelle génération (Next Generation Sequencing, ou NGS), aidées par le développement des nanotechnologies, et des lectures en parallèle des séquences d’ADN (van Dijk et al, 2014). Les méthodes NGS de seconde génération reposent sur le même principe que le séquençage Sanger : elles utilisent toutes deux des polymérases pour la synthèse, des nucléotides modifiés et une détection par fluorescence, et elles se basent sur des séquences courtes à séquencer. Toutefois, pour les plates-formes NGS telles que les systèmes Illumina, ou Ion Torrent, la matrice d'ADN doit être amplifiée de manière clonale avant le séquençage (Slatko et al, 2018). L'un des principaux avantages des méthodes NGS consiste en l'augmentation du débit de séquençage, avec des coûts contrôlés. À titre d'exemple, le séquençage standard de Sanger produisait environ 6 Mb de séquence d'ADN par jour pour un coût de 500 $/1 Mb, tandis que les séquenceurs NGS, tel qu’Illumina, produisent environ 5 000 Mb de séquence d'ADN par jour pour un coût de 0,50 $/1 Mb (Kircher et Kelso, 2010). L’amélioration de la technologie s’accompagne de problèmes potentiels incluant la mise en œuvre d’infrastructures dédiées adaptées à la taille des machines, au stockage et au traitement des échantillons, et au stockage des données. Sur ce dernier point, les technologies NGS de seconde génération, si elles ont permis d’augmenter considérablement la quantité de données (‘Big Data’) et de détails accessibles, elles ont aussi montré les limites d’un usage adéquat de ces dernières. Très tôt s’est développé un besoin d’outils bioinformatiques pour nettoyer, trier, analyser et partager toutes ces données. Si les technologies NGS sont extrêmement puissantes, elles présentent également certains inconvénients. L'une des principales limitations consiste en est la longueur relativement courte des séquences déchiffrées. Les génomes contenant souvent de nombreuses séquences répétées qui sont nettement plus longues, ce qui peut conduire à des erreurs dans l’assemblage final. En conséquence, de nombreux génomes disponibles sont fortement fragmentés en centaines ou en milliers de contigs (Stein, 2011). En outre, en plus des limitations susmentionnées, le fait que les méthodes de NGS reposent sur une amplification par PCR s’avère être problématique quand cela concerne des régions présentant un pourcentage de GC élevé car celles-ci ne sont pas amplifiées de manière efficace en PCR (Dabney et Mayer, 2012).
 
Peu après la naissance des NGS, les technologies de troisième génération (TGS) ont fait leur apparition. Les caractéristiques qui distinguent NGS et TGS sont le séquençage de molécules uniques et le séquençage en temps réel (par opposition aux NGS, où le séquençage est interrompu après chaque incorporation de base) (Midha et al, 2019). La première technologie TGS a été mise sur le marché en 2011 par Pacific Biosciences et est appelée séquençage en temps réel d'une seule molécule (‘SMRT’ selon l’acronyme anglophone) (McCarthy, 2010). Plus récemment (2014), Oxford Nanopore Technologies (ONT) a lancé le séquençage nanopore. Outre l'absence d'amplification par PCR et le processus de séquençage en temps réel, une caractéristique importante du séquençage SMRT et du séquençage nanopore est la production de longues voire très longues séquences lues. Ces technologies TGS révolutionnent aujourd'hui la recherche en génomique, car elles permettent aux chercheurs et cliniciens d'explorer les génomes à grande vitesse et avec une résolution sans précédent (Athanasopoulou et al, 2021). La masse de données et d’informations s’est encore accrue, et des outils bioinformatiques de lecture et d’analyse de ces longues séquences a accompagné le développement des technologies TGS.
Intro sequencing.jpeg
bottom of page