top of page
Les nouvelles technologies d'analyse
 
1. NGS et bioinformatique
 
Une fois le séquençage effectué, l'analyse des séquences d'ADN représente une étape primordiale pour une interprétation adéquate des données, dans les différents domaines d’application (métagénomique, diagnostic des maladies infectieuses, recherche de SNP, prévention des maladies, analyse de la structure de l'ADN, la régulation de l'expression (ARN codants et non-codants), régulation de l'expression des gènes, diagnostic préventif du cancer, la biologie des systèmes, la virologie, etc.). Les méthodes d’analyse traditionnelles (ordinateur personnel) s’avèrent limitées en termes de puissance de calcul et d’espace mémoire disponible quand il s’agit de traiter de très grandes quantités de données, et des outils et environnements dédiés ont été développés (Magi et al, 2010).
 
Les analyses bioinformatiques impliquent invariablement le passage de fichiers par une série de transformations, appelée pipeline ou flux de travaux. Ces opérations sont effectuées par des algorithmes successifs via des lignes de commande exécutables. L'avènement du séquençage de nouvelle génération, avec des millions de séquences d'ADN utilisées en entrée pour l'interprétation d'une série de phénomènes biologiques a intensifié le besoin de pipelines robustes. Les analyses NGS ont tendance à impliquer des étapes telles que l'alignement des séquences et l'annotation génomique, qui sont à la fois chronophages et nécessitant de grandes puissances de calcul. Il est donc apparu primordial de définir un cadre bioinformatique normé, pouvant s'adapter à des pipelines de production comprenant des étapes sérielles ou parallèles, prenant en charge différents types de logiciels et des fichiers de données variés. Les pipelines disponibles actuellement offrent des fonctionnalités avancées, avec une visualisation de la progression de l’analyse en temps réel, conteneurisation des algorithmes (Docker, Singularity) pour une exécution sécuritaire, une prise en charge de l'exécution de travaux sur des grappes de calculs (Compute Canada, Calcul Québec, etc), voire dans l’infonuagique (Koppad et al, 2021). Le développement d’interfaces graphiques favorisant l’accompagnement et l’interprétation des résultats par l’utilisateur a ouvert un champ de possibilités remarquable au sein de l’arbre décisionnel de l’utilisateur qui peut désormais construire un flux de travail personnalisé, adapté à chacun ou à chaque situation, sans écrire une seule ligne de code. Désormais, les analyses de données de séquençage ne peuvent plus être réalisées sur des ordinateurs de bureau et de nombreux chercheurs s'intéressent aux solutions d’infonuagique pour obtenir des services évolutifs pour l’analyse sur mesure des données génomiques (Amazon AWS, Microsoft Azure, Google Cloud).
L'informatique en nuage apparaît en effet comme une solution prometteuse pour le traitement rapide des données dans les systèmes distribués, grâce à la disponibilité apparemment infinie des ressources de calcul. Un autre atout réside dans les trois principaux types de services disponibles permettant de répondre au plus près des besoins exprimés par l’utilisateur, avec une assistance plus ou moins poussée des outils mis a disposition (Infrastructure en tant que Service (IaaS), Plateforme en tant que Service (PaaS) et Logiciel en tant que Service (SaaS) (Zhao et al, 2017).
​
​
2.Les méthodes d’analyse intégrées
​
Le traitement des données génomiques représente un défi en raison de la demande en ressources informatiques ainsi que des compétences techniques requises pour ordonner les flux opérationnels et exécuter les pipelines de calcul. Pléthore d’outils ont été développés à cet effet, mais les besoins évidents d’une organisation des outils entre eux, dans le but d’organiser et coordonner les analyses sont apparus (Mason et al, 2017). Afin d'en améliorer la reproductibilité, des langages de flux de travaux ont été introduits. Le Common Workflow Language (CWL) est une norme permettant de décrire les flux d'analyse de données. L'une des mises en œuvre de cette norme est le Workflow Description Language (WDL). Cette standardisation a permis le développement d’interfaces de programmation de plus haut niveau pour déployer et contrôler les flux de travaux écrits en CWL, autorisant même l’apparition d’interface de programme d'application (API) pour les spécifications de flux de travail statiques et dynamiques et l'intégration avec d'autres microservices (Ahmed et al, 2021). Dès lors, les pipelines ont pu être déployé dans le nuage informatique tout en étant acceptés par différents environnements tels qu’Amazon AWS, Microsoft Azure et Google Cloud. Le Genome Analysis Toolkit (GATK), par exemple, a été développé en tant que cadre normatif faisant référence pour l'analyse des données génomiques. Il met en œuvre une collection d'outils en ligne de commande des approches des meilleures pratiques pour une variété de tâches telles que l'appel de SNP à partir de lectures de séquençage brutes par exemple (Dolled-Filhart, 2013). Il fournit une documentation complète et est basé sur des flux de travail décrits en WDL. Galaxy et Taverna sont des exemples de plateformes de flux de travail scientifiques à code source ouvert. Ces plateformes ont été créées en raison du besoin croissant des biologistes, qui n'ont pas forcément d'expérience en programmation, de développer des instructions de manipulation des données par étapes. Les deux plateformes fournissent des interfaces utilisateur intuitives. Alors que Taverna est principalement destiné à fonctionner sur des instances locales, Galaxy peut être installé localement ou dans sur des environnements en infonuagique. Les deux plateformes prennent en charge des plugins qui étendent leurs fonctionnalités au fil du temps. À ce titre, elles s'appuient sur un soutien communautaire actif (Afgan et al, 2016). A noté qu’il existe également des plateformes commerciales qui offrent des services similaires à Galaxy, tel que DNAnexus par exemple. L'informatique en nuage, définie ici comme la location à la demande d'une infrastructure informatique virtualisée à partir de centres de données gérés à distance, offre une option évolutive attrayante pour la recherche collaborative multi-institutionnelle en termes de mise à disposition des outils pour la manipulation de données. Bien que les coûts d'abonnement et de calcul diminuent, la vitesse de transfert des fichiers sur l'internet vers le nuage reste un problème pour ces plateformes. Si tous les pipelines susmentionnés peuvent être installés sur une infrastructure en nuage, les plateformes infonuagiques offrent une couche d'abstraction qui simplifie le processus complexe d'approvisionnement en serveurs. Ainsi, les produits commerciaux, tels que DNAnexus (http://dnanexus.com), SevenBridges (http://sbgenomics.com) et BaseSpace d'Illumina (http://basespace.illumina.com), tirent parti de l'évolutivité de l'informatique en nuage pour offrir de hautes performances (en calcul et en outils à disposition) tout en proposant à l’utilisateur des expériences de développement et d'utilisation comparables aux produits open source basés sur des serveurs locaux. Ces fournisseurs prennent également en charge des API qui permettent aux utilisateurs d’initier et même contrôler des analyses automatisées par lots importants sans passer par une interface Web. En parallèle de ces solutions commerciales, des solutions open source de nouvelle génération basés sur l’infonuagique, tels que Arvados, Curoverse (https://curoverse.com) et Agave de iPlant Collaborative, autant de concepts d’API conçues pour faciliter la migration d'analyses locales vers le nuage dans un but de recherche collaborative (Leipzig, 2017).
bottom of page