Après quatre années d'existence, l'initiative LifeGrid a pris officiellement fin le 30 Septembre 2010

Projets






Université Blaise Pascal - M. MEPHU NGUIFO Engelbert

PREFON_META : Prédiction de domaines fonctionels de séquences de données métagénomiques



1- contexte scientifique et objectifs du projet

L’étude des métagénomes (ou métagénomique ou génomique environnementale) concerne l’ensemble des séquences d’ADN extraites des communautés multi-espèces prélevées dans l’environnement. Ces communautés sont généralement composées d’organismes non cultivables, soit qu’ils ne sont pas ciblés par les conditions de culture car non connus, soit qu’ils résistent aux tentatives de culture. Le défi de la métagénomique consiste à relier les informations génomiques issues des clones à l’organisme ou à l’écosystème duquel l’ADN a été extrait. L'utilisation des techniques basées sur l'ARN ribosomal (ARNr) a révolutionné nos connaissances sur la diversité des microorganismes présents dans les écosystèmes et dont les fonctions restent inconnues. L'apparition de nouvelles méthodes de séquençage à faible coût permet d'étudier non plus un seul fragment d'ADN particulier mais l'ensemble des génomes d'un écosystème.

Ces données de métagénomique posent d'évidents problèmes de ressources de calcul, de représentation et notamment de gestion des informations produites. En effet, la manière classique d'analyser les séquences consiste à associer chaque séquence du métagénome à la séquence connue qui lui est la plus similaire. Cette approche permet d'affilier chaque séquence à un organisme et à une fonction éventuelle. Cette analyse de base, consistant à comparer chaque nouveau jeu de données aux séquences déjà connues prend environ une année de calcul avec les outils classiques du biologiste. Par ailleurs, ces données d'un nouveau type appellent des développements méthodologiques spécifiques. En effet, un des problèmes majeurs rencontrés lors de l'application de cette approche est qu'entre 25 et 65 % des séquences n'ont pas d'homologues (séquences orphelines) dans les bases de données, rendant ces séquences inutilisables. De tels pourcentages ont été obtenus lors de l'analyse d'un métagénome microbien ou viral au LMGE (Debroas et al., accepté). Il apparaît donc crucial d'intégrer des approches complémentaires de celle basée sur la comparaison de séquence.

L’existence de compétences au sein du LIMOS en matière de développement d’outils de fouille de données complexes et de gestion de données sur des environnements distribués, et plus particulièrement sur les données biologiques et sur les environnements de grille de calcul, va permettre d’élaborer de nouvelles solutions pour l’analyse de séquences métagénomiques.

Dans le cadre de ce projet, l’objectif consiste à développer une application de prédiction de domaines fonctionnels de séquences de données métagénomiques, en s’appuyant sur la grille de calcul régionale, Auvergrid.



2- description du projet

Nous avons mis en œuvre une approche originale de classification de séquences protéiques (Saidi et al., 2007). Contrairement aux approches de la littérature s’appuyant généralement sur la séquence protéique et les techniques d’alignement de séquences (comme BLAST) pour prédire les domaines fonctionnels des séquences, notre approche utilise une technique de redescription des séquences, pouvant être combinée à plusieurs techniques d’apprentissage supervisé pour déterminer les domaines fonctionnels.

Cette approche présente un autre intérêt lié à la possibilité d’intégrer des informations contextuelles sur les séquences ou les écosystèmes lors de la phase d’apprentissage.
Le travail à réaliser dans ce projet va consister à :

  • intégrer dans notre approche, la prise en compte d’informations contextuelles liées aux écosystèmes ;
  • développer une application informatique conviviale mettant en œuvre notre approche, en tenant compte de la grille de calcul régionale, Auvergrid ;
  • intégrer l’application dans le portail METAGRID, du projet LifeGrid.


3- usage public ou contrôlé

Le logiciel développé sera mis à disposition pour un usage public, à travers le portail METAGRID disponible dans le cadre du projet LifeGrid.



4- résultats attendus :

Ce projet débouchera sur la réalisation et la mise à disposition d’un nouvel outil original et convivial, de prédiction des domaines fonctionnels dans les séquences de données de métagénomique. Il contribuera à la construction d’une cartographie de la diversification et de la spécification des organismes microbiens dans leur environnement.


LifeGrid, le système d'information régional