Connexion


Connexion


  • Projets
  • agronomie
  • developpement d’un pipeline d’annotation de sequences genomiques d’especes vegetales sur grille

Projets






INRA UMR ASP - M. LEROY Philippe

Développement d’un pipeline d’annotation de séquences génomiques d’espèces végétales sur la grille régionale AUVERGRID

 

1- Contexte scientifique et objectifs du projet


Depuis Décembre 2005, l’UMR 1095 de Clermont-Ferrand s’est restructurée autour de deux grands projets dont le modèle d’étude est le blé tendre (T. aestivum) . Ces projets traitent des aspects de biologie structurale et évolutive d’une part (Axe 1) et des aspects de biologie intégrative et fonctionnelle d’autre part (Axe 2). Ils s’inscrivent dans les champs thématiques prioritaires CT1 « Comprendre, conserver et valoriser la diversité génétique végétale » et CT2 « Comprendre et maîtriser le déterminisme génétique de caractères d’intérêt et de ceux liés à l’usage des produits » du schéma stratégique 2005-2009 du Département de Génétique et d’Amélioration des Plantes (DGAP) de l’INRA. Les projets sont développées dans le cadre d'un partenariat national et international (notamment ETGI - European Triticeae Genomic Initiative & IWGSC - International Wheat Genomic Sequencing Consortium); ils se positionnent dans les domaines de la génétique, la génomique structurale et fonctionnelle, la génomique comparée et évolutive, la biochimie, la physiologie, la bioinformatique, la modélisation et les ressources génétiques. Le projet présenté ici s’inscrit donc dans ce contexte au sein de l’équipe « Structure, Fonction & Evolution des Génomes de Blé » coordonnée par C. Feuillet (DR), dans le cadre d’un projet ANR : « EXEGESE-BLE » et du consortium international IWGSC.

Les objectifs du projet sont :

  • 1. de permettre au pipeline « TriAnnotPipeline » développé en étroite collaboration avec l’URGI (INRA-Evry), de profiter des avantages de la grille de calcul AUVERGRID (parallélisation).
  • 2. d’assurer le stockage et l’archivage des données issues du pipeline.
  • 3. d’implémenter de nouvelles fonctionnalités (modules) afin de faire évoluer TriAnnotPipeline vers plus de performances et une plus grande facilité d’utilisation.
Lien vers le projet TriAnnot

2- Description du projet


Dans le cadre des programmes de génomique sur l’espèce blé tendre au niveau Régional (Equipe Structure, Fonction & Evolution des Génomes de Blé), National (projet EXEGESE-BLE), Européen (ETGI) et International (IWGSC), et dans la perspective d’une production massive de séquences BAC (Bacterial Artificial Chromosome) dans les dix années à venir, l’UMR INRA-UBP Amélioration & Santé des Plantes de Clermont-Ferrand, en collaboration étroite avec l’URGI INRA d’Evry, développe depuis l’année 2000 un pipeline d’annotation automatique de ce type de séquences, essentiellement issues d’espèces appartenant à la famille des Poaceae. TriAnnotPipeline dérive d’un premier pipeline : BacAnalysis.pl qui a été développé dans le cadre des projets Génoplante et déposé à l’Agence pour la Protection des Programmes (APP) en 2004 (IDDN.FR.001.100015.000.S.P.2004.000.10000). TriAnnotPipeline permet aujourd’hui l’exécution en batch d’outils de comparaison de séquences, de recherches d’éléments répétés, ou de prédicteurs de gènes (FGeneSH, GeneMarkHMM, GeneID, Eugene à venir). Ce programme est actuellement en ligne à l’URGI (http://urgi.infobiogen.fr/projects/TriAnnot/). Lors de son développement en perl-objet, l’accent porté sur la modularité et l’usage de standard (XML, Bioperl, GFF3, Game) permet d'accroitre la paramétrabilité, l'extensibilité, la simplicité d’exploitation et de gestion des ressources, et enfin la visualisation à l’aide d’outils courants (GBrowse et Apollo). TriAnnotPipeline a déjà fait l’objet d’un dépôt à l’APP (IDDN.FR.001.050008.000.R.C.2006.000.31235).

Conscient de l’augmentation rapide et importante de la production et de la mise à disposition de séquences BAC de blé tendre ou d’espèces apparentées prévue dans les années à venir, nous souhaitons, dans le cadre du projet LifeGrid, utiliser la puissance de calcul d’AUVERGRID, dans le but d’augmenter les performances de TriAnnotPipeline. La grille Auvergne pourra être accessible à partir de la plateforme bioinformatique d’Evry où se trouve le site TriAnnot permettant ainsi de gagner en capacité d’analyse et de stockage.

Nous envisageons 3 étapes : 1. Installation des banques de données et des programmes bioinformatiques ainsi que des modules spécifiques à leur traitement par le pipeline sur la grille AUVERGRID et adaptation du corps du pipeline (permettant la gestion des données, l’harmonisation et la visualisation des résultats) afin d’exécuter en parallèle des tâches sur AUVERGRID et d’en récupérer les résultats. 2. Développement d’une base de données, sur AUVERGRID, pour l’archivage des données issues de l’annotation automatique du pipeline. 3. Maintien & implémentation de nouvelles fonctionnalités (modules) dans TriAnnotPipeline en relation avec les capacités offertes par la grille.



3- Usage public ou contrôlé


Cet outil sera à usage public. Néanmoins un login/password est nécessaire pour des raisons de sécurité. Il peut s'obtenir très facilement.
Plus d'informations sur le projet TriAnnot sont disponibles à l'adresse suivante.


4- Résultats attendus


Ce projet a pour ambition de proposer à la communauté scientifique internationale un véritable service WEB (rapide, efficace et convivial) pour l’annotation expertisée et à haut débit de séquences BAC issues des programmes de séquençage d’espèces végétales appartenant à la famille des Poaceae dans le cadre de l’IWGSC. Cet outil bioinformatique doit permettre l’annotation automatique d’un grand nombre de séquences BAC simultanées et à terme d'un chromosome entier. Elle permettra également une expertise en ligne des résultats de l’annotation automatique à travers une interface graphique adéquate, puissante et conviviale. Enfin, il y'aura une possibilité de stockage pour archivage et traçabilité des données d’annotation issues à la fois de l’analyse automatique et de l’expertise par bioanalyse.


 

LifeGrid, le système d'information régional