Connexion


Connexion


Projets






Biogemma - M. HATSCH Didier

Application de méthodes de calcul haute performance à la bioinformatique végétale

BIOGEMMA est un laboratoire de recherche en biotechnologie végétale, implanté en Auvergne sur différents sites. BIOGEMMA est impliqué dans plus de 200 collaborations à l’échelle internationale. Des recherches sont activement menées dans le domaine de la Génomique, la Transcriptomique et la Bioinformatique.

Le domaine des biotechnologies évolue continuellement. Les nouvelles technologies de séquençage, génotypage, phénotypage et analyse transcriptomique produisent de plus en plus de données scientifiques. La croissance exponentielle de ces données implique des problématiques de stockage et d’analyse.

Les problématiques de volumétrie de données sont résolues par des extensions régulières de nos systèmes de stockage. L’analyse des données se heurte quant à elle à :

  • des capacités de mémoire vive insuffisantes pour traiter un calcul unitaire
  • des logiciels inadaptés
  • des temps de calcul rédhibitoires.

Biogemma investira dans une nouvelle plateforme matérielle. L’objectif du projet est de mettre une architecture logicielle capable de traiter les données générées par les activités de recherche de BIOGEMMA. Cette architecture relève du calcul haute performance.

Le calcul haute performance tire sa puissance de la parallélisation. L’approche haute performance applique une parallélisation au niveau même d’un processus qui sera subdivisé sur une ou plusieurs machines et qui pourra en plus être reparallélisé à un niveau supérieur. Il est ainsi possible d’exploiter pleinement les processeurs actuels en s’affranchissant des limites de mémoire et de fréquence.

Le projet sera décliné en 4 workpackages :


Workpackage 1 : Identification de solutions logicielles pour le calcul haute performance

L’étude des bibliothèques de parallélisation nous semble cruciale. Cette première étape du projet visera à faire un bilan des différentes possibilités logicielles disponibles et donnera lieu à la rédaction d’un document diffusé librement.


Workpackage 2 – Calcul haute performance pour les calculs statistiques en transcriptomique

Le travail de développement se focalisera sur la mise en place de modules nécessaires à la parallélisation au niveau processus en interne et sur la grille, ainsi que les adaptations nécessaires à nos logiciels. Une bibliothèque de parallélisation classique sera également mise en place sur la grille pour l’environnement de mathématique R.


Workpackage 3 – Calcul haute performance pour l’assemblage de séquences

Le logiciel Mira devient un logiciel incontournable pour l’assemblage des séquences suite à la montée en puissance des technologies de séquençage. Le logiciel sera adapté pour fonctionner sur la grille de calcul et aussi testé pour une parallélisation au niveau processus.


Workpackage 4 – Gestion de calculs

Biogemma intégrera les derniers développements de l’équipe LifeGrid pour la soumission de calcul sur la grille. Nous utilisons actuellement un gestionnaire de distribution de calcul en interne. Nous créerons une nouvelle file de calcul qui sera dispatchée sur la grille.



Les résultats attendus seront des gains en termes de temps de calcul comparés à l’exécution classique mais également la possibilité d’effectuer des calculs qui n’étaient pas jusqu’alors possibles sur notre plateforme. Des essais préliminaires internes nous permettent de viser des gains de performance de plus de 10X.


LifeGrid, le système d'information régional