-A +A

imprimer la page

Bioinformatique

Responsable : Emmanuel Barillot

Mots clés : tumeur, puces à ADN, profils moléculaires, classification, analyse statistique, bases de données, phénotypage cellulaire, séquençage à haut débit

La plate-forme Bioinformatique assure une double mission. D'une part, nous intégrons les données produites par les plates-formes biotechnologiques de l'Institut Curie : plates-formes de puces génomiques, transcriptomiques, ou protéomiques ; plate-forme protéomique de spectrométrie de masse ; plate-forme de grand séquençage ; plate-forme de phénotypage cellulaire ; pour ce faire, elle développe et gère les bases de données, outils et interfaces nécessaires à l'intégration de ces données. D'autre part, nous apportons un support collaboratif dans l'analyse bioinformatique et biostatistique des données des projets de nos collègues biologistes ou cliniciens.

La plate-forme Bioinformatique de l'Institut Curie est localisée sur le campus de Paris, dans le bâtiment de Biologie du Développement et Cancer. Nos travaux s'appuient sur une infrastructure informatique conséquente, gérée par l'équipe Système de l'Institut Curie (Jean-Gabriel Dick et Camille Barette). Elle comprend un système de stockage SAN de 50 Teraoctets, des serveurs Sun opteron octoprocesseurs (2 à base de dualcores avec 32 Go de mémoire, et 2 à base de quadcores avec 256 Go de mémoire), et des stations de travail biprocesseurs quadcore avec 16 Go de mémoire, soit une puissance de calcul de 400 processeurs logiques.

Fig.1: Interface VAMP pour la visualisation et l'analyse des profils moléculaires, typiquement de puces à ADN. L'outil permet d'identifier les gènes impliqués dans la tumorigénèse et la progression tumorale.Fig.1: Interface VAMP pour la visualisation et l'analyse des profils moléculaires, typiquement de puces à ADN. L'outil permet d'identifier les gènes impliqués dans la tumorigénèse et la progression tumorale.

Fig.2: Interface Biophenics pour lanalyse et la gestion des phénotypes cellulaires. L'outil permet d'identifier les gènes et les composés chimiques intéressants pour comprendre la progression tumorale et développer des stratégies thérapeutiques.Fig.2: Interface Biophenics pour lanalyse et la gestion des phénotypes cellulaires. L'outil permet d'identifier les gènes et les composés chimiques intéressants pour comprendre la progression tumorale et développer des stratégies thérapeutiques.

BioIT : développement et maintenance des bases de données (Philippe La Rosa)


Les multiples approches moléculaires à haut débit génèrent des flux d'information sans précédent qu'il est nécessaire de structurer et dont il faut donner une vue unifiée au travers d'une plate-forme bioinformatique d'intégration. C'est la mission de l'axe BioIT, en charge du développement, de la maintenance, de l'administration, de la gestion et de l'évolution des bases de données, chaînes de traitement et interfaces qui constituent la plate-forme.
L'intégration concerne aussi bien les données cliniques et biologiques produites à l'Institut, que les masses de données connexes disponibles publiquement au sein de la communauté scientifique.

Nos outils de navigation et de visualisation permettent une appréhension globale de l'information collectée et facilite la formulation d'hypothèses de travail, étape cruciale pour passer du stade de la collecte de données à celui de l'enrichissement de la connaissance. Elle s'appuie sur des solutions logicielles disponibles dans la communauté scientifique ou sur des outils développés par le groupe BioIT quand cela est nécessaire.

Nous développons également des chaînes automatiques de traitement de données. Le caractère systématique de cette approche facilite la traçabilité, garantit une bonne  homogénéité des résultats et offre la possibilité de refaire les analyses rapidement.  L'axe BioIT est en charge du développement de ces chaînes de traitement.

Biostatistique et analyse de données (Philippe Hupé)


Ce second axe de travail consiste à apporter notre expertise bioinformatique et biostatistique dans le cadre de collaborations avec nos collègues biologistes et cliniciens de l'Institut ou d'autres horizons. En effet, l'analyse des données à haut débit doit s'appuyer à la fois sur la maîtrise d'outils et concepts pointus de statistique et de bioinformatique ; et sur une compréhension fine des questions biologiques et cliniques à résoudre.
L'analyse est menée à la demande de nos collaborateurs, en  étroite interaction avec eux, et doit commencer à la définition du plan expérimental. Une fois les données produites, la première étape concerne le contrôle-qualité et l'extraction du signal biologique, souvent appelée normalisation. À ce stade la définition de modèles correctifs ad hoc peut s'avérer nécessaire et l'exploitabilité de l'expérience est établie. S'ensuit une phase d'analyse exploratoire, sans hypothèse a priori, où l'on recherche le message principal porté par l'expérience, par exemple les voies biologiques concernées. Cette étape peut déboucher sur la formulation d'hypothèses, l'identification de biais expérimentaux, ou la définition de nouvelles expériences. Après la phase exploratoire s'engage l'analyse visant à répondre à la question clinique ou biologique posée, par exemple la comparaison de deux types tumoraux ou la construction de méthodes capables de prédire l'apparition de métastases.

Phénoinformatique (Alexandre Hamburger)


De nombreuses technologies (micro-arrays, double-hybride, MS-MS...), désormais standardisées, ont permis la génération d'une grande quantité d'informations relatives aux composants de la cellule (gènes, protéines, ARN...) et de leurs interactions. Plus récemment, des avancées majeures en analyse d'image et en robotique nous ont donné l'opportunité d'observer la cellule en tant qu'entité globale, présentant un « phénotype », plutôt que comme une collection d'éléments individuels.
La phéno-informatique s'attache à l'acquisition, la manipulation et l'analyse de telles données : le comportement d'une cellule ou d'une population de cellules est quantifié en fonction de son type (lignée cellulaire), de perturbations diverses, et du contexte expérimental.
Les données ainsi produites peuvent dès lors être utilisées comme une source additionnelle d'information, venant enrichir et compléter des modèles préexistants, ou comme une source autonome, qui nous permettrait d'améliorer significativement notre compréhension du comportement cellulaire. De nombreuses applications peuvent être envisagées, tant dans le cadre du développement de la connaissance biologique que dans une optique thérapeutique.
Dans tous les cas, un nouveau type de données, radicalement différent des standards, implique la mise en place d'analyses adaptées, à mêmes d'en tirer les bénéfices maximaux et de gérer intelligemment sa complexité inhérente.

Analyse des données de grand séquençage (Emmanuel Barillot)


Les nouvelles technologies de séquençage (454, Solexa, SOLiD) offrent la possibilité de séquencer l'ADN à un débit sans précédent, atteignant plus de 10 Gigabases par semaine. L'institut Curie a  récemment acquis un séquenceur SOLiD, désormais utilisé pour des études portant sur le séquençage de génomes complets, de mutations géniques, de transcrits (ARNm et petits ARN), ou sur la cartographie de réarrangements génomiques, de sites de liaison de protéines à l'ADN, de modifications des histones ... Cette technologie produit par expérience plus de 100 millions de séquences de 35 à 50 bases. Elle nécessite des outils nouveaux pour la gestion de gros volumes de données et des stratégies et méthodologies d'analyse adaptées. Au sein de cet axe de travail, nous collaborons avec l'équipe de la plate-forme SOLiD et ses utilisateurs biologistes pour définir les projets, imaginer les solutions bioinformatiques et biostatistiques, et mener à bien les analyses de données.

Publications clés

2008

    * Volpe E, Servant N, Zollinger R, Bogiatzi SI, Hupé P, Barillot E, Soumelis V
      A critical function for transforming growth factor-beta, interleukin 23 and proinflammatory cytokines in driving and modulating human T(H)-17 responses
      Nat Immunol. Jun, 9(6):650-7

2007

    * P.Poullet, S.Carpentier, E.Barillot
      myProMS, a web server for management and validation of mass spectrometry-based proteomic data
      Proteomics, Aug;7(15):2553-6
    * Ph. Hupé, Ph. La Rosa, S. Liva, S. Lair, N. Servant, E. Barillot
      ACTuDB, a new database for the integrated analysis of array-CGH and clinical data for tumors
      Oncogene, Oct. 11;26(46):6641-52

2006

    * La Rosa P, Viara E, Hupe P, Pierron G, Liva S, Neuvial P, Brito I, Lair S, Servant N, Robine N, Manie E, Brennetot C, Janoueix-Lerosey I, Raynal V, Gruel N, Rouveirol C, Stransky N, Stern MH, Delattre O, Aurias A, Radvanyi F, Barillot E.
      VAMP: visualization and analysis of array-CGH, transcriptome and other molecular profiles
      Bioinformatics, Sep 1;22(17):2066-73
    * A. Elfilali, S. Lair, C. Verbeke, Ph. La Rosa, F. Radvanyi and E. Barillot
      ITTACA: a new database for integrated tumor transcriptome array and clinical data analysis
      Nucleic Acids Research, Jan 1;34

Institut Curie
14/06/2010