Partager Partager sur facebook Partager sur twitter Partager sur google+
-A +A

imprimer la page

Un déluge de données déferle sur la recherche biomédicale ou l’ère des « big data »

A l’occasion de la découverte du boson de Higgs, l’émission C dans l’air de France 5 du 20 juillet revient sur les « Big Data », ces masses considérables de données générées par les physiciens et désormais la recherche biomédicale. Découvrez dans un des reportages comment les bioinformaticiens de l’Institut Curie exploitent ces données.

Un déluge de données déferle sur la recherche biomédicale ou l’ère des « big data »

Si les physiciens ont été les premiers à produire des masses considérables de données, la recherche biomédicale leur emboîte désormais le pas. L’arrivée des technologies de séquençage à haut débit permet aujourd’hui de lire l’ensemble du génome d’une tumeur en quelques jours. A la fin du séquençage, on récupère un fichier informatique sorte de livre qui contient l’ensemble des mots composant le génome des tumeurs. Mais attention, les mots sont dans le désordre et le livre est très volumineux : 6 milliards de mots de 100 lettres, soit pour les fans de Victor Hugo, l’équivalent de 200 000 fois Les Misérables. Ce comparatif explique bien pourquoi on parle de « Big Data ».


Ainsi à l’Institut Curie, les données du séquençage représentent un peu plus de 1 téraoctet par semaine, soit mille gigaoctects. « Pour avoir un ordre de grandeur, explique Philippe Hupé, responsable de la plateforme de bioinformatique, si votre smartphone pouvait contenir 1 téraoctet de MP3, vous pourriez écouter de la musique pendant 2 ans sans interruption ! »


Une fois l’ordre rétabli dans les « mots » du génome, il faut comparer le génome tumoral au normal. « Nous utilisons des algorithmes pour identifier les petites mutations ou les grands déplacements de séquences d'ADN dans la cellule cancéreuse » explique Philippe Hupé.  Comme les données sont très volumineuses, on n’utilise pas un seul ordinateur mais plusieurs dizaines voire centaines.


Ces approches constituent l’essence même de la médecine personnalisée puisqu’elles permettent de découvrir des signatures génomiques prédisant les risques d’évolution des tumeurs ou encore de mettre en avant l’existence d’une altération pour laquelle on dispose d’un traitement spécifique. L’un des défis supplémentaires des « Big Data » en recherche biomédicale, c’est qu’ils doivent pouvoir être exploitées dans un temps compatible avec la clinique. L’Institut Curie dispose des atouts essentiels pour réussir son entrée dans cette nouvelle ère de la médecine avec entre autres, une plateforme de séquençage haut débit placée sous la responsabilité de Thomas Rio-Frio et une plateforme de bioinformatique co-dirigée par Emmanuel Barillot et Philippe Hupé. En 2011, ces capacités de l’institut ont d’ailleurs été reconnues à travers la labellisation Site de Recherche Intégrée sur le Cancer (SIRIC) par l’INCa et le financement obtenu dans le cadre de l’appel à projets des « équipements d’excellence» (Equipex) pour le projet ICGex, dédié à la génomique du cancer.


L’émission C dans l’air met à l’honneur cette activité de l’Institut Curie dans son reportage sur les « Big Data ».

 

23/07/2012