Olivier Lespinet
Professeur de Bioinformatique

Institut de Biologie Intégrative de la Cellule, UMR CNRS 9198
Equipe Bioinformatique Moléculaire

Bâtiment 400, Université Paris-Sud
91405 Orsay cedex

Tél : +33 (0) 1 69 15 35 59
E-mail : olivier.lespinet at i2bc.paris-saclay.fr
Laboratoire de Recherche en Informatique, UMR CNRS 8623
Equipe Bioinformatique

Bâtiment 650, Université Paris-Sud
91405 Orsay cedex

Tél : +33 (0) 1 69 15 42 35
E-mail : olivier.lespinet at lri.fr

Recherche :

Mon activité de recherche est centrée sur l'analyse évolutive des génomes et des réseaux biologiques. Dans ce cadre je participe au développement de plusieurs projets dont les plus significatifs sont décrits ci-dessous :
  • L'évolution de la synténie chez les procaryotes
    La comparaison exhaustive des séquences de plusieurs centaines de génomes procaryotes, nous a permis d'identifier de nombreuses familles de gènes orthologues, c'est-à-dire des ensembles de gènes ayant un ancêtre commun et qui sont apparentés entre eux uniquement par des évènements de spéciation. Parmi ces familles nous avons recherché les gènes orthologues dont le voisinage est conservé au cours de l'évolution. Ces groupes de gènes constituent ce que l'on appelle des blocs de synténie.
    L'ensemble des informations de comparaison de séquences et de synténie obtenues ont été intégrées dans une base de données relationelle (SynteBase) et peuvent être visualisées avec l'outil SynteView qui permet d'effectuer l'analyse de la conservation de la synténie sur un très grand nombre de génomes.
    L'étude de ces données nous a permis de démontrer, grâce à une analyse statistique sophistiquée, que les gènes orthologues appartenant à un même groupe de synténie subissent de plus fortes contraintes évolutives que les orthologues dont le voisinage n'est pas conservé. Une telle différence de pression de sélection renforce le concept de contexte génétique qui propose que des gènes restent voisins parce que leurs produits interagissent physiquement et/ou participent à un même processus cellulaire.

    Mes publications en relation avec ce projet : Lemoine et al., 2008, Lemoine et al., 2007

  • La découverte et l'identification des activités enzymatiques orphelines
    Chaque activité enzymatique originale est associée à un identifiant unique constitué d'une série de 4 chiffres appelé EC number. Cet identifiant permet d'indiquer de façon précise et univoque la fonction biochimique de chaque enzyme. Par exemple l' EC number 1.1.1.1 est associé aux enzymes du type alcool deshydrogénases.
    Dès 2004, notre équipe a observé que certaine des activités enzymatiques désignées par un EC number n'étaient associées à aucune séquence présentes dans les bases de données de séquences de références (UniProt, NCBI, PDB, etc.). Nous avons alors mené une étude systématique et découvert à notre grande surprise qu'un fort pourcentage (42% en 2004) des EC numbers, définis par la Commission de Nomenclature internationale en charge de l'attribution des EC number (NC-IUBMB), étaient orphelins de toute séquence.
    Afin d'inciter la communauté scientifique à participer à l'identification de toutes ces activités enzymatiques orphelines nous avons construit une base de données de référence pour les activités enzymatiques orphelines (ORENZA). Cette base de données est mise à jour régulièrement et est consultable gratuitement à l'adresse : http://www.orenza.u-psud.fr. Le nombre d'EC number orphelins est descendu à 28% en 2010.

    Mes publications en relation avec ce projet : Lespinet et al., 2006a, Lespinet et al. 2006b, Lespinet et al., 2006c, Lespinet et al., 2005

  • L'annotation et l'analyse du génome du champignon filamenteux Podospora anserina
    Podospora anserina est un champignon filamenteux de la classe des ascomycètes qui pousse sur les excréments d'herbivores. C'est également un organisme modèle utilisé en génétique depuis plus de 60 ans pour étudier différents processus fondamentaux de la biologie comme par exemple la méïose, le vieillissement ou encore les mécanismes d'hérédité protéïque de type prion. La séquence du génome nucléaire de la souche S mat+ de Podopsora a été déterminée puis assemblée par le Genoscope. Il s'agit d'une couverture 10X obtenue par une approche de type Shotgun.
    En collaboration avec Philippe Silar et son équipe, j'ai réalisé l'annotation structurale puis fonctionnelle du génome de Podospora anserina. Ce travail nous a permis d'identifier 10545 CDS putatives.
    L'analyse du génome de Podospora a montré qu'il contenait relativement peu de régions répétées et que de nombreux gènes sont apparus par duplications. C'est notamment le cas des gènes permettant de métaboliser les différentes sources de carbone. La multiplication de gène du catabolisme du carbone confère à ce champignon la possibilité de pousser sur une grande variété de substrats dont certains sont particulièrement pauvres. De nombreux gènes potentiellement impliqués dans la dégradation de la lignine et de la cellulose ont également été détectés chez Podospora ce qui en fait un bon candidat pour les processus industriels nécessitant la dégradation du bois et des végétaux.
    L'ensemble des données concernant ce projet sont accessibles sur le site du génome de Podospora : http://podospora.igmors.u-psud.fr.

    Mes publications en relation avec ce projet : Bidard et al., 2010, Espagne et al., 2008

  • L'étude de la diversité, de la dynamique et de l'évolution des réseaux biologiques
    L’étude des réseaux biologiques (réseaux de régulation génétique, réseaux d'interactions protéiques, réseaux métaboliques) est un bon moyen de comprendre comment évolue et fonctionne le vivant.
    En dehors des approches purement expérimentales visant par exemple à dresser la liste des protéines interagissant les unes avec les autres dans une condition physiologique donnée pour un organisme particulier, des approches in silico se basant sur ces données expérimentales couplées aux approches de génomique comparées permettent également aujourd’hui d’étudier les réseaux biologiques.
    Pour le bioinformaticien, les systèmes d'interactions biologiques (ou réseaux) peuvent se concevoir comme des graphes orientés dont la complexité dépend d'au moins deux paramètres qui sont l'ordre (nombre de sommets) et la taille (nombre d'arcs). Un niveau supplémentaire de complexité inhérent à la nature des systèmes biologiques est le niveau de connaissance ou plutôt de méconnaissance du système. En effet, malgré les masses de données colossales produites par les approches globales, certains systèmes biologiques fondamentaux s'avèrent encore mal connus. Une étape fondamentale de ce type d'approche va donc consister en la définition de réseaux de référence.
    Deux approches sont possibles pour définir les réseaux de référence. La première consiste à choisir une source de données et à considérer sa définition du système comme étant la seule valide. Toute la difficulté consiste alors à choisir une source qui fasse autorité pour la description du système. Le second type d'approche est celui qu'a priori nous privilégions. Il consiste, pour un réseau donné, à collecter toutes les informations provenant d'un maximum de sources. L'idée étant de produire un système de référence le plus complet possible et qui soit compatible avec la majorité des sources. La difficulté consiste alors à comparer des systèmes dont les descriptions peuvent être très différentes selon les sources, certaines pouvant être incomplètes, divergentes ou même contradictoires.
    Nous sommes actuellement en train de procéder de la sorte en ce qui concerne la comparaison de la description du métabolisme des champignons afin d'étudier la diversité ainsi que les mécanismes gouvernant la dynamique et l'évolution des réseaux métaboliques dans ce groupe.
    Il est bien évident que pour la plupart des organismes les réseaux de références seront très imparfaitement connus voire pas du tout. Nous avons donc commencé ce projet en reconstruisant les réseaux de référence pour chacun des organismes étudiés. A cette fin et pour être certain d'avoir une information du contenu en gènes la plus exhaustive possible nous avons fait porter notre étude uniquement sur des organismes dont le ou les génomes ont été complètement séquencés. Ce qui représente à ce jour (mai 2013) 165 génomes de champignons.
    Pour reconstruire les réseaux de référence nous nous basons principalement sur les données d'orthologie produites au laboratoire : base de donnée FUNGIpath. Dans un premier temps, les orthologues des composants individuels (les sommets des graphes orientés) de chaque réseau de référence ont été recherchés pour chacun des organismes étudiés. Si cette approche nous a permis de retrouver une bonne partie des réseaux étudiés pour chacun des organismes, cependant quelques-uns des composants des réseaux étudiés n'ont pas été trouvés pour certains organismes, traduisant soit leur non-existence chez ces organismes, soit leur trop grande divergence pour être détecté par homologie malgré l'approche originale que nous avons développée pour cela.

    Mes publications en relation avec ce projet : Pereira et al., 2013, Grossetête et al., 2010