Soutenance de thèse de Marion Chauveau mercredi 1er octobre 2025 à 14h

 

La soutenance de thèse de Marion Chauveau (équipe TREE) aura lieu mercredi 1er octobre 2025 à 14h et portera sur le thème : 

« Modèles génératifs pour les séquences de protéines »

« Generative models for protein sequences »

 

Lieu : Amphithéâtre de l'IPGG6 Rue Jean Calvin, 75005 Paris

Pour celles et ceux qui ne pourraient pas être présents, une option en visioconférence (Zoom) sera proposée.

Cette thèse a été effectuée sous la direction d’Ivan Junier et d'Olivier Rivoire au sein du laboratoire TIMC à Grenoble et du laboratoire Gulliver de l’ESPCI.

 

bullet Résumé en français :

Les avancées technologiques de ces dernières décennies, notamment en séquençage, ont profondément changé notre manière d’étudier les protéines, en donnant accès à des bases de données rassemblant aujourd’hui plusieurs milliards de séquences. Ces ressources ont ouvert la voie à de nouvelles approches, allant des méthodes issues de la physique statistique aux modèles de deep learning.

Cette thèse s’inscrit dans ce contexte et se concentre sur l’inférence statistique appliquée aux séquences de protéines, en adoptant comme cadre principal les modèles de type Machine de Boltzmann. Ces modèles ont montré leur efficacité dans plusieurs tâches : prédire les contacts dans la structure tridimensionnelle, évaluer l’effet de mutations ou encore générer des séquences de protéines fonctionnelles.

Néanmoins, leur utilisation comme modèles génératifs se heurte à une limite majeure : pour chaque famille de protéines, le nombre de séquences disponibles reste restreint par rapport à la complexité du modèle. Ce régime de sous-échantillonnage impose le recours à des méthodes de régularisation qui introduisent des biais et ne permettent pas de capturer la diversité des séquences naturelles. Pour dépasser cette difficulté, nous avons développé une nouvelle méthode, la Stochastic Boltzmann Machine (SBM), permettant de mieux capturer les motifs statistiques présents dans les données.

En collaboration avec des expérimentateurs de l’université de Chicago, nous avons montré que cette approche permet également de préserver la diversité observée dans les séquences naturelles tout en produisant des variants fonctionnels. Enfin, nous avons étudié la capacité de ces modèles à identifier des interactions épistatiques dans deux contextes différents : (1) pour explorer les déterminants de la diversité fonctionnelle au sein de la famille des protéases à sérine, et (2) pour appuyer la compréhension d’un mécanisme allostérique dans la dihydrofolate réductase d’E. coli.

 

bullet Résumé en anglais :

Over the past decades, advances in sequencing technologies have profoundly reshaped the way proteins can be studied, giving access to databases that now hold billions of sequences. These resources have enabled new lines of research, from approaches rooted in statistical physics to modern deep learning methods.

This thesis focuses on statistical inference for protein sequences, using Boltzmann Machine models as a central framework. These models have proved effective in tasks such as predicting structural contacts, estimating the impact of mutations, and generating functional protein sequences. Yet, their use as generative models faces a major limitation: for most protein families, the available sequence data remain insufficient compared to the complexity of the models. This undersampled regime requires regularization, which introduces biases and fails to capture the diversity of natural sequences. To address this issue, we developed the Stochastic Boltzmann Machine (SBM), a new inference method designed to better capture the statistical patterns present in the data.

In collaboration with experimentalists at the University of Chicago, we showed that this approach allows us to preserve the diversity observed in natural sequences while producing functional variants. We also investigated the ability of these models to identify epistatic interactions in two different contexts: (1) to explore the determinants of functional diversity in the serine protease family, and (2) to support the understanding of an allosteric mechanism in E. coli dihydrofolate reductase.