Soutenance de thèse d'Amandine SEPTIER le 23/09/2024 à 13h15
La soutenance de thèse d'Amandine SEPTIER de l'équipe MAGE aura lieu lundi 23 septembre 2024 à 13h15 sur le thème :
« Identification des variations du nombre de copies dans les données d'exome - applications à l'infertilité »
Elle se tiendra à l' Auditorium de l'IMAG situé 150 Place du Torrent, 38400 Saint Martin d'Hères
Le jury sera composé des membres suivants :
- Nicolas Thierry Mieg, Chargé de recherche HDR, CNRS Délégation Alpes, Directeur de thèse
- Antonio Rausell, Maître de Conférences - Praticien Hospitalier, Université de Paris, Rapporteur
- Christel Thauvin-Robinet, Professeure des Universités - Praticienne Hospitalière, Université de Bourgogne, Rapporteure
- Macha Nikolski, Directrice de Recherche, CNRS Délégation Aquitaine, Examinatrice
- Matthieu Foll, Docteur en Sciences, IARC, Examinateur
- Olivier François, Professeur des Universités, Université Grenoble Alpes, Examinateur
Résumé :
Dans le cadre de la génomique humaine, les variations du nombre de copies (CNV) représentent une forme importante de variation structurelle du génome, pouvant entraîner la perte (délétion) ou le gain (duplication) de matériel génétique dans certains segments. Ces variations jouent un rôle crucial dans diverses pathologies, impactant significativement la fonction des gènes, notamment dans les cas de délétions, et conduisant à des effets phénotypiques variés.
Le séquençage de l’exome entier (WES), ciblant sélectivement les régions exoniques du génome, est un outil clé pour l’identification de variations génétiques cliniquement pertinentes. Il est particulièrement efficace pour détecter les variations d’un seul nucléotide (SNV) et les petites insertions/délétions (indels). Cependant, il peut également être utilisé pour identifier les CNV, en particulier lorsque plusieurs échantillons obtenus par des technologies WES homogènes sont disponibles.
Plusieurs méthodes ont été proposées pour détecter les CNV à partir de données WES. Typiquement, ces méthodes comparent le nombre de lectures de séquençage pour chaque exon à travers divers échantillons WES, identifiant des valeurs atypiques qui correspondent probablement à des délétions (réduction des lectures) ou des duplications (excès de lectures). Toutefois, les approches existantes souffrent souvent de faibles taux de concordance et de validation, comme le démontrent des évaluations indépendantes.
Cette thèse propose une nouvelle méthode pour l’identification fiable des CNV à partir de données WES, comprenant quatre étapes méthodologiques innovantes :
1. Filtrage et comptage des lectures : cette étape utilise une analyse approfondie des alignements de séquençage en paires, distinguant les lectures véritablement associées aux CNV des autres alignements (tels que ceux résultant d’autres types de variants structurels) ou des artefacts de séquençage et d’alignement. L’accent est mis sur la précision et l’exhaustivité, tout en optimisant l’efficacité computationnelle, car c’est la phase la plus couteuse en temps.
2. Identification de sous-groupes homogènes d’échantillons : un algorithme novateur est introduit pour stratifier les échantillons en fonction des comptages de lectures par exon. Cette méthode vise à regrouper les échantillons présentant des caractéristiques de séquençage similaires, améliorant ainsi la détection précise des CNV et réduisant les faux positifs.
3. Modélisation des comptages de lectures : cette étape implique l’application d’une modélisation statistique au niveau de chaque exon, pour prendre en compte la variabilité et la complexité des données de séquençage. Notre approche repose sur l’analyse fine de centaines d’exomes, aboutissant à une méthodologie à la fois robuste et exhaustive.
4. Modélisation intégrative des CNV : Les modèles statistiques développés dans la troisième étape sont ensuite utilisés pour définir les paramètres d’un modèle de Markov caché (HMM) continu. Ce modèle intégratif multi-exons capture avec précision les nuances des données WES et permet des appels de CNV solidement appuyés sur une vraisemblance statistique clairement définie.
Ces étapes constituent ensemble une approche cohérente et innovante pour la détection des CNV à partir de données WES. Notre méthode représente un progrès significatif dans l’interprétation des données WES pour la génomique clinique, avec un impact potentiel important pour le diagnostic et le traitement des troubles génétiques.
Significativement, même avant la finalisation de notre approche, les résultats préliminaires ont contribué à l’identification de plusieurs CNV impliqués dans l’infertilité, comme le démontrent les travaux de Celse et al. (Hum Genet 2021 Jan;140(1):43-57), Kherraf et al. (Am J Hum Genet 2022 Mar 3;109(3):508-517), et Dacheaux et al. (Elife. 2023 Nov 7;12:RP87698). Ces découvertes soulignent le potentiel et la pertinence de nos méthodes pour approfondir la compréhension des conditions génétiques complexes.