Soutenance de thèse de Florian Privé le 05/09/19

Florian Privé de l'équipe BCM soutiendra sa thèse le jeudi 5 septembre 2019 à 14h00.

Le titre de sa thèse est le suivant :

« Score de risque génétique utilisant de l'apprentissage statistique »

Lieu : Amphithéâtre de l’IAB, Site Santé, La Tronche

Jury & direction de thèse :

    • Julien Chiquet, CR INRA Paris, rapporteur
    • Florence Demenais, DR INSERM Paris, rapporteur
    • Laurent Jacob, CR CNRS Grenoble, examinateur
    • Benoit Liquet, Prof Univ Pau, examinateur

• Hugues Aschard, CR Institut Pasteur, co-encadrant de thèse
• Michael Blum, DR CNRS Grenoble, directeur de thèse

Résumé :

Le génotypage devient de moins en moins cher, rendant les données de génotypes disponibles pour des millions d’individus. Par ailleurs, l’imputation permet d’obtenir l’information génotypique pour des millions de positions de l’ADN, capturant l’essentiel de la variation génétique du génome humain. Compte tenu de la richesse des données et du fait que de nombreux traits et maladies sont héréditaires (par exemple, la génétique peut expliquer 80% de la variation de la taille dans la population), il est envisagé d’utiliser des modèles prédictifs basés sur l’information génétique dans le cadre d’une médecine personnalisée.

Au cours de ma thèse, je me suis concentré sur l’amélioration de la capacité pré- dictive des modèles polygéniques. Les modèles prédictifs faisant partie d’une analyse statistique plus large des jeux de données, j’ai développé des outils permettant l’analyse exploratoire de grands jeux de données, constitués de deux packages R/C++ décrits dans la première partie de ma thèse. Ensuite, j’ai développé une implémentation efficace de la régression pénalisée pour construire des modèles polygéniques basés sur des centaines de milliers d’individus génotypés. Enfin, j’ai amélioré la méthode appelée “clumping and thresholding”, qui est la méthode polygénique la plus largement utilisée et qui est basée sur des statistiques résumées plus largement accessibles par rapport aux données individuelles.

Dans l’ensemble, j’ai appliqué de nombreux concepts d’apprentissage statistique aux données génétiques. J’ai utilisé du “extreme gradient boosting” pour imputer des variants génotypés, du “feature engineering” pour capturer des effets récessifs et dominants dans une régression pénalisée, et du “parameter tuning” et des “stacked regressions” pour améliorer les modèles polygéniques prédictifs. L’apprentissage statistique n’est pour l’instant pas très utilisé en génétique humaine et ma thèse est une tentative pour changer cela.

Mots clés : Statistiques, Génomique, Algorithme