Soutenance de thèse de Florian Privé le 05/09/19

Florian Privé de l'équipe BCM soutiendra sa thèse le jeudi 5 septembre 2019 à 14h00.
Le titre de sa thèse est le suivant :

« Score de risque génétique utilisant de l'apprentissage statistique »

Lieu : Amphithéâtre de l’IAB, Site Santé, La Tronche

Jury & direction de thèse :

    • Julien Chiquet, CR INRA Paris, rapporteur
    • Florence Demenais, DR INSERM Paris, rapporteur
    • Laurent Jacob, CR CNRS Grenoble, examinateur
    • Benoit Liquet, Prof Univ Pau, examinateur

    • Hugues Aschard, CR Institut Pasteur, co-encadrant de thèse
    • Michael Blum, DR CNRS Grenoble, directeur de thèse
 

Résumé :
 
Le génotypage devient de moins en moins cher, rendant les données de génotypes disponibles pour des millions d’individus. Par ailleurs, l’imputation permet d’obtenir l’information génotypique pour des millions de positions de l’ADN, capturant l’essentiel de la variation génétique du génome humain. Compte tenu de la richesse des données et du fait que de nombreux traits et maladies sont héréditaires (par exemple, la génétique peut expliquer 80% de la variation de la taille dans la population), il est envisagé d’utiliser des modèles prédictifs basés sur l’information génétique dans le cadre d’une médecine personnalisée.

Au cours de ma thèse, je me suis concentré sur l’amélioration de la capacité pré- dictive des modèles polygéniques. Les modèles prédictifs faisant partie d’une analyse statistique plus large des jeux de données, j’ai développé des outils permettant l’analyse exploratoire de grands jeux de données, constitués de deux packages R/C++ décrits dans la première partie de ma thèse. Ensuite, j’ai développé une implémentation efficace de la régression pénalisée pour construire des modèles polygéniques basés sur des centaines de milliers d’individus génotypés. Enfin, j’ai amélioré la méthode appelée “clumping and thresholding”, qui est la méthode polygénique la plus largement utilisée et qui est basée sur des statistiques résumées plus largement accessibles par rapport aux données individuelles.

Dans l’ensemble, j’ai appliqué de nombreux concepts d’apprentissage statistique aux données génétiques. J’ai utilisé du “extreme gradient boosting” pour imputer des variants génotypés, du “feature engineering” pour capturer des effets récessifs et dominants dans une régression pénalisée, et du “parameter tuning” et des “stacked regressions” pour améliorer les modèles polygéniques prédictifs. L’apprentissage statistique n’est pour l’instant pas très utilisé en génétique humaine et ma thèse est une tentative pour changer cela.

 

Mots clés : Statistiques, Génomique, Algorithme