Analysis of the mediation of effects of environmental exposures on health via DNA methylation : Application to prenatal exposure to tobacco and air pollution and child health
Analyse de la médiation des effets d'expositions environnementales sur la santé via la méthylation de l'ADN : Application à l'exposition prénatale au tabagisme et à la pollution atmosphérique et la santé de l'enfant
Résumé
High-dimensional mediation analysis is an extension of one-dimensional mediation analysis that includes multiple mediators and is increasingly used in environmental epidemiology to assess indirect epigenetic effects of environmental exposures on health outcomes. However, analyzes involving high-dimensional data raise several statistical issues. Although many methods have recently been developed to solve these problems, no consensus has been reached on an optimal combination of approaches. To better understand the problem of mediation in high dimension, the first chapter of the thesis focuses on the studies of associations such as EWAS and GWAS. Associations of phenotypes or exposures with genomic and epigenomic data face significant statistical challenges. One such challenge is accounting for variation due to unobserved confounders, such as individual ancestry or cell type composition in tissues. This problem can be solved with penalized latent factor regression models, where penalties are introduced to deal with a removed dimension in the data. If a relatively small proportion of genomic or epigenomic markers is correlated with the variable of interest, sparse penalties may help capture relevant associations, but improvement over non-parsimonious approaches has yet to be seen fully assessed. Here, we present least squares algorithms that jointly estimate effect sizes and confounders in sparse latent factor regression models. In simulated data, sparse latent factor regression models generally obtained better statistical performance than other sparse methods, such as LASSO (Least Absolute Shrinkage and Selection Operator) and BSLMM (Bayesian Sparse Linear Mixed Model). In generative model simulations, statistical performance was slightly lower (but comparable) to non-parsimonious methods, but in simulations based on empirical data, parsimonious latent factor regression models were more robust than non-parsimonious approaches. We applied sparse latent factor regression models to a genome-wide association study of a flowering trait of the plant Arabidopsis thaliana and an epigenome-wide association study of the smoking status in pregnant women. For both applications, sparse latent factor regression models facilitated the estimation of non-zero effect sizes while overcoming multiple testing issues. The results were not only consistent with previous findings, but also identified novel genes with functional annotations relevant to each application. In the second chapter, we developed HDMAX2, a novel multi-step mediation approach that combines latent factor regression models for epigenome-wide association studies with mediation tests (maximum squared). HDMAX2 has been carefully evaluated from simulations and compared to high-dimensional mediation methods. Then, HDMAX2 was used to assess the indirect effects of maternal smoking exposure on term birth weight and gestational age at delivery in a study of 470 women from the EDEN mother-child cohort.During HDMAX2 simulations it is shown to be more powerful compared to existing high-dimensional mediation methods. It made it possible to detect regions not identified in previous analyzes of the mediation of exposure to smoking on birth weight. The results provided evidence for a polygenic architecture of the causal pathway with an overall indirect effect of 44 g lower body weight (31% of the total effect size). HDMAX2 also identified regions with simultaneous effects on both gestational age and birth weight. Among the main findings of the gestational age and birth weight analyses, regions located on the COASY and BLCAP genes also mediated the relationship between gestational age and birth weight, suggesting reverse causation in the relationship between gestational age and methylome.
L'analyse de médiation à haute dimension est une extension de l'analyse de médiation unidimensionnelle qui inclut plusieurs médiateurs et est de plus en plus utilisée en épidémiologie environnementale pour évaluer les effets épigénétiques indirects des expositions environnementales sur les résultats de santé. Cependant, les analyses impliquant des données de grande dimension soulèvent plusieurs problèmes statistiques. Bien que de nombreuses méthodes aient été récemment développées pour résoudre ces problèmes, aucun consensus n'a été atteint sur une combinaison optimale d'approches. Pour mieux appréhender la problématique de médiation en haute dimension, le premier chapitre de thèse ce focalise sur les études d’associations tel que les EWAS et les GWAS. Les associations de phénotypes ou d'expositions avec des données génomiques et épigénomiques se heurte à d'importants défis statistiques. L'un de ces défis consiste à tenir compte de la variation due à des facteurs de confusion non observés, tels que l'ascendance individuelle ou la composition du type cellulaire dans les tissus. Ce problème peut être résolu avec des modèles de régression à facteurs latents pénalisés, où des pénalités sont introduites pour faire face à une dimension enlevée dans les données. Si une proportion relativement faible de marqueurs génomiques ou épigénomiques est corrélée à la variable d'intérêt, les pénalités de parcimonie (sparse) peuvent aider à capturer les associations pertinentes, mais l'amélioration par rapport aux approches non parcimonieuses n'a pas encore été entièrement évaluée. Ici, nous présentons un algorithme des moindres carrés qui estime conjointement les tailles d'effet et les facteurs de confusion dans des modèles de régression à facteurs latents parcimonieux (sparse). Cet algorithme a pu être validé dans un contexte de simulation. Nous avons appliqué notre méthode à une étude d'association à l'échelle du génome d'un trait de floraison de la plante Arabidopsis thaliana et à une étude d'association à l'échelle de l'épigénome du statut tabagique chez les femmes enceintes. Pour les deux applications, les modèles de régression à facteurs latents parcimonieux ont facilité l'estimation des tailles d'effet non nulles tout en surmontant les problèmes de tests multiples. Les résultats étaient non seulement cohérents avec les découvertes précédentes, mais ils ont également identifié de nouveaux gènes avec des annotations fonctionnelles pertinentes pour chaque application. Dans le second chapitre, nous avons développé HDMAX2, une nouvelle approche en plusieurs étapes de médiation qui combine des modèles de régression des facteurs latents pour les études d'association à l'échelle de l'épigénome avec des tests de médiation (test du maximum au carré). HDMAX2 à été́ soigneusement évaluée à partir de simulations et comparée à des méthodes de médiation en haute dimension. Ensuite, HDMAX2 a été utilisé pour évaluer les effets indirects de l'exposition au tabagisme maternel sur le poids à la naissance à terme et l'âge gestationnel à l'accouchement dans une étude portant sur 470 femmes de la cohorte mère enfant EDEN. HDMAX2 a permis de détecter des régions non identifiées dans les analyses de médiation précédentes de l'exposition au tabagisme sur le poids de naissance. Les résultats ont fourni des preuves d'une architecture polygénique de la voie causale avec un effet indirect global de 44 g de poids corporel inférieur (31 % de la taille de l'effet total). HDMAX2 a également identifié des régions ayant des effets simultanés à la fois sur l’âge gestationnel et sur le poids de naissance. Parmi les principaux résultats des analyses de l’âge gestationnel et du poids de naissance, les régions situées sur les gènes COASY et BLCAP ont également médié la relation entre l’âge gestationnel et le poids de naissance, suggérant une causalité inverse dans la relation entre l’âge gestationnel et le méthylome.
Origine | Version validée par le jury (STAR) |
---|