Inferring cellular heterogeneity with mixture models for DNA methylation rates
Inférence de l'hétérogénéité cellulaire à l'aide de modèles de mélange pour les taux taux de méthylation de l'ADN
Résumé
Cellular heterogeneity in biological tissues reflects progression of disease state and is therefore useful for improved diagnostic and prognosis. Cellular composition of tissues is however difficult to assess from bulk molecular profiles, with all cells present in the tissue contributing to the recorded signals. Cell deconvolution is a common approach to unravel the heterogeneous molecular profiles observed in bulk tissues, by inferring the underlying relative abundance of individual cell types. Two omics data types are frequently used for cell deconvolution: RNA-seq gene expressions and DNA methylation rates. Cellular deconvolution models assume that bulk omic profiles result from weighted sums of so-called signature cell-specific omic profiles, weights being the unknown proportions of those cell types. Consistently, most statistical methods used for cellular deconvolution are based on extensions of the Ordinary Least Squares (OLS) optimization algorithm, under nonnegativity and sum-to-one constraints on those unknown mixing coefficients. Using OLS implicitly assumes independence, homoscedasticity and normality of the residual errors, conditions under which OLS optimization guarantees optimal estimation. In cellular deconvolution applied to bulk molecular profile, all three assumptions are highly questionable. Indeed, strong violations of those assumptions may be due to the instrinsic nature of omics data, DNA methylation rates being over-dispersed percentages, or to the dependence structure induced by the gene regulatory network, some key genes being more influent on deconvolution accuracy than others. The goal of this work is to provide a well defined statistical framework that respects the inherent characteristics of biological data for deconvolution, using DNA methylation rates. Whole-genome cell-type specific distributions of DNA methylation rates actually shows a latent group structure, that can explain poor estimation accuracy when fitting deconvolution models on the whole genome. Therefore, we propose a mixture of constrained beta regression models estimated using an EM algorithm. When applied to a \textit{in vitro} benchmark dataset generated from isolated cell populations of Pancreatic cancer (see \cite{Amblard2024.11.08.622633}), results confirms the marked sensitivity of cell deconvolution to the choice of a latent component in the mixture. Interestingly, deconvoluting using the geneset within the best latent component generally leads to a strong improvement with respect to the whole-genome deconvolution. The presentation will compare different gene selection strategies based on the choice of a latent component for cell deconvolution.
L'hétérogénéité de la composition en types cellulaires d'échantillons biologiques est un marqueur important de la progression d'une maladie, utile pour son diagnostic. Cette composition cellulaire est cependant difficile à évaluer à partir de profils moléculaires d'un échantillon composite, la contribution de chaque type cellulaire aux signaux observés étant inconnue. La déconvolution cellulaire vise à estimer les proportions des différents types cellulaires à partir de ces profils moléculaires. Deux types de données omiques sont fréquemment employés dans cet objectif: l'expression des gènes et le taux de méthylation de l'ADN. La déconvolution cellulaire s'appuie sur l'hypothèse que le profil moléculaire de l'échantillon composite peut être approché par une somme pondérée de profils moléculaires spécifiques des mêmes gènes pour chaque type cellulaire considéré, les poids étant les proportions inconnues de ces types cellulaires. La plupart des méthodes statistiques utilisées pour la déconvolution cellulaire sont basées sur des extensions de l'algorithme des moindres carrés ordinaires, sous les contraintes de positivité et de somme à un sur les coefficients du mélange. L'utilisation de cet algorithme suppose implicitement l'indépendance, l'homoscédasticité et la normalité des erreurs résiduelles, conditions sous lesquelles il offre des garanties d'optimalité. Dans le cas présent, chacune de ces trois hypothèses est discutable. D'une part, la nature intrinsèque des données omiques requiert des modèles mieux adaptés à leur sur-dispersion. D'autre part, la structure de dépendance induite par le réseau de régulation des gènes est très forte. Le but de ce travail est de proposer un cadre statistique respectant les caractéristiques inhérentes des données de méthylation de l'ADN. L'analyse exploratoire des distributions des taux de méthylation pour chaque type cellulaire à l'échelle du génome révèle en effet l'existence d'une structure latente en groupes des gènes, chaque composante de cette structure pouvant être associée à un modèle spécifique de déconvolution cellulaire. Nous proposons un mélange de modèles de régression Bêta estimé par maximisation sous contraintes de la vraisemblance grâce à l'utilisation d'un algorithme EM. L'application à des données \textit{benchmark} \textit{in vitro}, générées à partir de populations cellulaires isolées présentes dans le cancer du pancréas \cite{Amblard2024.11.08.622633}, révèle que les modèles de déconvolution cellulaire spécifiques à chaque composante du mélange sont en général très différents. De plus, la sélection des gènes constitutifs de la meilleure composante conduit en général à des améliorations importantes de l'estimation des proportions des types cellulaires. La présentation abordera la question de la sélection des gènes par le choix judicieux d'une composante du mélange pour la déconvolution cellulaire.
| Origine | Fichiers produits par l'(les) auteur(s) |
|---|---|
| Licence |
