PREDICTING BACTERIAL SECRETION SYSTEM PROTEINS USING POSITIVE AND UNLABELED MACHINE LEARNING
PRÉDIRE LES PROTÉINES DU SYSTÈME DE SÉCRÉTION BACTÉRIEN À L'AIDE DE L'APPRENTISSAGE AUTOMATIQUE POSITIVE AND UNLABELED
Résumé
Proteins are biological molecules made of amino acids that group into hundreds of thousands of different families, involved in functions ranging from structural to chemical roles. They often partner up to fulfil cellular functions and assemble into macro-molecular systems such as secretion systems. The known 12 types of secretion systems play vital roles in prokaryotic organisms as they are used by the organism to interact with their environment for nutrient acquisition, defense, and toxin delivery etc. Current methods for assessing a system's distribution use comparative approaches, analysing protein sequence similarities and genomics organisation. However, given that proteins with different sequences can perform the same function, sequence comparison has limitations that can be overcome by machine learning approaches. We have trained Positive-Unlabeled machine learning classifier to predict whether a given bacterial protein is part of a secretion system and developed a cross validation strategy that avoids the biased performance due to evolutionary similar organisms.
Les protéines sont des molécules biologiques composées d'acides aminés qui se regroupent en centaines de milliers de familles différentes, dont les fonctions vont de la structure à la chimie. Elles s'associent souvent pour remplir des fonctions cellulaires et s'assemblent en systèmes macromoléculaires tels que les systèmes de sécrétion. Les 12 types connus de systèmes de sécrétion jouent un rôle vital dans les organismes procaryotes, car ils sont utilisés par l'organisme pour interagir avec son environnement en vue de l'acquisition de nutriments, de la défense, de l'administration de toxines, etc. Les méthodes actuelles d'évaluation de la distribution d'un système utilisent des approches comparatives, analysant les similitudes de séquences protéiques et l'organisation génomique. Cependant, étant donné que des protéines ayant des séquences différentes peuvent remplir la même fonction, la comparaison des séquences présente des limites qui peuvent être surmontées par des approches d'apprentissage automatique. Nous avons entraîné un classifieur PU pour prédire si une protéine bactérienne donnée fait partie d'un système de sécrétion et nous avons développé une stratégie de validation croisée qui évite les performances biaisées dues à des organismes similaires du point de vue de l'évolution.
Origine | Fichiers produits par l'(les) auteur(s) |
---|