AlphaFold de DeepMind voit l'absorption des protéines
NEW YORK – Depuis son introduction en 2018, le programme AlphaFold de DeepMind est devenu un outil clé dans la recherche biologique, permettant aux scientifiques de prédire les structures des protéines avec une grande précision en fonction de leurs séquences d'acides aminés.
Plus récemment, les chercheurs ont commencé à utiliser AlphaFold et sa nouvelle itération, AlphaFold2, pour le travail sur l'interaction protéine-protéine (PPI), explorant son utilité pour prédire et valider les interactions protéiques ainsi que pour générer des modèles de leurs structures.
Ces efforts restent limités par les ressources informatiques intensives requises, mais des études indiquent que les approches basées sur l'IA pourraient s'avérer utiles pour les études PPI à grande échelle et pourraient compléter les outils existants comme la spectrométrie de masse et les systèmes à deux hybrides de levure.
"C'est un espace très intéressant", a déclaré Juri Rappsilber, professeur de protéomique à l'Université d'Edimbourg et professeur de bioanalyse à l'Institut de technologie de Berlin. En avril, lui et ses collègues ont publié une étude dans Molecular Systems Biology sur la combinaison de la spectrométrie de masse de réticulation et de la spécification de masse de co-fractionnement avec le logiciel AlphaFold-Multimer - une extension d'AlphaFold2 destinée à la recherche sur les PPI - pour prédire et valider les PPI chez Bacillus subtilis .
Rappsilber a cité comme une utilisation courante ce qu'il a appelé un "Alpha pulldown" dans lequel les chercheurs utilisent le logiciel pour cribler des interactions protéiques candidates contre une protéine d'intérêt particulière, tout comme ils le feraient avec une expérience de spécification de masse immuno-pulldown.
"Ils ont une protéine qui les intéresse, et ils ont un certain nombre de protéines candidates qui, selon eux, peuvent interagir avec cette protéine, et ils les lancent simplement une par une contre leur protéine d'intérêt", a déclaré Rappsilber.
"Si AlphaFold est positif, il est fort probable que les deux interagissent", a-t-il déclaré. "Donc, vous passez de 10, 20 ou 50 candidats à une poignée de candidats, et c'est plus plausible à suivre."
Rappsilber a ajouté que, surtout, contrairement à d'autres approches de validation des IPP, les chercheurs sortent d'une telle expérience avec des modèles des structures des interactions.
"Et c'est une instruction très claire de ce qu'il faut faire ensuite comme expérience", a-t-il dit, notant qu'avec ces informations structurelles, les chercheurs peuvent concevoir des mutants ponctuels sur les sites d'interaction leur permettant de perturber l'interaction et d'étudier son effet biologique.
"La principale limitation est la puissance de calcul", a déclaré Panagiotis Kastritis, professeur junior de cryo-EM à l'Université Martin-Luther de Halle-Wittenberg et titulaire de la chaire ERA pour cryo-EM à la Fondation nationale hellénique de recherche de Grèce, à propos de l'utilisation d'AlphaFold pour le travail PPI. "La plupart de ces calculs ont été effectués sur des ordinateurs à l'échelle d'un institut."
Kastritis a noté, cependant, que cela deviendra probablement moins un défi au cours des cinq à 10 prochaines années, car la puissance de calcul continue de devenir moins chère et plus accessible.
Il a également suggéré que certaines stratégies informatiques pourraient réduire la puissance de calcul requise pour utiliser AlphaFold pour les travaux PPI à grande échelle. Par exemple, a-t-il dit, AlphaFold2 prédit les structures protéiques en utilisant ce qu'on appelle des alignements de séquences multiples, qu'il produit en prenant la séquence d'acides aminés d'une protéine et en la comparant à d'autres bases de données de séquences protéiques pour identifier des séquences similaires qu'il utilise pour construire ses modèles. Kastritis a déclaré qu'au fur et à mesure que de plus en plus de ces MSA sont identifiés, ils peuvent être stockés de manière à permettre au logiciel d'y accéder directement plutôt que d'avoir à rechercher à nouveau des bases de données de séquences pour les identifier.
"Si nous avions des [MSA] prédéterminés et précalculés, ce serait bien sûr plus rapide et plus facile", a-t-il déclaré.
En avril, des chercheurs de Microsoft et de l'Université libre de Berlin ont publié une préimpression BioRxiv qui utilisait plusieurs approches informatiques, y compris celles similaires à celles suggérées par Kastritis, pour accélérer la prédiction des IPP par AlphaFold2. Selon les auteurs, lorsqu'ils ont appliqué leur approche pour prédire les interactions par paires de 1 000 protéines, cela a réduit le temps nécessaire aux prédictions de 40 fois tout en réduisant l'espace disque requis de 4 460 fois.
L'un des auteurs de la préimpression, Patrick Bryant, boursier postdoctoral à la Free University, a également été le premier auteur d'un article de 2022 Nature Communications qui détaillait un nouveau pipeline pour la prédiction PPI basée sur AlphaFold2 appelé FoldDock. En janvier 2023, Bryant et une équipe dirigée par des chercheurs du SciLifeLab de l'Université de Stockholm (où Bryant avait été étudiant diplômé) et de l'Institut européen de bioinformatique ont utilisé le pipeline FoldDock pour prédire les structures de 65 484 IPP humains, générant 3 137 modèles PPI de haute confiance. .
Kastritis a déclaré que les chercheurs utilisent également des données expérimentales produites par des techniques telles que la spectrométrie de masse et la microscopie cryoélectronique pour rendre les prédictions AlphaFold2 moins gourmandes en calculs. Par exemple, a-t-il dit, un chercheur pourrait fournir à AlphaFold2 des données de spécification de masse de réticulation ou la forme et la structure 3D des protéines telles que déterminées par cryo-EM et lui demander de prédire uniquement les structures protéiques qui correspondent aux données expérimentales.
"En utilisant ce type d'informations, nous pouvons réduire les coûts de calcul", a-t-il déclaré.
"Vous devez être axé sur les candidats", a déclaré Rappsilber, soulignant également l'utilité des données expérimentales en combinaison avec AlphaFold.
Dans leur étude MSB, Rappsilber et ses coauteurs ont commencé par utiliser la spectrométrie de masse réticulée dans des cellules entières de B. subtilis pour identifier les interactions potentielles protéine-protéine. Ils ont identifié un total de 560 IPP, dont 384 n'avaient pas été détectés auparavant. Ils ont suivi cela avec des expériences de spécification de masse de co-fractionnement, qui ont identifié 667 IPP candidats, résultant en un total de 878 IPP candidats générés par les deux méthodes.
Les chercheurs ont ensuite téléchargé des IPP de haute qualité connus à partir de la base de données SubtiWiki de B. subtilis et les ont combinés avec leurs IPP dérivés expérimentalement pour créer un ensemble de 2032 IPP candidats qu'ils ont soumis à AlphaFold-Multimer. Le logiciel a pu générer des modèles structurels de haute qualité pour 114 de ces interactions.
AlphaFold-Multimer a également été en mesure de prédire des structures de haute qualité pour 14 complexes protéiques trimériques, indiquant son potentiel pour aller au-delà des IPP binaires.
Prédire les complexes protéiques constitués de plusieurs protéines ou d'autres molécules reste un défi difficile, a noté Kastritis, qui n'a pas participé à l'étude MSB. Un problème majeur avec de tels complexes plus grands, a-t-il dit, est que des inexactitudes mineures dans les prédictions de la structure des protéines peuvent se propager dans tout le complexe plus large, entraînant des inexactitudes plus importantes.
Pour l'avenir, Rappsilber a déclaré qu'il voyait trois voies principales - qui sont toutes actuellement suivies - par lesquelles AlphaFold et d'autres outils basés sur l'IA deviendront plus utiles pour les travaux complexes sur les IPP et les protéines à grande échelle.
La première, qu'il a décrite comme l'approche de la "force brute", consiste simplement à tirer parti des améliorations continues de la puissance de calcul.
"Attendez un peu et votre smartwatch pourra le faire", a-t-il plaisanté.
La deuxième voie est le développement continu de stratégies de calcul plus rapides et plus efficaces pour effectuer ce travail, comme le pipeline FoldDock mentionné ci-dessus.
Le troisième est une intégration plus efficace des données expérimentales pour faciliter les prédictions basées sur l'IA. C'est là que se concentrent une grande partie des efforts de son laboratoire, a déclaré Rappsilber, pointant vers un article récent de son laboratoire détaillant une version d'AlphaFold2 appelée AlphaLink qui intègre des données provenant de sources telles que la réticulation des données d'expériences de spécification de masse qui peuvent fournir au logiciel des informations sur la distance entre certains résidus d'acides aminés.
Avec des données croisées, "nous pourrions obtenir des structures pour des cibles difficiles là où AlphaFold seul a échoué", a-t-il déclaré.