Le repliement des protéines en partie élucidé par l’IA : une révolution en biologie

Sonja Böhm

Auteurs et déclarations

23 décembre 2020

Berlin, Allemagne --- Etablir la structure en 3D d’une protéine à partir de sa séquence d’acides aminés : c’est ce qu’a réussi la société britannique DeepMind grâce à son programme d'intelligence artificielle AlphaFold. Une découverte importante a failli passer sous les radars fin novembre dernier, avec une actualité quasi monopolisée par les discussions autour de la pandémie, le re/dé-confinement et l'arrivée annoncée des premiers vaccins. Pourtant, d'après de nombreux experts, il s'agit bien là d'une découverte sensationnelle sur le plan scientifique. Et elle pourrait tout changer, à en croire par exemple la revue Nature, qui affirme qu'elle pourrait « transformer la biologie ».

Vers une « révolution de la biologie » ?

La société britannique DeepMind, filiale de Google Holding Alphabet, a annoncé une réussite majeure de son programme d'intelligence artificielle AlphaFold, dans le cadre d'un concours international qui réunissait plusieurs équipes scientifiques. D'après elle, « le problème du repliement des protéines (un puzzle scientifique qui fait l'objet de recherches depuis 50 ans et dont l'importance est comparable à celle de la résolution du code génétique) est quasi complètement résolu ». Avec un degré d'exactitude inimaginable jusqu'ici, AlphaFold a réussi à prédire la structure tridimensionnelle de plusieurs protéines à partir de leur seule séquence d'acides aminés.

AlphaFold, qui repose sur l'apprentissage machine, a permis à DeepMind de remporter haut la main le concours biennal CASP (Critical Assessment of Structure Prediction), auquel une centaine d'autres équipes scientifiques du monde entier ont participé. Les autres équipes étaient tellement dépassées que certains scientifiques parlent d'une « révolution de la biologie » en vue.

Découvrir la structure d’une protéine en une demi-heure

Les sciences naturelles – et la médecine – pourraient énormément bénéficier des progrès réalisés dans la capacité à prédire avec précision la structure des protéines en fonction de leurs séquences d'acides aminés. « C'est un game changer », s'enthousiasme Andrei Lupas, biologiste moléculaire et directeur de l'Institut Max Planck de biologie du développement à Tübingen (Allemagne). Ce scientifique, qui était l'un des membres du jury ayant évalué les performances des différentes équipes participant au CASP, avait lui-même soumis des protéines "cibles", dont une qu'il avait élaborée avec son équipe tout au long d'une décennie. « En utilisant le système prédictif d'AlphaFold, nous avons pu découvrir sa structure en une demi-heure », a-t-il déclaré à Science Media Center Germany. Et d'ajouter qu'AlphaFold va changer sa manière de travailler et les questions qu'il traite : « Cela va changer la médecine, la recherche et la bio-ingénierie. Cela va tout changer. »

« La structure, c'est la fonction »

Ses collègues sont tout aussi impressionnés. « Les structures tridimensionnelles des protéines sont essentielles pour comprendre les systèmes biologiques au niveau moléculaire, car leur forme détermine leur fonction », explique le Dr Sameer Velankar, du Laboratoire européen de biologie moléculaire (EMBL-EBI) à Cambridge. Un axiome de la biologie moléculaire pose en effet que la structure tridimensionnelle d'une protéine, bien plus que sa séquence d'acides aminés, détermine sa fonction. « Les structures peuvent être utilisées pour concevoir de nouvelles fonctions protéiques, améliorer la stabilité des protéines existantes ou développer des molécules thérapeutiques ayant des applications en biotechnologie et en pharmacologie. Jusqu'ici, la structure des protéines présentes chez l'homme n'a été déterminée que pour moins d'1% d'entre elles. »

 
Jusqu'ici, la structure des protéines présentes chez l'homme n'a été déterminée que pour moins d'1% d'entre elles. Dr Sameer Velankar
 

Les méthodes expérimentales telles que l'analyse de la structure des cristaux par rayons X, la cryotomographie électronique ou la spectroscopie RMN multidimensionnelle sont considérées comme des gold standard. Cependant, elles sont extrêmement longues et complexes à mettre en œuvre. Les premières tentatives d'utilisation des ordinateurs pour trouver des moyens plus simples et plus rapides de préciser les structures des protéines n'ont pas été couronnées d'un franc succès, bien que le biochimiste américain Christian Anfinsen ait montré depuis longtemps qu'elles peuvent théoriquement être déduites de leur séquence d'acides aminés – ce qui lui avait valu le prix Nobel de chimie en 1972.

« Prédire le repliement des protéines par un ordinateur est compliqué car il faut positionner correctement plusieurs milliers d'atomes, comme un immense puzzle en trois dimensions. En théorie, il existe plus de possibilités que d'étoiles dans l'univers. Aucun programme informatique n'est capable de tester toutes ces possibilités », explique le Pr Jens Meiler, qui enseigne à l'Université Vanderbilt de Nashville et dirige l'Institut pour le développement des médicaments à l'Université de Leipzig. Visant à faire progresser la recherche dans ce domaine, l'expérience communautaire CASP a été lancée en 1994. Les équipes participantes doivent prédire, pour 100 séquences de protéines, la structure de pliage tridimensionnel (laquelle a été plus ou moins élucidée expérimentalement mais pas encore publiée). L'équipe d'AlphaCode a participé au CASP pour la première fois il y a deux ans et l'a remporté d'emblée. Mais cette année, à l'occasion du CASP14, l'approche DeepMind a littéralement surpassé toutes les autres équipes alors qu'elles avaient pourtant, elles aussi, recouru à des méthodes d'apprentissage automatique (machine learning).

Une précision étonnante, chiffrée à 92,4 GDT

Le jury, constitué de scientifiques indépendants comme Andrei Lupas, a comparé les prédictions soumises avec les données expérimentales, en les évaluant au moyen du Global DistanceTest (GDT) sur une échelle de 1 à 100. Les prédictions étaient anonymisées, pour que les juges en ignorent l'identité de leurs auteurs. DeepMind a présenté ses résultats sous le nom de Groupe 427. « En constatant leur précision stupéfiante, le jury a rapidement suspecté qu'il s'agissait du système AlphaFold », rapporte Andrei Lupas dans l'article de Nature. L'équipe DeepMind a obtenu un score de 92,4 GDT pour l'ensemble des 100 protéines, avec un score médian d'environ 87 pour les protéines « difficiles à prédire » – un chiffre à comparer au score de 53 atteint lors du concours précédent.

Les autres équipes de recherche obtenaient jusqu'à un score GDT de 75, alors qu'un score supérieur à 90 est considéré comparable à la détermination expérimentale des structures, qui réclame souvent plusieurs années. AlphaFold a même pu aider les chercheurs à optimiser leurs résultats expérimentaux dans une petite douzaine de cas où des séquences protéiques difficiles à prédire devaient être modélisées.

Si l'approche de type Deep Learning est si prometteuse pour prédire les structures (qui sont clairement dictées par les lois de la physique), c'est parce qu'elle ne passe pas par l'utilisation de formules de mécanique quantique. « Les capacités de calcul requises seraient gigantesques », explique le Dr Jürgen Cox, qui dirige le groupe de recherche Computational Systems Biochemistry rattaché à l'Institut Max Planck de Biochimie, près de Munich. En revanche, en se basant sur de nombreux exemples où la structure de la protéine était déjà précisée à l'aide de méthodes expérimentales, le deep learning peut être comparé à l'entrainement d'un Deep Neural Network ("réseau neuronal profond"), qui extrait les règles décisives pour la détermination des structures. Ce procédé remplace ainsi l'utilisation d'équations physiques compliquées. Le "réseau neuronal profond" est formé à l'aide d'informations provenant de bases de données sur les protéines.

Comment le Deep Neural Network fonctionne ? Mystère…

Si les scientifiques programment le "réseau neuronal profond" pour faire le travail, ils n'en sont pas moins ignorants de son fonctionnement. « AlphaFold, c'est un peu comme une personne qui pourrait déterminer expérimentalement la structure d'une protéine, en quelques heures seulement, mais qui ne nous révèlerait pas comment elle s'y prend », explique le Pr Gunnar Schröder, qui dirige le groupe de recherche en biologie structurelle computationnelle du Forschungszentrum de Jülich, près de Cologne.

Le chercheur tempère cependant l'enthousiasme soulevé par AlphaFold : « C'est fantastique, et d'une grande importance scientifique, que d'avoir désormais une méthode délivrant des modèles atomiques avec autant de réussite. Cependant, je ne pense pas vraiment que le code du repliement des protéines a été déchiffré. » Certains de ses collègues partagent ses réserves, comme le Dr Jan Kosinski, chef de groupe à l'EMBL (Laboratoire européen de biologie moléculaire) de Hambourg : « Les protéines n'adoptent généralement pas qu'un seul mode de pliage. Elles changent en fonction de l'environnement, lorsqu'elles se lient à d'autres protéines, lorsqu'elles effectuent des réactions enzymatiques, ou encore lorsqu'elles se lient à des médicaments ou à des anticorps à visée thérapeutique. Or, il semble qu'AlphaFold ne soit pas encore en mesure de prédire ces changements. »

De grandes opportunités pour le développement de médicaments

Ce secteur de la recherche évolue cependant très rapidement. Gunnar Schröder y place de grandes attentes, notamment pour le développement de nouveaux médicaments. « Connaître la structure d'une protéine est également important dans ce domaine. Ces molécules sont souvent la cible de substances actives visant à les inhiber, par exemple. Si nous disposons du modèle atomique exact d'une protéine cible, il peut être utilisé pour développer un agent actif spécifique », ajoutant que « le domaine, en pleine expansion, de la médecine personnalisée pourrait même déboucher sur une médecine moléculaire personnalisée, dans laquelle nous adapterions les agents actifs aux structures protéiques d'un patient donné. »

Jens Meiler voit également dans cette nouvelle « une grande réussite, qui permettra certainement de proposer des médicaments basés sur les structures protéiques. Le développement de traitements contre des maladies neurologiques telles que la maladie d'Alzheimer, la schizophrénie ou la démence, par exemple, pourrait être amélioré par la connaissance structurelle de certains récepteurs cérébraux ». Jürgen Cox estime également que « des opportunités sans précédent se dessinent pour mieux comprendre les maladies et leurs remèdes. De nombreuses affections sont liées à une perturbation de l'activité normale de certaines protéines. La relation entre l'ADN et le fonctionnement des protéines, des cellules, des tissus, des organes et de l'ensemble du corps sera nettement mieux comprise grâce à la prédiction structurelle. »

Le chemin reste long

De nombreuses questions restent encore sans réponse. Jürgen Cox rappelle qu'il est autrement plus compliqué de déduire, sur base de la prédiction des structures des protéines, comment elles fonctionnent ensemble et quels complexes protéiques sont formés. En outre, de multiples interactions existent entre les protéines et l'ADN, l'ARN et les molécules plus petites. « Presque chaque protéine subit des modifications telles que des phosphorylations, qui ont un impact important sur la structure, la fonction et les interactions avec d'autres biomolécules ». AlphaFold n'est actuellement pas en mesure de répondre à tous ces questionnements.

Le Pr Alexander Schug, qui dirige le groupe de recherche Multiscale Biomolecular Simulation à l'Institut de technologie de Karlsruhe (KIT), voit également un aspect sociétal à cette percée. Ainsi, outre de nombreux groupes de recherche scientifique et DeepMind, le CASP14 a également vu la participation de Microsoft et de la société technologique chinoise Tencent. « Nos sociétés souhaitent-elles que les grandes entreprises technologiques internationales mènent les recherches sur l'IA de manière aussi significative, ou voulons-nous conserver une expertise indépendante sur cette technologie clé dans la recherche publique (universités et instituts de recherche) ? »

DeepMind a annoncé la publication prochaine d'un article sur les méthodes utilisées, et affirme vouloir proposer, au travers de son modèle prédictif, une analyse accélérée des structures protéiques « à tous les chercheurs qui y accordent un intérêt légitime. » Cependant, certains scientifiques se plaignent du fait que le document sur les méthodes utilisées lors du CASP précédent n'a été publié que récemment, et alors qu'il est déjà dépassé puisque les scientifiques de DeepMind ont depuis lors révisé complètement le réseau neuronal.

Ces quelques ombres au tableau n'empêchent pas la communauté scientifique de savourer ce succès et de se montrer enthousiaste. « Je ne pensais pas vivre assez longtemps pour assister à la résolution du problème du repliement des protéines », se réjouit le Pr Janet Thornton, biologiste des structures à l'European Molecular Biology Laboratory-European Bioinformatics Institute de Hixton, au Royaume-Uni.

 

Cet article a été publié initialement sur Medscape.de sous le titre Forscher weltweit begeistert: „Dies wird die Medizin verändern“ – DeepMind hat Proteinfaltungsproblem „quasi gelöst“ Traduit par le Dr Claude Leroy.

Andrei Lupas, Sameer Velankar, Christian Anfinsen, Jürgen Cox, Gunnar Schröder, Jens Meiler, Jan Kosinski, Janet Thornton, Sonja Böhm et Claude Leroy déclarent n'avoir aucun lien d'intérêt financier avec le sujet évoqué dans l'article.

Alexander Schug a fait des recherches personnelles dans le domaine de la prédiction structurelle par AI au moyen d'analyses co-évolutives et de l'Attention Learning. Il a également bénéficié d'un budget de recherche attribué par Google en 2016 (Google Faculty Research Award).

Commenter

3090D553-9492-4563-8681-AD288FA52ACE
Les commentaires peuvent être sujets à modération. Veuillez consulter les Conditions d'utilisation du forum.

Traitement....