Aux Etats-Unis, l’IA ChatGPT, passe les examens de médecine sans bachotage

Alicia Ault

Auteurs et déclarations

3 février 2023

Etats-Unis – Des chercheurs ont découvert que ChatGPT peut réussir certaines parties du United States Medical Licensing Examination (USMLE)*, ce qui soulève la question de savoir si l’agent conversationnel (ou IA chatbot) pourrait un jour aider à rédiger l'examen ou aider les étudiants à s'y préparer, voire même remplacer les médecins humains (lire aussi ChatGPT, l’outil d’IA va-t-il chambouler la santé ?

*Le United States Medical Licensing Examination (USMLE) est un examen en 3 étapes que le candidat doit réussir pour avoir l’autorisation d’exercer la médecine aux États-Unis. Les étapes 1 et 2 sont passées la 2ème et la 4ème année de médecine puis la troisième étape après un ou deux ans de pratique post-universitaire.

Robot et co-auteur de la publication

Le Dr Victor Tseng et ses collègues d'Ansible Health, une entreprise qui gère principalement des patients à domicile atteints de maladies pulmonaires chroniques, voulaient savoir à l‘origine si ChatGPT pouvait regrouper tous les échanges médicaux concernant les patients, afin de permettre à Ansible de mieux coordonner les soins.

« Nous nous sommes demandé comment ChatGPT pourrait améliorer les soins aux patients », a déclaré le Dr Tseng, vice-président et directeur médical d'Ansible, à Medscape. Un groupe de volontaires de l'entreprise a décidé de tester ses capacités en lui posant des questions à choix multiples de l'USMLE, étant donné qu'un grand nombre d'entre eux avaient passé cet examen.

« Les résultats nous ont tellement interpellés que nous nous sommes empressés d'en faire une publication », a déclaré M. Tseng. Les résultats ont été publiés sous forme de prépublication sur medRxiv, dont les responsables ont été si impressionnés qu'ils ont autorisé ChatGPT à collaborer en tant qu'auteur contributif.

ChatGPT a rédigé le résumé et la section « résultats » « avec un minimum d'interventions et quelques ajustements cosmétiques de la part des coauteurs humains », a déclaré le Dr Tseng. Le robot a également contribué à de larges sections « introduction » et « méthodes ». Les auteurs lui ont « fréquemment demandé de synthétiser, de simplifier et de proposer des contrepoints aux projets en cours », un peu à la façon dont des co-auteurs peuvent interagir entre eux par courrier électronique. Ils ont toutefois décidé de ne pas créditer ChatGPT en tant qu'auteur.

L'article a été accepté dans la revue à comité de lecture PLOS Digital Health et sera publié prochainement, a déclaré le Dr Tseng à Medscape.

 
Les résultats nous ont tellement interpellés que nous nous sommes empressés d'en faire une publication. Dr Victor Tseng
 

Des algorithmes entraînés à prédire la probabilité d'une séquence de mots

Le Dr Alex Mechaber, vice-président du programme USMLE au National Board of Medical Examiners (NBME), a déclaré que l'organisation n'était pas surprise par les résultats de l'étude, « en partie parce que les données utilisées pour ChatGPT sont largement représentatives des connaissances médicales ». L'IA est plus susceptible de réussir avec des questions à choix multiples, a déclaré le Dr Mechaber à Medscape.

OpenAI, basé à San Francisco, a développé ChatGPT, un modèle de langage de grande envergure. Le géant de la technologie Microsoft considère que ChatGPT et les autres applications d'OpenAI sont si prometteuses qu'il a déjà investi 3 milliards de dollars et qu'il serait sur le point d'investir 10 milliards de dollars supplémentaires dans la société.

Les algorithmes de ChatGPT sont « entraînés à prédire la probabilité d'une séquence de mots donnée en fonction du contexte des mots qui la précèdent ». Théoriquement, il est « capable de générer de nouvelles séquences de mots jamais observées auparavant par le modèle, mais qui représentent des séquences plausibles basées sur le langage humain naturel », selon le Dr Tseng et ses co-auteurs.

Rendu public en novembre 2022, ChatGPT a été utilisé pour rédiger des poèmes d'amour, des dissertations d'histoire de lycée et du contenu éditorial de sites Web. Le robot puise dans une base de données qui comprend tout ce qui a été téléchargé sur Internet jusqu'en 2021.

L’IA se débrouille mais fait moins bien que les très bons étudiants

Le Dr Tseng et ses collègues ont testé ChatGPT sur des centaines de questions à choix multiple couvrant les trois étapes de l'examen USMLE.

Pour chaque étape, les chercheurs ont sollicité le chatbot de trois manières. Tout d'abord, ils lui ont donné les signes et les symptômes d'un patient théorique et lui ont demandé de se prononcer sur ce qui pourrait être la cause sous-jacente ou le diagnostic.

Ensuite, après avoir « rafraîchi » ChatGPT afin d'éliminer tout biais potentiel dû aux informations retenues lors de l'exercice précédent, on lui a donné les questions de l'examen et on lui a demandé de choisir une réponse. Après un nouveau « refresh » de ChatGPT, les chercheurs lui ont demandé « d'expliquer en quoi les bonnes réponses étaient correctes et en quoi les mauvaises réponses étaient incorrectes ».

Les réponses ont été examinées et notées par trois médecins agréés et certifiés.

En format ouvert, la précision du ChatGPT pour l'étape 1 allait de 43 % lorsque les réponses "non définies" étaient incluses dans l'analyse à 68 % lorsque ces réponses étaient exclues. Une réponse non définie est une réponse dans laquelle le chatbot a donné une réponse qui n'était pas disponible parmi les choix multiples présentés ou a dit qu'il ne pouvait pas s'engager dans une réponse. Pour l'étape 2, le taux de réussite était de 51 %/58 %, et pour l'étape 3, il était de 56 %/62 %.

Lorsqu'on lui a posé les questions mot pour mot, la précision de ChatGPT a été de 36/55% pour l'étape 1, 57%/59% pour l'étape 2 et 55%/61% pour l'étape 3. Lorsqu'on lui demande de justifier ses réponses, son taux d'exactitude a été de 40 %/62 % pour l'étape 1, de 49 %/51 % pour l'étape 2 et de 60 %/65 % pour l'étape 3.

Le taux de réussite des étudiants varie selon qu'il s'agit d'un premier examen ou d'un examen répété et selon que le candidat est originaire des États-Unis ou d'un autre pays. En 2021, pour l'étape 1, le taux de réussite allait d'un minimum de 45 % à un maximum de 96 % pour les redoublants. Pour l'étape 2, la fourchette était de 62 % à 99 %, et pour l'étape 3, la fourchette était de 62 % à 98 %.

« Ce qui est fascinant, c'est qu'aux étapes 2 et 3, qui sont plus avancées sur le plan clinique, seulement 10 % environ des réponses [du ChatGPT] ont été classées comme non définies », a déclaré M. Tseng.

Le robot n'a pas été testé sur les parties cruciales de l'examen.

 
Aux étapes 2 et 3, qui sont plus avancées sur le plan clinique, seulement 10 % environ des réponses [du ChatGPT] ont été classées comme non définies.
 

Possiblement utile pour aider les étudiants

M. Mechaber, de l'USMLE, a fait remarquer que ChatGPT n'a reçu qu'un échantillon de questions, et non un test pratique réel. Et il n'a pas essayé de répondre à des questions utilisant des images ou des sons, ni aux études de simulation informatique basées sur des cas, présentes à l'étape 3, a-t-il ajouté.

Le Dr Tseng suggère dans son article que ChatGPT pourrait éventuellement être utilisé comme une aide à l'étude pour les étudiants qui se préparent à l'USMLE ou pour rédiger des questions pour l'examen.

« Nous y réfléchissons », a déclaré M. Mechaber à propos de son utilisation comme outil d'étude. Mais comme ChatGPT produit encore un grand nombre de mauvaises réponses, la technologie n'est probablement pas « prête pour le prime time », a-t-il ajouté. Quant à savoir si ChatGPT pourrait rédiger des questions d'examen, le NBME s'est montré intéressé par la « génération automatisée d'items », a-t-il ajouté.

« Nous étudions [ChatGPT] avec enthousiasme et curiosité » pour son utilisation potentielle en médecine, a déclaré M. Mechaber.

Le chatbot considère que l'USMLE est là pour rester

Un membre du personnel du NBME a décidé de demander à ChatGPT s'il représentait une menace pour l'USMLE. Le robot a répondu que, bien qu'il soit un « outil puissant de traitement du langage naturel », il « ne constitue pas une menace pour l'USMLE ».

Dans une longue réponse, le robot a ajouté : « ChatGPT, bien qu'impressionnant dans sa capacité à générer du texte de type humain, n'est pas spécifiquement conçu pour tester les connaissances médicales et ne remplace pas la formation et l'éducation rigoureuses requises pour devenir un médecin agréé. »

En outre, ChatGPT « n'a pas la capacité de penser de manière critique ou de résoudre des problèmes comme le ferait un médecin humain », a-t-il ajouté.

Le bot a également soulevé des considérations éthiques, notant que puisque les modèles d'IA « sont basés sur l'apprentissage automatique qui peut être biaisé, les résultats générés par le modèle peuvent ne pas être précis et impartiaux ».

« ChatGPT est un outil impressionnant pour le traitement du langage naturel, mais il ne remplace pas les connaissances spécialisées, la pensée critique et les considérations éthiques qui sont essentielles à la pratique de la médecine », a-t-il ajouté. « L'USMLE reste un moyen important et valide d'évaluer les connaissances et les capacités des aspirants médecins », a déclaré le bot.

 
ChatGPT est un outil impressionnant pour le traitement du langage naturel, mais il ne remplace pas les connaissances spécialisées, la pensée critique et les considérations éthiques qui sont essentielles à la pratique de la médecine. ChatGPT
 

 

L'étude a été menée par des volontaires et n'a été financée par aucune source. M. Tseng est employé à plein temps par U World, une société de préparation aux examens USMLE, pour laquelle il rédige des questions d'examen.

 

L’article a été publié initialement sur Medscape.com sous l’intitulé AI Bot ChatGPT Passes US Medical Licensing Exams Without Cramming – Unlike Students. Traduit par Stéphanie Lavaud.

 

Suivez Medscape en français sur Twitter.

Suivez theheart.org | Medscape Cardiologie sur Twitter.

Inscrivez-vous aux newsletters de Medscape : sélectionnez vos choix

Commenter

3090D553-9492-4563-8681-AD288FA52ACE
Les commentaires peuvent être sujets à modération. Veuillez consulter les Conditions d'utilisation du forum.

Traitement....