Mons, Belgique – Une première étude au niveau mondial a évalué la performance de ChatGPT4 dans la prise en charge de cas cliniques réels. Les résultats viennent d’être publiés. Si l’IA est capable d'émettre des diagnostics, de suggérer des examens complémentaires et des traitements pertinents, elle manque encore de discernement et les médecins ne sont pas près d’être remplacés.
Les Prs Jérôme Lechien et Stéphane Hans d'Epicura (en collaboration avec le CHU Saint-Pierre et l'Hôpital Foch, Paris) viennent de publier les résultats d'une étude internationale menée sur 45 patients présentant des pathologies fréquentes en médecine générale ou oto-rhino-laryngologie et dont le tableau clinique a été présenté à l’intelligence artificielle (IA) Chat GPT4.
« Ce sont des patients que j'ai reçu en consultation », explique le Dr Jérôme Lechien. « Mon assistant a noté les symptômes, les résultats de mes examens cliniques ainsi que les examens complémentaires, mon diagnostic et mes traitements proposés. Ensuite, il a rentré les symptômes et examens cliniques dans le logiciel d'IA et lui a demandé ses résultats : les examens complémentaires qu'il ferait ainsi que les traitements. Sur base de cela, nous avons demandé à deux collègues italien et espagnol d'analyser les résultats en aveugle. Et de mon côté, j'ai moi-même prescrit ce qu'il fallait au patient », précise le Dr Lechien.
« Nous nous sommes rendu compte que l'IA était très compétente pour réaliser un diagnostic. Dans cette étude, sur les 45 patients, il y a eu 63,5 % de bonnes réponses. Cependant, là où ça coince, c'est au niveau de la prescription des examens complémentaires et des traitements les plus adéquats », explique-t-il.
Les examens complémentaires étaient pertinents et totalement ou partiellement nécessaires dans 29 % des cas. Quant aux traitements, ils étaient pertinents et nécessaires dans 22 % des cas. Dans le reste des cas, les procédures thérapeutiques proposées étaient une association de traitements inadéquats et inutiles.
En effet, « Chat GPT fonctionne un peu comme une sorte de grosse encyclopédie qui va dire ce qu'on peut faire, mais le logiciel manque de discernement. Dans un cas précis, l'IA dira qu'on peut réaliser une IRM, un scanner et une échographie or en pratique on ne fait pas tout ça, on choisira l'examen complémentaire en fonction de la pathologie et celui qui est le plus adéquat », fait remarquer le spécialiste. « Dans le cas d'une pathologie osseuse par exemple, on demande un scanner ou une radio et non pas une IRM ou une échographie, car l'écho ne fonctionnera pas. Cependant chatGPT4 n'a pas pu sélectionner le meilleur examen », précise Jérôme Lechien.
« Il y a eu également quelques "ratés" : on a eu un patient par exemple avec un pacemaker pour lequel Chat GPT4 m'a proposé tout de suite de réaliser une IRM sans tenir compte du fait qu'il avait un pacemaker, or ce n'est pas possible. Pareil pour les traitements, ce n'est parfois pas très bon », observe le laryngologue.
Pourquoi ce manque de discernement ?
« Tout dépend de ce qu'on appelle les hyperparamètres », explique le Dr Lechien. « Les IA fonctionnent avec des paramétrages que l'on appelle les hyperparamètres et parfois on augmente la vitesse de traitements au détriment de la précision », résume-t-il brièvement. « Or ici, on n'a pas les hyperparamètres. Ce qu'il faudrait faire, précise-t-il, c'est comparer les mêmes cas cliniques traités par chat GPT4 avec d'autres IA. Une étude qui est d'ailleurs prévue. »
L'originalité de l'étude
« L'originalité de notre étude tient dans le fait que c'est la première au monde qui analyse la performance de chat GPT4 face à de vrais cas cliniques d'ORL et de médecine générale. Nous avons validé dans cette étude un outil clinique permettant de juger la performance de l'IA : AIPI (Artificial Intelligence Performance instrument). »
« À l'heure actuelle, il existe une multitude d'outils cliniques que l'on utilise pour juger le niveau de nos jeunes médecins et des étudiants en médecine. Nous disposons de grilles mais pas encore pour l'IA, ça n'existait pas. Nous avons donc développé la première grille qui va pouvoir être utilisée en gynécologie, pédiatrie ou encore en oncologie dans certains cas », précise-t-il.
« C'est une grille qui évalue la performance clinique de l'IA. Si l'on demande à l'IA de trouver un traitement pour un cancer rare, cette grille ne servira pas, mais si on lui demande de prendre en charge une consultation dans le cas d'une patiente qui a eu un cancer du sein avec de la chimiothérapie et que le cancer a résisté à la radiothérapie, dans ce cas-là, l'outil peut être intéressant », explique-t-il. Pour le Dr Lechien, « l'IA sert à optimiser la prise en charge mais ne va pas remplacer le médecin, pas tout de suite en tout cas. »
Pas une évolution, c'est une révolution
« En ORL dans les années 80, on a développé la chirurgie minimale invasive pour les sinus, c'est-à-dire, une chirurgie où l'on passe avec des caméras. Et pendant plusieurs années, le chirurgien autrichien qui a développé cette méthode a été jugé. Or maintenant, c'est devenu une évidence. On n'opère plus un nez ou un sinus en non minimal invasif », observe le spécialiste. Concernant l'IA, les réactions sont assez semblables. « À l'heure actuelle, il y a une levée de boucliers terrible en médecine face à l'IA. Les gens sont réfractaires au changement, pourtant c'est une révolution. Ce n'est même pas une évolution, c'est une révolution », insiste-t-il. « Mais dans 10 ou 15 ans, quand on vivra dans un monde avec des robots et de l'IA cela nous paraîtra tout à fait normal, et il n'y aura aucun problème qu'un robot nous soigne. C'est une question de mentalité », fait-il remarquer.
Pas développer l’IA au détriment de l'humain
Un des points importants selon lui, « c'est qu'il faut légiférer, encadrer son utilisation. Un deuxième point à tenir en compte c'est que l'être humain recherche toujours le profit. Or, l'idée n'est pas de développer l'IA pour supprimer des médecins spécialistes ou réduire le nombre d'infirmiers », poursuit-il. « L'objectif est de développer l'IA pour accompagner et améliorer les soins, mais pas au détriment de l'humain ni de faire exploser le taux de chômage. Mais c'est pourtant ce qui risque d'arriver. »
Cet article a initialement été publié sur Mediquality.net, membre du réseau Medscape.
Suivez Medscape en français sur X .
Suivez theheart.org |Medscape Cardiologie sur X .
Inscrivez-vous aux newsletters de Medscape : sélectionnez vos choix
LIENS :
Crédit de Une : Dreamstime
Actualités Medscape © 2023
Citer cet article: Quelle est la performance de ChatGPT4 dans la prise en charge de cas cliniques réels ? - Medscape - 31 août 2023.
Commenter