Chat-4.0 d'OpenAI surpasse les performances humaines lors d'un examen de neurologie

Le 12 décembre 2023

Chat-4.0, le modèle de langage sophistiqué d'OpenAI, a marqué une avancée significative à l'interface entre l'intelligence artificielle et la santé. Lors d'une récente étude de validation de principe, ce grand modèle de langage (LLM) a réussi un examen de neurologie clinique, répondant correctement à 85 % des questions. Cet impressionnant résultat suggère qu'avec des améliorations supplémentaires, les LLM pourraient se tailler une place de choix dans le domaine de la neurologie clinique.

L'étude révolutionnaire a été menée par une équipe de chercheurs originaires de l'hôpital universitaire de Heidelberg et du Centre allemand de recherche sur le cancer à Heidelberg. Les résultats, publiés le 7 décembre, soulignent le potentiel de l’IA pour remodeler les soins de santé. Le test administré à Chat-4.0 comprenait une série de questions de l’American Board of Psychiatry and Neurology, complétées par une sélection du European Board for Neurology.

Chat-4.0 a surpassé son prédécesseur, Chat-3.5, Chat-4.0 a répondu correctement à 1 306 questions sur 1 956, obtenant un score de 66.8 %. Le nouveau modèle, en revanche, a réalisé un exploit en répondant correctement à 1 662 questions, soit un taux de réussite de 85 %. À titre de comparaison, le score humain moyen s'élève à 73.8 %, ce qui indique que Chat-4.0 a surpassé les performances humaines. De plus, 70 % étant le score de passage standard dans le milieu universitaire, on peut affirmer sans risque que Chat-4.0 a réussi l'examen de neurologie.

Cependant, l’étude a également mis en évidence les domaines dans lesquels les modèles pourraient être améliorés. Par exemple, les deux modèles ont démontré des performances plus faibles dans les tâches nécessitant une « réflexion d’ordre supérieur » par rapport à celles nécessitant uniquement une « réflexion d’ordre inférieur ». Cela indique que même si les LLM sont prometteurs dans le domaine de la neurologie clinique, il reste encore place à l'amélioration.

Malgré ces limites, les chercheurs impliqués dans l’étude sont optimistes quant aux applications potentielles des LLM en neurologie clinique. Le Dr Varun Venkataramani, l'un des auteurs de l'étude, a expliqué à Cointelegraph : « Nous considérons notre étude davantage comme une preuve de concept des capacités des LLM. Il y a encore du développement nécessaire et probablement même un réglage précis des LLM pour les rendre correctement applicables à la neurologie clinique.

L'utilisation réussie de l'IA dans des tâches médicales importantes, comme la recherche contre le cancer d'AstraZeneca ou la lutte contre la surprescription d'antibiotiques à Hong Kong, souligne le potentiel de cette technologie. La récente réussite de Chat-4.0 à un examen de neurologie laisse présager un avenir prometteur pour l'IA dans le secteur de la santé, marquant une nouvelle étape vers les avancées médicales basées sur l'IA.