OpenAIs sofistikerade språkmodell, Chat-4.0, har gjort betydande framsteg i skärningspunkten mellan artificiell intelligens och hälso- och sjukvård. I en nyligen genomförd proof-of-concept-studie klarade denna stora språkmodell (LLM) ett kliniskt neurologiprov och besvarade 85 % av frågorna korrekt. Denna imponerande prestation tyder på att med ytterligare förbättringar skulle LLM:er kunna skapa en betydande nisch inom klinisk neurologi.
Den banbrytande studien genomfördes av ett team av forskare från universitetssjukhuset Heidelberg och det tyska cancerforskningscentret i Heidelberg. Resultaten, publicerade den 7 december, understryker potentialen hos AI för att omforma sjukvården. Testet som administreras till Chatt-4.0 inkluderade en uppsättning frågor från American Board of Psychiatry and Neurology, kompletterade med ett urval från European Board for Neurology.
Chat-4.0 överträffade sin föregångare, Chatt-3.5, som besvarade 1 306 av 1 956 frågor korrekt, vilket gav en poäng på 66.8 %. Den nyare modellen uppnådde dock en prestation genom att svara korrekt på 1 662 frågor, vilket motsvarar en framgångsgrad på 85 %. För att sätta detta i perspektiv ligger den genomsnittliga mänskliga poängen på 73.8 %, vilket indikerar att Chat-4.0 överträffade mänsklig prestation. Dessutom, med 70 % som standardpoäng inom den akademiska världen, kan man lugnt säga att Chat-4.0 klarade neurologiprovet.
Men studien lyfte också fram områden där modellerna kunde förbättras. Till exempel visade båda modellerna svagare prestanda i uppgifter som kräver "högre ordningstänkande" jämfört med de som bara behövde "lägre ordningstänkande." Detta indikerar att även om LLM visar lovande inom det kliniska neurologiområdet, finns det fortfarande utrymme för förbättringar.
Trots dessa begränsningar är forskarna som är involverade i studien optimistiska om de potentiella tillämpningarna av LLM i klinisk neurologi. Dr. Varun Venkataramani, en av författarna till studien, förklarade för Cointelegraph, "Vi ser vår studie mer som ett proof-of-concept för förmågan hos LLM. Det behövs fortfarande utveckling och förmodligen till och med specifik finjustering av LLM för att göra dem korrekt tillämpliga för klinisk neurologi."
Den framgångsrika användningen av AI i viktiga hälso- och sjukvårdsuppgifter, såsom AstraZenecas cancerforskning eller kampen mot överförskrivning av antibiotika i Hongkong, understryker potentialen hos denna teknik. Den senaste tidens prestation med Chat-4.0, där man klarat en neurologiexamen, signalerar en spännande framtid för AI inom hälso- och sjukvården och markerar ytterligare ett steg framåt på resan mot AI-drivna medicinska framsteg.