OpenAI Chat-4.0 在神經病學考試中超越人類表現

2023 年 12 月 12 日

OpenAI 的複雜語言模式 Chat-4.0 在人工智慧與醫療保健的交叉領域取得了重大進展。在最近的一項概念驗證研究中,該大型語言模型 (LLM) 成功通過了臨床神經病學考試,正確回答了 85% 的問題。這一令人印象深刻的成就表明,透過進一步改進,LLM 可以在臨床神經病學領域開闢出重要的市場。

這項開創性的研究是由來自海德堡大學醫院和海德堡德國癌症研究中心的研究小組進行的。 7 月 XNUMX 日發布的結果強調了人工智慧重塑醫療保健的潛力。 測試進行到 聊天-4.0 包括來自美國精神病學和神經病學委員會的一系列問題,並輔以歐洲神經病學委員會的精選問題。

Chat-4.0 的表現優於前身, 聊天-3.5, 在1,956題中,Chat-4.0正確回答了1,306道,得分為66.8%。而新模型則以正確回答1,662題取得了優異的成績,成功率高達85%。相較之下,人類的平均得分為73.8%,這表明Chat-4.0的表現超越了人類。此外,鑑於70%是學術界的標準及格分數,可以肯定地說,Chat-4.0成功通過了神經病學考試。

然而,該研究也強調了模型可以改進的領域。 例如,與僅需要「低階思維」的任務相比,這兩種模型在需要「高階思維」的任務中表現出較差的表現。 這表明雖然法學碩士在臨床神經病學領域顯示出前景,但仍有改進的空間。

儘管有這些局限性,參與研究的研究人員對法學碩士在臨床神經病學中的潛在應用持樂觀態度。 研究的作者之一 Varun Venkataramani 博士向 Cointelegraph 解釋道:「我們將我們的研究更多地視為法學碩士能力的概念驗證。 法學碩士仍然需要發展,甚至可能需要進行具體的微調,以使其正確適用於臨床神經病學。”

人工智慧在重大醫療任務中的成功應用,例如阿斯特捷利康的癌症研究以及香港應對抗生素過度處方的舉措,凸顯了這項技術的潛力。 Chat-4.0 最近在神經病學考試中取得的優異成績,預示著人工智慧在醫療保健領域擁有令人振奮的未來,標誌著人工智慧驅動的醫療進步之路又向前邁進了一步。