Chat-4.0 OpenAI Melampaui Kinerja Manusia dalam Ujian Neurologi

Desember 12, 2023

Model bahasa canggih OpenAI, Chat-4.0, telah membuat langkah maju yang signifikan dalam persimpangan antara kecerdasan buatan dan layanan kesehatan. Dalam studi bukti konsep terbaru, model bahasa besar (LLM) ini berhasil lulus ujian neurologi klinis, menjawab 85% pertanyaan dengan benar. Pencapaian yang mengesankan ini menunjukkan bahwa dengan penyempurnaan lebih lanjut, LLM dapat mengukir ceruk yang signifikan dalam bidang neurologi klinis.

Studi inovatif ini dilakukan oleh tim peneliti yang berasal dari Rumah Sakit Universitas Heidelberg dan Pusat Penelitian Kanker Jerman di Heidelberg. Hasilnya, yang dipublikasikan pada tanggal 7 Desember, menggarisbawahi potensi AI dalam mengubah layanan kesehatan. Tes diberikan kepada Obrolan-4.0 termasuk serangkaian pertanyaan dari Dewan Psikiatri dan Neurologi Amerika, dilengkapi dengan pilihan dari Dewan Neurologi Eropa.

Chat-4.0 mengungguli pendahulunya, Obrolan-3.5, yang menjawab 1,306 dari 1,956 pertanyaan dengan benar, mencapai skor 66.8%. Namun, model yang lebih baru ini menandai sebuah pencapaian dengan menjawab 1,662 pertanyaan dengan benar, yang setara dengan tingkat keberhasilan 85%. Sebagai perbandingan, skor rata-rata manusia mencapai 73.8%, yang menunjukkan bahwa Chat-4.0 melampaui kinerja manusia. Terlebih lagi, dengan 70% sebagai standar kelulusan di bidang akademik, dapat dikatakan bahwa Chat-4.0 berhasil lulus ujian neurologi.

Namun, penelitian ini juga menyoroti area-area di mana model tersebut dapat ditingkatkan. Misalnya, kedua model menunjukkan kinerja yang lebih lemah dalam tugas-tugas yang memerlukan “pemikiran tingkat tinggi” dibandingkan dengan tugas-tugas yang hanya membutuhkan “pemikiran tingkat rendah”. Hal ini menunjukkan bahwa meskipun LLM menjanjikan di bidang neurologi klinis, masih ada ruang untuk perbaikan.

Terlepas dari keterbatasan ini, para peneliti yang terlibat dalam penelitian ini optimis mengenai potensi penerapan LLM dalam neurologi klinis. Varun Venkataramani, salah satu penulis penelitian ini, menjelaskan kepada Cointelegraph, “Kami melihat penelitian kami lebih sebagai bukti konsep kemampuan LLM. Masih diperlukan pengembangan dan bahkan mungkin penyesuaian khusus terhadap LLM agar dapat diterapkan dengan benar pada neurologi klinis.”

Keberhasilan penggunaan AI dalam tugas-tugas penting di bidang kesehatan, seperti penelitian kanker AstraZeneca atau pemberantasan resep antibiotik berlebih di Hong Kong, menggarisbawahi potensi teknologi ini. Keberhasilan Chat-4.0 baru-baru ini dalam lulus ujian neurologi menandakan masa depan yang cerah bagi AI di bidang kesehatan, menandai langkah maju lainnya dalam perjalanan menuju kemajuan medis berbasis AI.