מודל השפה המתוחכם של OpenAI, Chat-4.0, עשה צעד משמעותי קדימה בצומת שבין בינה מלאכותית ובריאות. במחקר הוכחת היתכנות שנערך לאחרונה, מודל שפה גדול זה (LLM) עבר בהצלחה מבחן נוירולוגיה קלינית, וענה נכון על 85% מהשאלות. הישג מרשים זה מצביע על כך שעם שיפורים נוספים, תואר שני במשפטים יוכל ליצור לעצמו נישה משמעותית בתחום הנוירולוגיה הקלינית.
המחקר פורץ הדרך נערך על ידי צוות חוקרים מבית החולים האוניברסיטאי היידלברג ומהמרכז הגרמני לחקר הסרטן בהיידלברג. התוצאות, שפורסמו ב-7 בדצמבר, מדגישות את הפוטנציאל של AI בעיצוב מחדש של שירותי הבריאות. הבדיקה שנעשתה ל צ'אט-4.0 כללה סט שאלות מהמועצה האמריקאית לפסיכיאטריה ונוירולוגיה, בתוספת מבחר מהמועצה האירופית לנוירולוגיה.
צ'אט-4.0 עלה על קודמו, צ'אט-3.5, אשר ענה נכון על 1,306 מתוך 1,956 שאלות, והשיג ציון של 66.8%. הדגם החדש יותר, לעומת זאת, ציין הישג בכך שענה נכון על 1,662 שאלות, מה שמסתכם בשיעור הצלחה של 85%. לשם השוואה, הציון האנושי הממוצע עומד על 73.8%, דבר המצביע על כך ש-Chat-4.0 עלה על הביצועים האנושיים. יתר על כן, מכיוון ש-70% הוא ציון המעבר הסטנדרטי באקדמיה, ניתן לומר בבטחה ש-Chat-4.0 עבר בהצלחה את בחינת הנוירולוגיה.
עם זאת, המחקר הדגיש גם תחומים שבהם המודלים יכולים להשתפר. לדוגמה, שני המודלים הדגימו ביצועים חלשים יותר במשימות הדורשות "חשיבה מסדר גבוה" בהשוואה לאלו הזקוקות רק ל"חשיבה מסדר נמוך". זה מצביע על כך שבעוד ש-LLMs מראים הבטחה בתחום הנוירולוגיה הקלינית, עדיין יש מקום לשיפור.
למרות מגבלות אלו, החוקרים המעורבים במחקר אופטימיים לגבי היישומים הפוטנציאליים של LLMs בנוירולוגיה קלינית. ד"ר Varun Venkataramani, אחד ממחברי המחקר, הסביר לקוינטלגרף, "אנו רואים במחקר שלנו יותר הוכחה ליכולות של LLMs. עדיין יש צורך בפיתוח וכנראה אפילו כוונון ספציפי של LLMs כדי להפוך אותם לישימים כראוי לנוירולוגיה קלינית.
השימוש המוצלח בבינה מלאכותית במשימות משמעותיות בתחום הבריאות, כמו מחקר הסרטן של אסטרהזניקה או המאבק ברישום יתר של אנטיביוטיקה בהונג קונג, מדגיש את הפוטנציאל של טכנולוגיה זו. ההישג האחרון של Chat-4.0 במעבר מבחן נוירולוגיה מאותת על עתיד מרגש עבור בינה מלאכותית בתחום הבריאות, ומסמן צעד נוסף קדימה במסע לעבר התקדמות רפואית המונעת על ידי בינה מלאכותית.