ChatGPT Toont 72% diagnostische nauwkeurigheid bij klinische besluitvorming

Augustus 30, 2023

In de snel evoluerende wereld van de medische technologie is kunstmatige intelligentie (AI) naar voren gekomen als een controversieel maar veelbelovend instrument. De toepassing van AI in complexe medische scenario’s heeft geleid tot veel discussie onder zorgprofessionals. Een recent onderzoek naar het vermogen van AI om te helpen bij de klinische besluitvorming heeft deze discussie scherper in beeld gebracht.

Uitgevoerd door onderzoekers van Massa Generaal BrighamIn de studie werden de prestaties van OpenAI's Chat bij het diagnosticeren van medische aandoeningen geëvalueerd op basis van praktijkvoorbeelden. Verrassend genoeg behaalde Chat een succespercentage van 72% bij klinische besluitvorming, wat wijst op de potentie ervan als ondersteunend hulpmiddel bij medische diagnose.

Nu zorgsystemen wereldwijd worstelen met toenemende kosten en complexiteit, zou AI een oplossing kunnen bieden om de efficiëntie en nauwkeurigheid van diagnostiek te verbeteren. Aangezien de gezondheidszorg in 2021 goed was voor ongeveer 18% van het Amerikaanse bbp, bijna het dubbele van het gemiddelde in geavanceerde economieën, is de behoefte aan effectievere diagnostische methoden evident. AI-tools zoals Chat zouden de zorgsector potentieel kunnen revolutioneren en diagnostiek sneller, nauwkeuriger en kosteneffectiever kunnen maken.

De studie was een van de eerste die de mogelijkheden van grote taalmodellen in een breed spectrum van klinische zorg beoordeelde. De prestaties van Chat werden geëvalueerd vanaf de eerste patiëntinteractie tot en met het zorgmanagement na de diagnose. Het AI-model had een succespercentage van 77% bij de uiteindelijke diagnose, maar een lager succespercentage van 60% bij differentiële diagnose, waarbij alle mogelijke aandoeningen worden begrepen die een reeks symptomen kunnen aangeven.

Hoewel de resultaten veelbelovend zijn, is het essentieel op te merken dat de effectiviteit van AI-toepassingen in klinische omgevingen in de praktijk aanzienlijk kan verschillen van die in gecontroleerde onderzoeksomgevingen. Critici beweren dat veel AI-onderzoeken niet gebaseerd zijn op daadwerkelijke klinische behoeften en vaak voorbijgaan aan de praktische uitdagingen van de implementatie van AI in de praktijk van de gezondheidszorg, zoals het risico van wanpraktijken.

Marc Succi, uitvoerend directeur van de innovatie-incubator van Mass General Brigham en co-auteur van het rapport, erkent deze leemte. Hij wijst erop dat hoewel AI een groot potentieel heeft in de patiëntenzorg in een vroeg stadium wanneer de informatie beperkt is, er aanzienlijke verbeteringen in de differentiële diagnose nodig zijn voordat het volledig in het gezondheidszorgsysteem kan worden geïntegreerd.

Succi vergelijkt de huidige mogelijkheden van Chat met die van een pas afgestudeerde arts. Zonder gevestigde benchmarks voor succespercentages onder artsen op verschillende niveaus van anciënniteit is het echter lastig om de waarde die AI toevoegt aan het werk van een arts te kwantificeren.

Met het oog op de toekomst pleit Succi voor meer benchmarkonderzoek, regelgeving en verbeteringen in de slagingspercentages van diagnostische systemen. Hij is van mening dat dit cruciaal is om de implementatie van AI-modellen zoals Chat in ziekenhuizen te vergemakkelijken. De rol van AI in de gezondheidszorg is nog steeds in ontwikkeling, en hoewel de prestaties van Chat opmerkelijk zijn, is het duidelijk dat we nog maar aan het begin staan ​​van hoe AI kan worden ingezet om de gezondheidszorg te transformeren.