Menschen, KI-Rat

Menschen zweifeln oft an medizinischem KI-Rat - oft zu Recht

31.07.2024 - 20:00:36

KI-Chatbots wie ChatGPT sind beliebt - ihren medizinischen RatschlĂ€gen wird aber mit Skepsis begegnet, so eine WĂŒrzburger Studie. Das könnte die Zukunft der digitalen Medizin beeinflussen.

  • Studien zu den diagnostischen FĂ€higkeiten von ChatGPT kommen zur widersprĂŒchlichen Ergebnissen. (Symbolbild) - Foto: Hannes P. Albert/dpa

    Hannes P. Albert/dpa

  • Bei Chatbots in der Medizin ist Vorsicht geboten. (Symbolbild) - Foto: Peter Steffen/dpa

    Peter Steffen/dpa

  • KĂŒnstliche Intelligenz kann medizinische Diagnosen stellen - aber stimmen sie? - Foto: Oliver Berg/dpa

    Oliver Berg/dpa

Studien zu den diagnostischen FĂ€higkeiten von ChatGPT kommen zur widersprĂŒchlichen Ergebnissen. (Symbolbild) - Foto: Hannes P. Albert/dpaBei Chatbots in der Medizin ist Vorsicht geboten. (Symbolbild) - Foto: Peter Steffen/dpaKĂŒnstliche Intelligenz kann medizinische Diagnosen stellen - aber stimmen sie? - Foto: Oliver Berg/dpa

Ein unerklĂ€rliches Ziehen im Bauch, ein hartnĂ€ckiger Husten oder ein merkwĂŒrdiger Fleck auf dem Zehennagel: Dass Menschen bei unterschiedlichsten Symptomen Google befragen, ist kein neues PhĂ€nomen – und mit der zunehmenden Beliebtheit von KI-basierten Chatbots wie ChatGPT scheinen die Möglichkeiten zur digitalen Selbstdiagnose weiter gewachsen zu sein. TatsĂ€chlich aber wird der medizinischen Kompetenz einer solchen KĂŒnstlichen Intelligenz noch mit großen Vorbehalten begegnet, zeigt eine WĂŒrzburger Studie, ĂŒber die im Fachblatt «Nature Medicine» berichtet wird.

Wahrnehmung von KI-RatschlÀgen untersucht

Die WĂŒrzburger Wissenschaftler untersuchten die Reaktion von Menschen auf KI-generierte medizinische RatschlĂ€ge. «Uns interessierte nicht die technische Kompetenz der KI, sondern allein die Frage, wie der KI-Output wahrgenommen wird», sagt Moritz Reis von der Julius-Maximilians-UniversitĂ€t.

DafĂŒr teilte das Forschungsteam mehr als 2.000 Probanden in drei Gruppen ein, die identische medizinische RatschlĂ€ge erhielten. Die erste Gruppe bekam gesagt, dass die Empfehlungen von einem Arzt oder einer Ärztin stammten. Bei der zweiten wurde ein KI-basierter Chatbot als Urheber genannt und die dritte Gruppe ging davon aus, dass die RatschlĂ€ge zwar von einem Chatbot stammten, aber nochmal Ă€rztlich ĂŒberprĂŒft wurden.

Die Probanden bewerteten die Empfehlungen auf VerlĂ€sslichkeit, VerstĂ€ndlichkeit und Empathie. Sobald sie vermuteten, dass eine KI beteiligt war, nahmen sie die RatschlĂ€ge als weniger empathisch und verlĂ€sslich wahr. Dies galt auch fĂŒr die Gruppe, die glaubte, dass ein Arzt die KI-Empfehlungen ĂŒberprĂŒft hatte. Entsprechend waren sie weniger bereit, diesen Empfehlungen zu folgen. «Der Effekt der Voreingenommenheit gegen KI ist zwar nicht riesig, aber statistisch signifikant», kommentiert Reis. 

ErklĂ€rungsansĂ€tze fĂŒr KI-Skepsis

Die KI-Skepsis erklÀrt sich der Kognitionspsychologe teilweise mit Stereotypen: «Viele glauben, eine Maschine könne nicht empathisch sein.» Bei der VerstÀndlichkeit bewerteten alle drei Gruppen die RatschlÀge jedoch gleich. 

FĂŒr die Forschungsgruppe ist die festgestellte KI-Skepsis wichtig, da KI in der Medizin eine immer wichtigere Rolle spiele. So werden derzeit zahlreiche Studien zu neuen KI-Anwendungsmöglichkeiten veröffentlicht. Umso bedeutsamer sei die öffentliche Akzeptanz, sagt Reis: «Bei der Frage nach dem kĂŒnftigen Einsatz von KI in der Medizin geht es nicht nur um das technisch Mögliche, sondern auch darum, wie weit Patientinnen und Patienten mitgehen.» AufklĂ€rung ĂŒber entsprechende Anwendungen und KI generell sei nötig. «DarĂŒber hinaus haben andere Studien gezeigt, wie wichtig es fĂŒr das Patientenvertrauen ist, dass am Ende immer der menschliche Arzt oder Ärztin gemeinsam mit den Patienten die finale Entscheidungsgewalt hat», betont Reis.

Transparenz als SchlĂŒsselfaktor

FĂŒr besonders relevant hĂ€lt der Wissenschaftler Transparenz: «Das bedeutet zum Beispiel, dass eine KI nicht nur eine Diagnose stellt, sondern auch nachvollziehbar erklĂ€rt, welche Informationen zu diesem Ergebnis gefĂŒhrt haben.»

Die QualitĂ€t dieser Ergebnisse wird bereits seit lĂ€ngerem wissenschaftlich untersucht - mit unterschiedlichen Erfolgen. So attestierte etwa eine 2023 im «Journal of Medical Internet Research» ChatGPT eine hohe Diagnosegenauigkeit: Getestet mit 36 Fallbeispielen stellte der Chatbot in fast 77 Prozent der FĂ€lle die korrekte endgĂŒltige Diagnose. In Notaufnahmen reichte die Diagnosekompetenz einer niederlĂ€ndischen Studie zufolge gar an die von Ärzten heran. Ausgestattet mit den anonymisierten Daten von 30 Patienten, die in einer niederlĂ€ndischen Erste-Hilfe-Stelle behandelt worden waren, stellte ChatGPT in 97 Prozent der FĂ€lle die richtige Diagnose (Annals of Emergency Medicine, 2023).

Im Gegensatz dazu stellte eine 2023 im Fachblatt «Jama» veröffentlichte Studie fest, dass der Chatbot bei 70 medizinischen Fallbeispielen nur 27 FÀlle richtig diagnostizierte. Das sind gerade einmal 39 Prozent. Eine im Journal «Jama Pediatrics» prÀsentierte Studie kam zu dem Schluss, dass diese Trefferquote bei Krankheiten, die in erster Linie Kinder betreffen, noch schlechter ist. 

ChatGPT in der medizinischen Ausbildung

Eine aktuelle im Fachblatt «Plos One» veröffentlichte Studie hat nun untersucht, ob ChatGPT in der medizinischen Ausbildung von Nutzen sein könnte. Schließlich greife der Chatbot nicht nur auf eine riesige Wissensbasis zurĂŒck, sondern sei auch in der Lage, dieses Wissen interaktiv und verstĂ€ndlich zu vermitteln, so das Forschungsteam des kanadischen London Health Sciences Centre.

Die Gruppe fĂŒtterte ChatGPT mit 150 sogenannten Fallherausforderungen aus einer Datenbank mit medizinischen Fallgeschichten, in denen Symptome und Krankheitsverlauf beschrieben werden. Sowohl angehende als auch bereits im Beruf stehende Medizinerinnen und Mediziner sind aufgefordert, in einem Antwort-Wahl-Verfahren eine Diagnose zu stellen und einen Behandlungsplan zu entwickeln. 

ChatGPT lag bei diesem Test in gerade einmal knapp der HĂ€lfte der FĂ€lle (74 von 150) richtig. Die Studie stellte fest, dass ChatGPT Schwierigkeiten bei der Interpretation von Laborwerten und bildgebenden Verfahren hat und wichtige Informationen ĂŒbersehe. Entsprechend kommen die Autoren zu dem Schluss, dass ChatGPT in seiner derzeitigen Form als Diagnoseinstrument nicht genau sei und bei der Verwendung des Chatbots als Diagnosewerkzeug wie auch als Lehrmittel unbedingt Vorsicht geboten sei.

«Die Kombination aus hoher Relevanz und relativ geringer Genauigkeit spricht dagegen, sich bei der medizinischen Beratung auf ChatGPT zu verlassen, da es wichtige Informationen prĂ€sentieren kann, die möglicherweise irrefĂŒhrend sind», heißt es dazu in der Studie – eine Warnung, die höchstwahrscheinlich ebenso fĂŒr medizinische Laien gilt, die den Chatbot fĂŒr digitale Selbstdiagnosen nutzen.

ChatGPTs eigene EinschÀtzung

ChatGPT selbst betont, dafĂŒr nicht geeignet zu sein. Befragt nach seiner diagnostischen Qualifikation antwortet der Bot: «Ich bin kein Arzt und habe keine medizinische Ausbildung. Ich kann Informationen ĂŒber medizinische Themen bereitstellen, allgemeine RatschlĂ€ge geben und Fragen beantworten, aber ich kann keine medizinischen Diagnosen stellen oder professionelle medizinische Beratung bieten. Bei gesundheitlichen Problemen oder Fragen solltest Du immer einen Arzt oder einen qualifizierten Gesundheitsdienstleister konsultieren.»

 

@ dpa.de