ChatGPT-4 Vision scheitert bei Hautkrebs-Diagnose
18.03.2026 - 00:00:26 | boerse-global.deEine neue Studie zeigt: Das KI-Modell ChatGPT-4 Vision ist für die Diagnose von Hauterkrankungen ungeeignet. Seine Trefferquote liegt weit unter den für den klinischen Einsatz nötigen Werten. Besonders schlecht schneidet die KI bei Patienten mit dunklerer Haut ab.
Die im Fachmagazin „SKIN: The Journal of Cutaneous Medicine“ veröffentlichte Untersuchung dämpft die Euphorie über KI in der Medizin. Sie offenbart gravierende Schwächen bei der rein visuellen Befundung.
So wie KI-Systeme bei der visuellen Diagnose an ihre Grenzen stoßen, können auch komplexe Laborberichte ohne das nötige Fachwissen leicht missverstanden werden. Damit Sie Ihre Blutwerte richtig deuten und Fehldiagnosen vermeiden, bietet dieser kostenlose Ratgeber klare Erklärungen zu TSH, Cholesterin und Co. Laborwerte-Selbstcheck jetzt kostenlos anfordern
Studie deckt eklatante Schwächen auf
Forscher testeten das multimodale KI-Modell mit 150 Bildern der 15 häufigsten stationären Hauterkrankungen. Ein besonderer Fokus lag auf der Fairness: 75 Bilder zeigten hellhäutige, 75 dunkelhäutige Patienten.
Die Aufgabe für die KI war klar: Sie sollte entweder die exakte Hauptdiagnose stellen oder die korrekte Erkrankung unter ihren drei Top-Vorschlägen nennen. So wollten die Wissenschaftler die reine Bilderkennungsleistung ohne textuelle Hilfen bewerten.
Ergebnisse sind klinisch inakzeptabel
Die Auswertung brachte ernüchternde Ergebnisse ans Licht. Bei hellhäutigen Patienten lag die Trefferquote für die Hauptdiagnose bei nur 57,3 Prozent. Noch schlechter schnitt die KI bei dunklerer Haut ab – hier traf sie in lediglich 42,7 Prozent der Fälle richtig.
Selbst bei der großzügigeren Bewertung, bei der die richtige Diagnose unter den drei Top-Vorschlägen stehen musste, blieb die Erfolgsquote unter 75 Prozent. Besonders schwache Leistungen zeigte das System bei komplexen Krankheitsbildern wie kutanen Lymphomen oder Pilzinfektionen.
KI reproduziert Ungleichheiten
Die Leistungslücke zwischen den Hauttypen wirft ein Schlaglicht auf ein Kernproblem medizinischer KI: die Trainingsdaten. Experten gehen davon aus, dass die Datenbanken für Modelle wie ChatGPT-4 Vision überproportional viele Bilder hellhäutiger Menschen enthalten.
Bestimmte Symptome wie Rötungen sind auf dunklerer Haut zudem optisch schwerer zu erkennen. Wird eine KI nicht mit ausreichend vielfältigem Material trainiert, reproduziert sie diese Einschränkungen – und verschärft so womöglich bestehende Ungleichheiten in der Patientenversorgung.
Warum scheitert die visuelle Diagnose?
Die aktuellen Ergebnisse stehen im Kontrast zu früheren Studien mit rein textbasierten KI-Diagnosen. Diese erreichten teils Genauigkeiten von fast 90 Prozent. Der Unterschied erklärt sich aus der Aufgabe: Die visuelle Mustererkennung bei Hautkrankheiten erfordert tiefgreifende klinische Erfahrung.
Diese lässt sich nicht allein aus Textmustern oder allgemeinen Bilddaten ableiten. Multimodale Modelle mögen in der generellen Bilderkennung Meilensteine sein – in der fehlerintoleranten Medizin stecken sie aber noch in den Kinderschuhen.
Assistenz statt Autonomie
Was bedeutet das für die Zukunft? Branchenbeobachter sehen das Potenzial der KI weiterhin, doch der Fokus verschiebt sich. Statt autonomer Diagnosemaschinen werden künftig assistierende Systeme entwickelt.
Diese spezialisierten Modelle werden gezielt mit hochwertigen, diversifizierten medizinischen Bilddaten trainiert. Ihr Einsatzgebiet: Ärzte bei Differentialdiagnosen unterstützen oder schnelle Zweitmeinungen liefern.
Bis solche Systeme klinisch einsatzbereit sind, werden jedoch noch Jahre vergehen. Vorerst bleibt die persönliche ärztliche Expertise der unverzichtbare Goldstandard.
So schätzen die Börsenprofis Aktien ein!
Für. Immer. Kostenlos.

