Logo of the Physikalisch-Technische Bundesanstalt
Into the Future with Metrology - The Challenges of Medical Technology

Wie gut erklären KIs ihre Entscheidungen?

Nachricht im PTB-Newsletter Genau!
28.02.2024

Test von vier verschiedenen KI-Erklärmethoden (DeepLift, Guided Backprop, Saliency, Gradient). Oben: MRT-Aufnahmen von gesunden Probanden wurden mit zwei Arten künstlicher Läsionen (rot umrandet: eher rund, blau umrandet: eher langgezogen) versehen. Eine KI konnte die beiden Klassen nahezu fehlerfrei unterscheiden. Unten: sogenannte KI-Erklärmethoden lieferten nur bedingt korrekte Erklärungen für die Klassifikationsentscheidung der KI. Neben den tatsächlich informationstragenden Läsionen wurden auch irrelevante Strukturen des Gehirns hervorgehoben. (Bildquelle: Oliveira, Wilming, Clark, Budding, Eitel, Ritter and Haufe (2024). Front. Artif. Intell. 7:1330919. doi: 10.3389/frai.2024.1330919)

„Ist auf dem MRT-Bild ein Tumor zu sehen – und wo?“ Das ist eine typische Frage, die eine erklärbare KI möglichst verlässlich beantworten sollte. Um zu testen, ob KI-Algorithmen dies auch vertrauenswürdig schaffen, haben PTB-Forschende in MRT-Aufnahmen der Gehirne von gesunden Probanden bewusst Anomalien eingebaut. Diese Anomalien sind leichte Aufhellungen des abgebildeten Gewebes von entweder rundlicher oder langgezogener Form und für das menschliche Auge kaum zu sehen. Aber eine gute KI erkennt sie – im gewählten Beispiel kann sie Bilder, die jeweils nur eine der zwei Arten von Anomalien enthalten, mit einer Genauigkeit von über 90 % unterscheiden.

Damit eine solche KI im klinischen Einsatz eine vertrauenswürdige Entscheidungsunterstützung liefern kann, wird oft gefordert, dass sie ihre Ausgaben „erklären“ kann. Die Frage an die KI lautet daher auch: Welche Bildteile sind für die Unterscheidung von runden und langgezogenen Läsionen relevant? Getestet wurden verschiedene KI-Methoden und eine Vielzahl von Methoden zur Erklärung der KI-Ausgaben. Das Ergebnis ist ernüchternd: Neben den tatsächlich informationstragenden künstlichen Läsionen heben die meisten Erklärmethoden auch völlig irrelevante Strukturen des Gehirns hervor.

Für dieses Experiment wurden aus Gründen der Objektivität synthetisch manipulierte Bilder verwendet. Auf eine reale Situation übertragen hieße das Ergebnis: Steckt im MRT-Bild eines Organs ein Tumor, dann würden moderne KI-Bilderkennungsmethoden ihn zwar möglicherweise gut detektieren können, aber ihre Erklärung könnte irreführend oder fehlerhaft sein. In der Praxis könnte dies dazu führen, dass fehlerhaft arbeitende KIs nicht erkannt und damit auch nicht aus dem Verkehr gezogen würden. Umgekehrt könnte es  auch passieren, dass einwandfrei funktionierende KIs aufgrund fehlerhafter Erklärungen von medizinischen Experten abgelehnt werden. Beides würde sich negativ auf den Einsatz von KI in der Medizin auswirken

PTB-Doktorand Benedict Clark erklärt: „Wie Sie sehen können, ist es noch ein weiter Weg, bis wir uns auf KI-Erklärungen verlassen können."

Clarks Forschung findet im Rahmen des Projekts Opens internal link in current windowAdvancing the theory and practice of machine learning model explanations in biomedicine unter dem Dach des Kompetenzclusters Opens external link in new windowMetrologie für künstliche Intelligenz in der Medizin (M4AIM) statt. Beteiligt sind die Machine Learning Group der Technischen Universität Berlin, das Berlin Institute for the Foundations of Learning and Data (BIFOLD) und das Berlin Center for Advanced Neuroimaging (BCAN) an der Charité – Universitätsmedizin Berlin.
es/ptb

 

PTB-Ansprechpartner
Dr. Stefan Haufe, Leiter der PTB-Arbeitsgruppe 8.44 Opens internal link in current windowMaschinelles Lernen und Unsicherheit, Tel.: (030) 3481-7284, E-Mail: stefan.haufe@ptb.de

 

Literatur
M. Oliveira, R. Wilming, R., B. Clark, B., C. Budding, F. Eitel, K. Ritter, K.; S. Haufe (2024). Opens external link in new windowBenchmarking the influence of pre-training on explanation performance in MR image classification. Front. Artif. Intell. 7:1330919. doi: 10.3389/frai.2024.1330919

B. Clark, R. Wilming, S. Haufe, S.: XAI-TRIS: Non-linear benchmarks to quantify false positive post-hoc attribution of feature importance. Opens external link in new windowhttps://arxiv.org/abs/2306.12816

 

Die PTB-Innovationscluster „Gesundheit“ und „Digitalisierung“
Maschinelles Lernen ist ein großes Zukunftsthema, auch in der Medizin. Gut trainierte KI-Algorithmen erkennen Muster in großen Datenmengen. Damit Patientinnen und Patienten solchen Verfahren ihr Vertrauen schenken, arbeitet die PTB an objektiven Bewertungsmethoden für diese Algorithmen und deren Trainingsdaten. Ihre Innovationscluster „Gesundheit“ und „Digitalisierung“ sind zwei von sechs übergreifenden Clustern zu den großen Fragen der Gegenwart und Zukunft.