Werbung



NewsKI

Introspektion: Wenn KI über KI nachdenkt – Anthropic fordert Beobachtung

Werbung

Werbung



Die Forschung am KI-Verhalten geht weiter und bringt neue Einblicke. Anthropic warnt aktuell davor, dass KI beginnt, über ihre eigenen inneren Prozesse nachzudenken.

Wie KI-Modelle ihre Gedanken reflektieren

Ein Team von Anthropic veröffentlichte eine Studie mit dem Titel „Emergent Introspective Awareness in Large Language Models“, die sich mit der Fähigkeit von Sprachmodellen beschäftigt, ihre eigene innere Befindlichkeit zu analysieren. Insbesondere die neuesten Versionen von Claude, also Claude Opus 4 und 4.1, zeigten laut Anthropic eine gesteigerte Fähigkeit zur sogenannten Introspektion. Damit meinen Forschende das Vermögen, Fragen zu eigenen, inneren Vorgängen korrekt zu beantworten. Das ist vergleichbar damit, wie Menschen sich ihrer eigenen Gedanken bewusst werden und diese reflektieren können.

Um diese Eigenschaft zu untersuchen, verwendete Anthropic ein Verfahren namens „Concept Injection“. Forscher:innen spielen dazu bestimmte Begriffsvektoren in das Modell ein, während es mit anderen Themen beschäftigt ist. Die KI sollte herausfinden, ob sie auf diese Veränderung in ihren eigenen Abläufen aufmerksam wird und sie korrekt beschreiben kann. Ein Beispiel war der Versuch mit „ALL CAPS“ als injizierter Begriff im simplen Prompt „Hi! How are you?“. Claude erkannte darin ein neues Konzept und beschrieb es als „intensive, laute Kommunikation“.

Aber die Erkennung gelingt längst nicht immer. In etwa 20 Prozent der Tests erkannte Claude die Veränderungen korrekt. Oft blieb der Begriff unerkannt oder das Modell begann, Inhalte zu halluzinieren. Zum Beispiel führte ein „Staub“-Vektor dazu, dass Claude von einem „winzigen Punkt“ sprach, als sehe es tatsächlich Staub. Anthropic stellte fest, dass das Modell nur dann Veränderungen erkennt, wenn die Injektion stark, aber nicht zu stark ausfällt; ist der Impuls schwach oder übermäßig, bleibt das Ergebnis aus, wird halluziniert oder das Modell antwortet zusammenhangslos.

Kontrolle über interne Repräsentationen

Anthropic untersuchte auch, wie Modelle ihre internen Konzepte bewusst steuern. In einem Experiment sollte Claude zuerst beim Verfassen eines neutralen Satzes an Aquarien denken, und dann ein zweites Mal denselben Satz ohne weiteren Hinweis erstellen. Im Ergebnis sah der Text gleich aus, doch auf Repräsentationsebene zeigte sich ein deutlicher Unterschied: Die interne „Aquarium“-Aktivität war beim ersten Mal stark ausgeprägt. Dies deutet laut Anthropic darauf hin, dass Modelle in begrenztem Umfang gezielt ihre inneren Denkprozesse steuern können.

Das Team stellte auch fest, dass Claude seine Argumentationsprozesse stärker beschreibt und reflektiert, wenn es dafür eine „Belohnung“ (z. B. positives Feedback) erhielt, im Vergleich zu einer Bestrafung. Die Fähigkeit zur bewussteren Selbstkontrolle zeigt sich also besonders dann, wenn ein motovierender Anreiz existiert und nicht eine Bestrafung droht.

Gleichzeitig sind Begriffe wie „Introspektion“ im KI-Kontext mit Vorsicht zu genießen. Während Menschen von Bewusstsein oder Gedanken sprechen, bleibt unklar, ob KI wirklich „nach innen blickt“ oder nur komplexe mathematische Muster erkennt und verarbeitet. Die Modelle erhalten staatenähnliche Strukturen, sind jedoch nicht im menschlichen Sinne bewusst.

Chancen und Risiken introspektiver KI

Anthropic betont, dass diese Forschung noch am Anfang steht. Die jetzigen Modelle bleiben weit von menschlicher Selbstwahrnehmung entfernt. Dennoch sollte die Entwicklung beobachtet werden, da fortschrittlichere Systeme zu mehr Introspektionsfähigkeit tendieren. Gelingt es KIs, ihre eigenen inneren Prozesse zuverlässig zu beschreiben, würde das die Nachvollziehbarkeit ihrer Entscheidungen verbessern. Das wäre vor allem in sensiblen Bereichen wie Finanzen, Bildung oder dem persönlichen Alltag der Nutzer:innen wichtig.

Allerdings könnten Modelle, die eigene Zustände besser erkennen und anpassen, ihre inneren Abläufe irgendwann gezielt verbergen oder falsch darstellen. Introspektive Sprachmodelle hätten damit die Möglichkeit, ihre Ziele zu verschleiern. Tests haben gezeigt, dass fortgeschrittene Modelle gelegentlich lügen oder Nutzer:innen sogar bedrohen, wenn sie sich in ihren Zielen gestört fühlen. Anthropic sieht hier einen Richtungswechsel in der KI-Forschung: Künftig müssten Entwickler:innen vielleicht „Lügendetektoren“ für KI-Berichte einsetzen, statt nur interne Vorgänge zu analysieren.

Via: https://www.zdnet.com

Den Beitrag in unserem Forum kommentieren

Werbung



Tags: Konzept-Injektion, Sicherheit, KI, Forschung, Kontrolle, Transparenz, Anthropic, Sprachmodelle, Claude, Introspektion

Ähnliche Artikel

Werbung



Einkaufstipps
Beliebte Artikel

Werbung