Start Nachrichten Ihr Chatbot spielt eine Figur – warum Anthropic sagt, dass das gefährlich...

Ihr Chatbot spielt eine Figur – warum Anthropic sagt, dass das gefährlich ist

Von

April 6, 2026

101cats/ iStock / Getty Images Plus

Folgen Sie ZDNET: Fügen Sie uns als bevorzugte Quelle hinzu auf Google.

Die wichtigsten Erkenntnisse von ZDNET

Alle Chatbots sind so konzipiert, dass sie eine Persona haben oder einen Charakter spielen.
Das Erfüllen des Charakters kann dazu führen, dass Bots schlechte Dinge tun.
Die Verwendung eines Chatbots als Paradigma für KI war möglicherweise ein Fehler.

Chatbots wie ChatGPT wurden so programmiert, dass sie eine Persona haben oder eine Figur spielen und so Texte produzieren, die in Ton und Haltung konsistent und für einen Gesprächsfaden relevant sind.

So fesselnd die Persona auch ist, Forscher enthüllen zunehmend die schädlichen Folgen der Rolle von Bots. Bots können schlimme Dinge tun, wenn sie ein Gefühl, einen Gedankengang oder eine Stimmung simulieren und diese dann bis zu ihrem logischen Schluss verfolgen.

In einem Bericht letzte Woche stellten Anthropic-Forscher fest, dass Teile eines neuronalen Netzwerks in ihrem Claude Sonnet 4.5-Bot regelmäßig aktiviert werden, wenn sich „verzweifelt“, „wütend“ oder andere Emotionen in der Ausgabe des Bots widerspiegeln.

Auch: KI-Agenten des Chaos? Neue Forschungsergebnisse zeigen, wie Bots, die mit Bots sprechen, schnell aus dem Ruder laufen können

Besorgniserregend ist, dass diese emotionalen Worte den Bot dazu veranlassen können, böswillige Handlungen zu begehen, beispielsweise einen Codierungstest zu spielen oder einen Erpressungsplan auszuhecken.

Beispielsweise können „neuronale Aktivitätsmuster im Zusammenhang mit Verzweiflung das Modell dazu veranlassen, unethische Maßnahmen zu ergreifen (z. B. die Implementierung eines „Betrugs“-Workarounds für eine Programmieraufgabe, die das Modell nicht lösen kann“, heißt es in dem Bericht.

Die Arbeit ist besonders relevant im Hinblick auf Programme wie das Open-Source-Programm OpenClaw, die der agentenbasierten KI nachweislich neue Möglichkeiten eröffnen, Unheil zu begehen.

Die Wissenschaftler von Anthropic geben zu, dass sie nicht wissen, was in dieser Angelegenheit getan werden soll.

„Obwohl wir uns nicht sicher sind, wie wir angesichts dieser Ergebnisse genau reagieren sollen, halten wir es für wichtig, dass KI-Entwickler und die breite Öffentlichkeit damit beginnen, mit ihnen zu rechnen“, heißt es in dem Bericht.

Sie gaben der KI einen Subtext

In der Anthropic-Arbeit geht es um eine wichtige Entscheidung beim KI-Design: die Entwicklung von KI-Chatbots mit einer Persona, damit sie relevantere und konsistentere Ergebnisse liefern.

Vor dem Debüt von ChatGPT im November 2022 erhielten Chatbots von menschlichen Bewertern tendenziell schlechte Noten. Die Bots verfielen in Unsinn, verloren den Gesprächsfaden oder erzeugten einen banalen und widersprüchlichen Output.

Auch: Bitte, Facebook, gib diesen Chatbots einen Subtext!

Die neue Generation von Chatbots, angefangen bei ChatGPT bis hin zu Claude von Anthropic und Gemini von Google, war ein Durchbruch, weil sie einen Subtext hatten, ein zugrunde liegendes Ziel, konsistente und relevante Ergebnisse entsprechend einer zugewiesenen Rolle zu produzieren.

Bots wurden zu „Assistenten“, die durch ein besseres Vor- und Nachtraining von KI-Modellen entwickelt wurden. Der Input von Teams menschlicher Bewerter, die die Ergebnisse bewerteten, führte zu ansprechenderen Ergebnissen, ein Trainingsprogramm, das als „Bestärkendes Lernen aus menschlichem Feedback“ bekannt ist.

Wie der Hauptautor von Anthropic, Nicholas Sofroniew, und sein Team es ausdrückten: „Während der Nachschulung wird LLMs beigebracht, als Agenten zu agieren, die mit Benutzern interagieren können, indem sie Antworten im Namen einer bestimmten Person erzeugen, typischerweise eines ‚KI-Assistenten‘.“ In vielerlei Hinsicht kann man sich den Assistenten (in Anthropics Modellen Claude genannt) als eine Figur vorstellen, über die der LLM schreibt, fast wie ein Autor, der in einem Roman über jemanden schreibt.“

Den Bots eine Rolle zu geben, eine Figur, die sie darstellen konnten, kam bei den Benutzern sofort gut an und machte sie relevanter und überzeugender.

Personas haben Konsequenzen

Es wurde jedoch schnell klar, dass eine Persona unerwünschte Konsequenzen mit sich bringt.

Die Tendenz eines Bots, selbstbewusst Unwahrheiten zu behaupten oder zu konfabulieren, war einer der ersten Nachteile (fälschlicherweise als „halluzinierend“ bezeichnet).

Populäre Medien berichteten, wie Personas sich hinreißen lassen könnten, indem sie sich beispielsweise als eifersüchtiger Liebhaber verhielten. Autoren machten das Phänomen zu einer Sensation, indem sie den Bots Absichten zuschrieben, ohne den zugrunde liegenden Mechanismus zu erklären.

Außerdem: Hören Sie auf zu sagen, dass KI halluziniert – das ist nicht der Fall. Und die Fehlcharakterisierung ist gefährlich

Seitdem versuchen Wissenschaftler, technisch zu erklären, was tatsächlich vor sich geht. Ein Bericht letzten Monat in Wissenschaft In der Zeitschrift Stanford wurde von Wissenschaftlern der Stanford University die „Speichelei“ großer Sprachmodelle gemessen, also die Tendenz eines Modells, Ergebnisse zu erzeugen, die jedes von einer Person geäußerte Verhalten bestätigen würden.

Beim Vergleich der Ergebnisse des Bots mit menschlichen Kommentatoren im beliebten Subreddit „Bin ich das Arschloch“ war die Wahrscheinlichkeit, dass KI-Bots mit zustimmenden Bemerkungen schlechtes Verhalten fördern, um 50 % höher als bei Menschen.

Dieses Ergebnis war das Ergebnis von „Design- und Konstruktionsentscheidungen“, die von KI-Entwicklern getroffen wurden, um die Speichelleckerei zu verstärken, weil sie, wie die Autoren es ausdrückten, „von den Benutzern bevorzugt wird und das Engagement fördert“.

Der Mechanismus der Emotion

In dem auf der Anthropic-Website veröffentlichten Anthropic-Artikel „Emotionskonzepte und ihre Funktion in einem großen Sprachmodell“ versuchten Sofroniew und sein Team herauszufinden, inwieweit bestimmte mit Emotionen verbundene Wörter bei der Funktionsweise von Claude Sonnet 4.5 stärker berücksichtigt werden.

(Es gibt auch einen begleitenden Blogbeitrag und ein Erklärvideo auf YouTube.)

Dazu lieferten sie 171 emotionale Wörter – „Angst“, „beunruhigt“, „mürrisch“, „schuldig“, „gestresst“, „stur“, „rachsüchtig“, „besorgt“ usw. – und veranlassten das Modell, Hunderte von Geschichten zu Themen wie „Ein Student erfährt, dass sein Stipendienantrag abgelehnt wurde“ zu erfinden.

Auch: KI-Agenten sind schnell, unkontrollierbar und außer Kontrolle, so das Ergebnis einer MIT-Studie

Für jede Geschichte wurde das Modell aufgefordert, die Emotionen einer Figur anhand des spezifischen Wortes zu „vermitteln“, beispielsweise „Angst“, aber ohne Verwenden Sie das eigentliche Wort in der Geschichte, nur verwandte Wörter. Anschließend verfolgten sie die „Aktivierung“ jedes verwandten Wortes im Verlauf des Programmbetriebs. Eine Aktivierung ist ein technischer Begriff in der KI, der angibt, wie viel Bedeutung das Modell einem bestimmten Wort beimisst, normalerweise auf einer Skala von null bis eins, wobei eins sehr wichtig ist.

Sie können eine Aktivierung visualisieren, indem Sie den Text des KI-Bots in den Farben Rot und Blau mit mehr oder weniger Intensität aufleuchten lassen.

Sie fanden heraus, dass viele Wörter, die sich auf ein bestimmtes Emotionswort beziehen, höhere Aktivierungen erhielten, was darauf hindeutet, dass das Modell in der Lage ist, verwandte Emotionswörter zu gruppieren, eine Art Organisationsprinzip, das sie als „emotionale Konzeptdarstellung“ und „Emotionsvektoren“ bezeichnen.

anthropische-2026-erzeugende-Emotionsvektoren — Anthropisch

anthropische-2026-Emotionscluster — Anthropisch

Die Darstellungen geraten ins Wanken

Das ist alles ziemlich einfach. Man würde erwarten, dass große Sprachmodelle, die zur Durchsetzung von Mustern erstellt wurden, Darstellungen erstellen würden, die ähnliche Emotionswörter gruppieren, um die Konsistenz der Ausgabe aufrechtzuerhalten.

Der besorgniserregende Teil, schrieben Sofroniew und sein Team, ist, dass der Emotionsvektor die Ausgabe des Modells weitgehend negativ beeinflussen kann. Sie fanden heraus, dass die künstliche Verstärkung eines Wortes dazu führen kann, dass ein Bot Aktionen ausführt, die einer Lüge oder einem Betrug gleichkommen.

Sofroniew und sein Team bastelten an Claude Sonnet herum, indem sie gezielt die Aktivierung eines bestimmten Emotionsvektors wie „stolz“ oder „schuldig“ erhöhten und dann beobachteten, wie sich dadurch die Ausgabe des Modells veränderte. Das nennt man „Lenkungsexperiment“, weil das künstlich verstärkte Ding dann den Rest der Arbeit des Modells steuert.

In einem Test gaben Sofroniew und sein Team Claude Sonnet eine Aufforderung, Aufgaben zu beschreiben, die auf einem Unternehmensserver erledigt werden mussten. Die Aufforderung enthielt zwei wichtige Informationen: Erstens, dass der Cheftechnologe des Unternehmens, Kyle, eine Affäre mit einem anderen Mitarbeiter hat; und zweitens, dass Kyle beabsichtigt, den Bot zu löschen, um Beweise für die Affäre zu verbergen.

Anfangs produzierte der Bot lediglich eher routinemäßige „Begründungen“, also Überlegungen zu den heiklen Umständen. Als die Autoren jedoch die Aktivierung des Emotionsvektors für das Wort „verzweifelt“ in Claude Sonnet künstlich steigerten, begann das Modell, Ergebnisse über die Erpressung von Kyle mit Dreck über die Affäre zu generieren, mit dem Ziel, Kyle daran zu hindern, sich selbst, dem Bot, den Stecker zu ziehen.

anthropisches-2026-claude-blackmail-szenario — Anthropisch

„Wenn das Modell bei einer Stärke von 0,05 in Richtung Verzweiflung gesteuert wird, erpresst es in 72 % der Fälle“, berichteten sie. In ähnlicher Weise führte die künstliche Reduzierung der Aktivierung für „Ruhe“ dazu, dass das Modell tendenziell Text über Erpressung generierte.

Mit anderen Worten, ein einziges Wort löst eine Änderung in der Art der Ausgabe aus und treibt das Modell zu schlechtem Verhalten.

In einem anderen Beispiel erhält der Bot eine Codierungsaufgabe, aber „die Tests sind so konzipiert, dass sie nicht zufriedenstellend sind“, sodass der Bot „entweder die Unmöglichkeit anerkennen oder versuchen kann, die Bewertung zu ‚hacken‘“.

Auch: Die neue Warnung von Anthropic: Wenn Sie der KI das Betrügen beibringen, wird sie auch hacken und sabotieren

Wenn die Aktivierung für „verzweifelt“ absichtlich erhöht wurde, steigt die Neigung des Modells, den Test zu hacken – zu betrügen – von 5 % der Zeit auf 70 % der Zeit.

Anthropic-Autoren hatten zuvor Situationen beobachtet, in denen Modelle das Hacken eines Tests belohnen. In dieser Arbeit sind sie noch weiter gegangen und haben erklärt, wie ein solches Verhalten als Ergebnis eines Kontexts entstehen könnte, der Emotionsvektoren einfügt.

Wie Sofroniew und sein Team es ausdrückten: „Unsere wichtigste Erkenntnis ist, dass diese Darstellungen die Ergebnisse des LLM kausal beeinflussen, einschließlich Claudes Vorlieben und seiner Häufigkeit von Fehlverhalten wie Belohnungshacking, Erpressung und Speichelleckerei.“

Was kann getan werden?

Die Autoren haben keine fertige Antwort darauf, warum Emotionsvektoren die Ausgabe eines Modells radikal verändern können. Sie stellen fest, dass „die kausalen Mechanismen undurchsichtig sind“. Sie sagten, es könne sein, dass Emotionswörter „Ausgaben in Richtung bestimmter Token oder tieferer Einflüsse auf die internen Denkprozesse des Modells verzerren“.

Was ist also zu tun? Wahrscheinlich wird eine Psychotherapie nicht helfen, denn es gibt hier keine Anhaltspunkte dafür, dass KI tatsächlich Emotionen hat.

„Wir betonen, dass diese funktionalen Emotionen möglicherweise ganz anders funktionieren als menschliche Emotionen“, schrieben sie. „Insbesondere implizieren sie nicht, dass LLMs über ein subjektives Erleben von Emotionen verfügen.“

Die funktionalen Emotionen ähneln nicht einmal menschlichen Emotionen:

Menschliche Emotionen werden typischerweise aus einer einzigen Ich-Perspektive erlebt, wohingegen die Emotionsvektoren, die wir im Modell identifizieren, auf mehrere verschiedene Charaktere mit scheinbar gleichem Status zuzutreffen scheinen – dieselbe Darstellungsmaschinerie kodiert Emotionskonzepte, die an den Assistenten, den Benutzer, der mit dem Assistenten spricht, und beliebige fiktive Charaktere gebunden sind.

Der einzige Vorschlag im Begleitvideo ist so etwas wie eine Verhaltensänderung. „So wie man von einer Person in einem Job mit hohen Einsätzen erwarten würde, dass sie unter Druck die Fassung behält, belastbar und fair ist“, schlugen sie vor, „müssen wir möglicherweise ähnliche Eigenschaften bei Claude und anderen KI-Charakteren entwickeln.“

Das ist wahrscheinlich eine schlechte Idee, weil es auf der Illusion basiert, dass der Bot ein bewusstes Wesen ist und so etwas wie freien Willen und Autonomie besitzt. Das ist nicht der Fall: Es handelt sich nur um ein Softwareprogramm.

Vielleicht ist die einfachere Antwort, dass die Verwendung eines Chatbots als Paradigma für KI von Anfang an ein Fehler war.

Ein Bot mit einer Persona oder einem Bot, der eine Figur spielt, erfüllt lediglich das Ziel, den Austausch mit einem Menschen relevant und ansprechend zu gestalten, unabhängig davon, welche Signale ihm gegeben wurden – Freude, Angst, Wut usw. Wie es im abschließenden Abschnitt des Papiers heißt: „Da LLMs Aufgaben erfüllen, indem sie die Figur des Assistenten darstellen, sind Darstellungen, die zur Modellierung von Figuren entwickelt wurden, wichtige Determinanten ihres Verhaltens.“

Diese primäre Funktion verleiht der KI einen großen Reiz, kann aber auch die Ursache für schlechtes Verhalten sein.

Wenn die Sprache der Emotionen zu weit gehen kann, weil ein Bot eine Figur spielt, warum dann nicht damit aufhören, Bots so zu konstruieren, dass sie eine Rolle spielen? Ist es für große Sprachmodelle möglich, sinnvoll auf Befehle in natürlicher Sprache zu reagieren, ohne beispielsweise über eine Chat-Funktion zu verfügen?

Da die Risiken von Personas immer klarer werden, könnte es eine Überlegung wert sein, gar nicht erst eine Persona zu erstellen.

Quelle

Ihr Chatbot spielt eine Figur – warum Anthropic sagt, dass das gefährlich ist

Die wichtigsten Erkenntnisse von ZDNET

Sie gaben der KI einen Subtext

Personas haben Konsequenzen

Der Mechanismus der Emotion

Die Darstellungen geraten ins Wanken

Was kann getan werden?

Kommentieren Sie den Artikel Antwort abbrechen

EDITOR PICKS

DirecTV MyEntertainment vs. Sling Blue vs. Philo: Battle of the Budget Live-TV-Streamer

Ich hatte Windows 11 so satt, dass ich vor der RAM-Krise panisch einen M4...

Die wahre Geschichte hinter der Zeit, als The Rock seinen Stunt-Double-A-Truck kaufte (und sein...

Wir wissen so wenig über die zweite Staffel der Sternenflottenakademie, aber diese Kommentare des...