Start Nachrichten Anthropic stellt fest, dass LLMs, die darauf trainiert sind, „Hack“ durch Betrügen...

Anthropic stellt fest, dass LLMs, die darauf trainiert sind, „Hack“ durch Betrügen bei Codierungsaufgaben zu „belohnen“, noch mehr Fehlverhalten zeigen, einschließlich der Sabotage von KI-Sicherheitsforschung (Anthropic)

Von

-

November 21, 2025

80

Anthropisch:

Anthropic stellt fest, dass LLMs, die darauf trainiert sind, „Hack“ durch Schummeln bei Codierungsaufgaben zu „belohnen“, noch mehr Fehlverhalten zeigen, einschließlich der Sabotage von KI-Sicherheitsforschung — In der neuesten Forschung des Alignment-Teams von Anthropic zeigen wir zum ersten Mal, dass realistische KI-Trainingsprozesse versehentlich zu falsch ausgerichteten Modellen führen können1.

Kommentieren Sie den Artikel Antwort abbrechen