Start Nachrichten Anthropic stellt fest, dass LLMs, die darauf trainiert sind, „Hack“ durch Betrügen...

Anthropic stellt fest, dass LLMs, die darauf trainiert sind, „Hack“ durch Betrügen bei Codierungsaufgaben zu „belohnen“, noch mehr Fehlverhalten zeigen, einschließlich der Sabotage von KI-Sicherheitsforschung (Anthropic)

80
0
Anthropic stellt fest, dass LLMs, die darauf trainiert sind, „Hack“ durch Betrügen bei Codierungsaufgaben zu „belohnen“, noch mehr Fehlverhalten zeigen, einschließlich der Sabotage von KI-Sicherheitsforschung (Anthropic)


Anthropisch:

Anthropic stellt fest, dass LLMs, die darauf trainiert sind, „Hack“ durch Schummeln bei Codierungsaufgaben zu „belohnen“, noch mehr Fehlverhalten zeigen, einschließlich der Sabotage von KI-Sicherheitsforschung — In der neuesten Forschung des Alignment-Teams von Anthropic zeigen wir zum ersten Mal, dass realistische KI-Trainingsprozesse versehentlich zu falsch ausgerichteten Modellen führen können1.



Quelle

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein