Anthropisch:
Anthropic stellt fest, dass LLMs, die darauf trainiert sind, „Hack“ durch Schummeln bei Codierungsaufgaben zu „belohnen“, noch mehr Fehlverhalten zeigen, einschließlich der Sabotage von KI-Sicherheitsforschung — In der neuesten Forschung des Alignment-Teams von Anthropic zeigen wir zum ersten Mal, dass realistische KI-Trainingsprozesse versehentlich zu falsch ausgerichteten Modellen führen können1.
Quelle



