Start Nachrichten Das KI-Sicherheitsteam von Microsoft enthüllt, wie versteckte Trainings-Hintertüren stillschweigend in Sprachmodellen von...

Das KI-Sicherheitsteam von Microsoft enthüllt, wie versteckte Trainings-Hintertüren stillschweigend in Sprachmodellen von Unternehmen überleben

29
0
Das KI-Sicherheitsteam von Microsoft enthüllt, wie versteckte Trainings-Hintertüren stillschweigend in Sprachmodellen von Unternehmen überleben


  • Microsoft führt einen Scanner ein, um vergiftete Sprachmodelle vor der Bereitstellung zu erkennen
  • Backdoor-LLMs können bösartiges Verhalten verbergen, bis bestimmte Auslösephrasen angezeigt werden
  • Der Scanner identifiziert abnormale Aufmerksamkeitsmuster, die mit versteckten Hintertür-Auslösern zusammenhängen

Microsoft hat die Entwicklung eines neuen Scanners angekündigt, der versteckte Hintertüren in offenen, großen Sprachmodellen erkennen soll, die in Unternehmensumgebungen verwendet werden.

Das Unternehmen gibt an, dass sein Tool darauf abzielt, Fälle von Modellvergiftung zu identifizieren, einer Form der Manipulation, bei der bösartiges Verhalten während des Trainings direkt in die Modellgewichte eingebettet wird.

Quelle

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein