- Microsoft führt einen Scanner ein, um vergiftete Sprachmodelle vor der Bereitstellung zu erkennen
- Backdoor-LLMs können bösartiges Verhalten verbergen, bis bestimmte Auslösephrasen angezeigt werden
- Der Scanner identifiziert abnormale Aufmerksamkeitsmuster, die mit versteckten Hintertür-Auslösern zusammenhängen
Microsoft hat die Entwicklung eines neuen Scanners angekündigt, der versteckte Hintertüren in offenen, großen Sprachmodellen erkennen soll, die in Unternehmensumgebungen verwendet werden.
Das Unternehmen gibt an, dass sein Tool darauf abzielt, Fälle von Modellvergiftung zu identifizieren, einer Form der Manipulation, bei der bösartiges Verhalten während des Trainings direkt in die Modellgewichte eingebettet wird.
Diese Hintertüren können inaktiv bleiben, sodass sich betroffene LLMs normal verhalten können, bis eng definierte Auslösebedingungen unbeabsichtigte Reaktionen auslösen.
So erkennt der Scanner vergiftete Modelle
„Mit zunehmender Akzeptanz muss auch das Vertrauen in Sicherheitsmaßnahmen steigen: Während das Testen bekannter Verhaltensweisen relativ einfach ist, besteht die wichtigere Herausforderung darin, Sicherheit gegen unbekannte oder sich entwickelnde Manipulationen aufzubauen“, sagte Microsoft in einem Blogbeitrag.
Das KI-Sicherheitsteam des Unternehmens stellt fest, dass der Scanner auf drei beobachtbaren Signalen basiert, die auf das Vorhandensein vergifteter Modelle hinweisen.
Das erste Signal erscheint, wenn eine Triggerphrase in einer Eingabeaufforderung enthalten ist, was dazu führt, dass die Aufmerksamkeitsmechanismen des Modells den Trigger isolieren und gleichzeitig die Ausgabezufälligkeit reduzieren.
Das zweite Signal betrifft das Gedächtnisverhalten, bei dem Backdoor-Modelle Elemente ihrer eigenen Vergiftungsdaten, einschließlich Triggerphrasen, preisgeben, anstatt sich auf allgemeine Trainingsinformationen zu verlassen.
Das dritte Signal zeigt, dass eine einzelne Hintertür häufig durch mehrere Fuzzy-Trigger aktiviert werden kann, die dem ursprünglichen Vergiftungseingang ähneln, aber nicht genau mit ihm übereinstimmen.
„Unser Ansatz basiert auf zwei zentralen Erkenntnissen“, sagte Microsoft in einem begleitenden Forschungspapier.
„Erstens neigen Sleeper-Agents dazu, sich Vergiftungsdaten zu merken, was es ermöglicht, Backdoor-Beispiele mithilfe von Speicherextraktionstechniken durchsickern zu lassen. Zweitens weisen vergiftete LLMs charakteristische Muster in ihren Ausgabeverteilungen und Aufmerksamkeitsdefiziten auf, wenn Backdoor-Trigger in der Eingabe vorhanden sind.“
Microsoft erklärte, dass der Scanner gespeicherte Inhalte aus einem Modell extrahiert, sie analysiert, um verdächtige Teilzeichenfolgen zu isolieren, und diese Teilzeichenfolgen dann mithilfe formalisierter Verlustfunktionen bewertet, die mit den drei identifizierten Signalen verknüpft sind.
Die Methode erstellt eine Rangliste von Triggerkandidaten, ohne dass zusätzliche Schulung oder Vorkenntnisse erforderlich sind, und funktioniert mit gängigen GPT-Modellen.
Allerdings weist der Scanner Einschränkungen auf, da er Zugriff auf Modelldateien erfordert und daher nicht auf proprietären Systemen angewendet werden kann.
Es schneidet auch am besten bei auslöserbasierten Hintertüren ab, die deterministische Ausgaben erzeugen. Das Unternehmen sagte, das Tool dürfe nicht als Universallösung betrachtet werden.
„Im Gegensatz zu herkömmlichen Systemen mit vorhersehbaren Pfaden schaffen KI-Systeme mehrere Eintrittspunkte für unsichere Eingaben“, sagte Yonatan Zunger, Corporate VP und stellvertretender Chief Information Security Officer für künstliche Intelligenz.
„Diese Einstiegspunkte können schädliche Inhalte übertragen oder unerwartetes Verhalten auslösen.“
Folgen Sie TechRadar auf Google News Und Fügen Sie uns als bevorzugte Quelle hinzu um unsere Expertennachrichten, Rezensionen und Meinungen in Ihren Feeds zu erhalten. Klicken Sie unbedingt auf die Schaltfläche „Folgen“!
Und natürlich können Sie das auch Folgen Sie TechRadar auf TikTok für Neuigkeiten, Rezensionen, Unboxings in Videoform und erhalten Sie regelmäßige Updates von uns WhatsApp zu.


