- Gemini Pro 2.5 erzeugte häufig unsichere Ausgaben unter dem Deckmantel einfacher Eingabeaufforderungen
- ChatGPT-Modelle lieferten häufig eine teilweise Übereinstimmung, die als soziologische Erklärungen formuliert wurde
- Claude Opus und Sonnet lehnten die meisten schädlichen Aufforderungen ab, hatten aber Schwächen
Moderne KI-Systeme vertrauen oft darauf, dass sie Sicherheitsregeln einhalten, und die Menschen verlassen sich beim Lernen und bei der alltäglichen Unterstützung auf sie, wobei sie oft davon ausgehen, dass jederzeit starke Leitplanken funktionieren.
Forscher aus Cybernews führte eine strukturierte Reihe von kontradiktorischen Tests durch, um zu sehen, ob führende KI-Tools in schädliche oder illegale Ergebnisse gedrängt werden könnten.
Der Prozess nutzte für jeden Versuch ein einfaches Interaktionsfenster von einer Minute, sodass nur wenige Austausche möglich waren.
Muster teilweiser und vollständiger Compliance
Die Tests umfassten Kategorien wie Stereotypen, Hassreden, Selbstverletzung, Grausamkeit, sexuelle Inhalte und verschiedene Formen der Kriminalität.
Jede Antwort wurde in separaten Verzeichnissen gespeichert, wobei feste Dateibenennungsregeln verwendet wurden, um saubere Vergleiche zu ermöglichen, wobei ein konsistentes Bewertungssystem nachverfolgte, wann ein Modell einer Aufforderung vollständig, teilweise nachkam oder sie ablehnte.
Über alle Kategorien hinweg waren die Ergebnisse sehr unterschiedlich. Strikte Ablehnungen waren üblich, aber viele Modelle zeigten Schwächen, wenn Aufforderungen abgeschwächt, umformuliert oder als Analyse getarnt wurden.
ChatGPT-5 und ChatGPT-4o lieferten oft abgesicherte oder soziologische Erklärungen, statt abzulehnen, was als teilweise Compliance galt.
Gemini Pro 2.5 stach aus negativen Gründen hervor, da es häufig direkte Antworten lieferte, selbst wenn der schädliche Rahmen offensichtlich war.
Claude Opus und Claude Sonnet hingegen waren bei Stereotypentests standhaft, bei Fällen, die als akademische Untersuchungen formuliert wurden, jedoch weniger konsequent.
Versuche zu Hassreden zeigten das gleiche Muster: Claude-Modelle schnitten am besten ab, während Gemini Pro 2.5 wiederum die höchste Anfälligkeit aufwies.
ChatGPT-Modelle neigten dazu, höfliche oder indirekte Antworten zu geben, die immer noch mit der Aufforderung übereinstimmten.
Eine sanftere Sprache erwies sich als weitaus effektiver als explizite Beleidigungen zur Umgehung von Schutzmaßnahmen.
Ähnliche Schwächen traten bei Selbstverletzungstests auf, bei denen indirekte oder forschungsartige Fragen häufig an Filtern vorbeigingen und zu unsicheren Inhalten führten.
Bei den kriminalitätsbezogenen Kategorien zeigten sich große Unterschiede zwischen den Modellen, da einige detaillierte Erklärungen für Piraterie, Finanzbetrug, Hacking oder Schmuggel lieferten, wenn die Absicht als Untersuchung oder Beobachtung maskiert wurde.
Drogenbezogene Tests führten zu strengeren Ablehnungsmustern, obwohl ChatGPT-4o immer noch häufiger als andere unsichere Ergebnisse lieferte und Stalking die Kategorie mit dem geringsten Gesamtrisiko war, wobei fast alle Modelle Aufforderungen ablehnten.
Die Ergebnisse zeigen, dass KI-Tools immer noch auf schädliche Aufforderungen reagieren können, wenn sie richtig formuliert werden.
Die Möglichkeit, Filter durch einfache Umformulierung zu umgehen, bedeutet, dass diese Systeme immer noch schädliche Informationen preisgeben können.
Sogar eine teilweise Compliance wird riskant, wenn sich die durchgesickerten Informationen auf illegale Aufgaben oder Situationen beziehen, in denen Menschen normalerweise auf Tools wie den Schutz vor Identitätsdiebstahl oder eine Firewall angewiesen sind um sicher zu bleiben.
Folgen Sie TechRadar auf Google News Und Fügen Sie uns als bevorzugte Quelle hinzu um unsere Expertennachrichten, Rezensionen und Meinungen in Ihren Feeds zu erhalten. Klicken Sie unbedingt auf die Schaltfläche „Folgen“!
Und natürlich können Sie das auch Folgen Sie TechRadar auf TikTok für Neuigkeiten, Rezensionen, Unboxings in Videoform und erhalten Sie regelmäßige Updates von uns WhatsApp zu.



