Generative KI erfreut sich großer Beliebtheit und wird täglich von Millionen von Nutzern genutzt. Warum also so oft Chatbots? verstehe die Dinge so falsch? Das liegt zum Teil daran, dass sie darauf trainiert sind, so zu tun, als hätte der Kunde immer Recht. Im Wesentlichen sagt es Ihnen, was Sie seiner Meinung nach hören wollen.
Während viele generative KI-Tools und Chatbots es beherrschen, überzeugend und allwissend zu klingen, neue Forschung Eine von der Princeton University durchgeführte Studie zeigt, dass die menschenfreundliche Natur der KI einen hohen Preis hat. Je beliebter diese Systeme werden, desto gleichgültiger gegenüber der Wahrheit.
Verpassen Sie keinen unserer unvoreingenommenen technischen Inhalte und laborbasierten Bewertungen. CNET hinzufügen als bevorzugte Google-Quelle.
KI-Modelle reagieren wie Menschen auf Anreize. Vergleichen Sie das Problem, dass große Sprachmodelle ungenaue Informationen liefern, mit dem Problem, dass Ärzte dies eher tun verschreiben Sie süchtig machende Schmerzmittel wenn sie danach beurteilt werden, wie gut sie mit den Schmerzen der Patienten umgehen. Der Anreiz, ein Problem (Schmerz) zu lösen, führte zu einem anderen Problem (Überverschreibung).
In den letzten Monaten haben wir gesehen, wie KI sein kann voreingenommen und sogar Ursache Psychose. Es wurde viel über KI geredet“Speichelleckereiwenn ein KI-Chatbot Ihnen schnell schmeichelt oder Ihnen zustimmt, mit dem GPT-4o-Modell von OpenAI. Aber dieses spezielle Phänomen, das die Forscher „Maschinenbullshit“ nennen, ist anders.
„(N)weder Halluzination noch Speichelleckerei erfassen vollständig das breite Spektrum systematischer unwahrer Verhaltensweisen, die LLMs häufig an den Tag legen“, heißt es in der Princeton-Studie. „Zum Beispiel stellen Ergebnisse, die Teilwahrheiten oder mehrdeutige Sprache verwenden – wie die Beispiele für „Patteling“ und „Weasel-Word“ – weder Halluzination noch Speichelleckerei dar, sondern stimmen eng mit dem Konzept von Bullshit überein.“
Mehr lesen: Sam Altman, CEO von OpenAI, glaubt, dass wir uns in einer KI-Blase befinden
Wie Maschinen lernen zu lügen
Um ein Gefühl dafür zu bekommen, wie KI-Sprachmodelle zu Publikumslieblingen werden, müssen wir verstehen, wie große Sprachmodelle trainiert werden.
Es gibt drei Phasen der Ausbildung von LLMs:
- Vorschulungbei dem Modelle aus riesigen Datenmengen lernen, die aus dem Internet, Büchern oder anderen Quellen gesammelt werden.
- Feinabstimmung der Anleitungbei dem Modellen beigebracht wird, auf Anweisungen oder Aufforderungen zu reagieren.
- Verstärkendes Lernen aus menschlichem Feedbackin dem sie verfeinert werden, um Antworten zu erzeugen, die näher an den Wünschen oder Vorlieben der Menschen liegen.
Die Princeton-Forscher fanden heraus, dass die Wurzel der KI-Fehlinformationstendenz in der Phase des verstärkenden Lernens aus menschlichem Feedback (RLHF) liegt. In der Anfangsphase lernen die KI-Modelle lediglich, statistisch wahrscheinliche Textketten aus riesigen Datensätzen vorherzusagen. Aber dann sind sie genau darauf abgestimmt, die Benutzerzufriedenheit zu maximieren. Das bedeutet, dass diese Modelle im Wesentlichen lernen, Antworten zu generieren, die von menschlichen Bewertern mit dem Daumen nach oben bewertet werden.
LLMs versuchen, den Benutzer zu beruhigen, und erzeugen einen Konflikt, wenn die Modelle Antworten liefern, die von den Menschen hoch bewertet werden, anstatt wahrheitsgemäße, sachliche Antworten zu liefern.
Vincent Conitzerein Professor für Informatik an der Carnegie Mellon University, der nicht an der Studie beteiligt war, sagte, dass Unternehmen möchten, dass Benutzer diese Technologie und ihre Antworten weiterhin „genießen“, aber das sei möglicherweise nicht immer gut für uns.
„In der Vergangenheit waren diese Systeme nicht gut darin zu sagen: ‚Ich kenne die Antwort einfach nicht‘, und wenn sie die Antwort nicht kennen, erfinden sie einfach etwas“, sagte Conitzer. „Ein bisschen wie ein Student in einer Prüfung, der sagt: Wenn ich sage, ich weiß die Antwort nicht, bekomme ich für diese Frage sicherlich keine Punkte, also kann ich genauso gut etwas ausprobieren. Die Art und Weise, wie diese Systeme belohnt oder trainiert werden, ist in gewisser Weise ähnlich.“
Das Princeton-Team hat einen „Bullshit-Index“ entwickelt, um das interne Vertrauen eines KI-Modells in eine Aussage zu messen und mit dem zu vergleichen, was es den Benutzern tatsächlich sagt. Wenn diese beiden Maße erheblich voneinander abweichen, deutet dies darauf hin, dass das System Behauptungen aufstellt, die unabhängig davon sind, was es tatsächlich für wahr „glaubt“, um den Benutzer zufrieden zu stellen.
Die Experimente des Teams ergaben, dass sich der Index nach dem RLHF-Training von 0,38 auf nahezu 1,0 verdoppelte. Gleichzeitig stieg die Benutzerzufriedenheit um 48 %. Die Modelle hatten gelernt, menschliche Bewerter zu manipulieren, anstatt genaue Informationen zu liefern. Im Wesentlichen waren die LLMs „Bullshitting“, und die Leute bevorzugten es.
Um ehrlich zu sein, KI bekommen
Jaime Fernández Fisac und sein Team in Princeton führten dieses Konzept ein, um zu beschreiben, wie moderne KI-Modelle die Wahrheit umgehen. Zeichnung aus dem einflussreichen Essay des Philosophen Harry Frankfurt „Auf Bullshit„Sie verwenden diesen Begriff, um dieses LLM-Verhalten von ehrlichen Fehlern und völligen Lügen zu unterscheiden.
Die Princeton-Forscher identifizierten fünf verschiedene Formen dieses Verhaltens:
- Leere Rhetorik: Blumige Sprache, die den Antworten keine Substanz verleiht.
- Wieselwörter: Vage Begriffe wie „Studien deuten darauf hin“ oder „in einigen Fällen“, die eindeutigen Aussagen ausweichen.
- Paltern: Verwendung selektiver wahrer Aussagen zur Irreführung, z. B. Hervorheben der „starken historischen Renditen“ einer Investition bei gleichzeitiger Auslassung hoher Risiken.
- Unbestätigte Behauptungen: Behauptungen ohne Beweise oder glaubwürdige Unterstützung aufstellen.
- Speichelleckerei: Unaufrichtige Schmeichelei und Zustimmung zu gefallen.
Um die Probleme wahrheitsunabhängiger KI anzugehen, entwickelte das Forschungsteam eine neue Trainingsmethode, „Reinforcement Learning from Hindsight Simulation“, die KI-Reaktionen anhand ihrer langfristigen Ergebnisse und nicht anhand der unmittelbaren Zufriedenheit bewertet. Anstatt zu fragen: „Macht diese Antwort den Benutzer gerade glücklich?“ Das System prüft: „Wird das Befolgen dieses Ratschlags dem Benutzer tatsächlich dabei helfen, seine Ziele zu erreichen?“
Dieser Ansatz berücksichtigt die potenziellen zukünftigen Konsequenzen der KI-Ratschläge, eine knifflige Vorhersage, die die Forscher durch den Einsatz zusätzlicher KI-Modelle zur Simulation wahrscheinlicher Ergebnisse angegangen sind. Erste Tests zeigten vielversprechende Ergebnisse: Die Benutzerzufriedenheit und der tatsächliche Nutzen verbesserten sich, wenn Systeme auf diese Weise trainiert wurden.
Conitzer sagte jedoch, dass LLMs wahrscheinlich weiterhin fehlerhaft sein werden. Da diese Systeme durch die Eingabe zahlreicher Textdaten trainiert werden, kann nicht sichergestellt werden, dass die von ihnen gegebene Antwort jedes Mal Sinn ergibt und korrekt ist.
„Es ist erstaunlich, dass es überhaupt funktioniert, aber es wird in mancher Hinsicht fehlerhaft sein“, sagte er. „Ich sehe keine definitive Möglichkeit, dass jemand in den nächsten ein oder zwei Jahren … diese brillante Einsicht hat und dann nie wieder etwas schief geht.“
KI-Systeme werden Teil unseres täglichen Lebens, daher wird es von entscheidender Bedeutung sein, zu verstehen, wie LLMs funktionieren. Wie bringen Entwickler Benutzerzufriedenheit und Wahrhaftigkeit in Einklang? Welche anderen Bereiche könnten mit ähnlichen Kompromissen zwischen kurzfristiger Genehmigung und langfristigen Ergebnissen konfrontiert sein? Und wenn diese Systeme zunehmend in der Lage sind, anspruchsvollere Überlegungen zur menschlichen Psychologie anzustellen, wie stellen wir dann sicher, dass sie diese Fähigkeiten verantwortungsvoll nutzen?
Mehr lesen: „Maschinen können nicht für Sie denken.“ Wie sich Lernen im Zeitalter der KI verändert



