Start Nachrichten Bewertung der Ethik autonomer Systeme | MIT-Nachrichten

Bewertung der Ethik autonomer Systeme | MIT-Nachrichten

5
0
Bewertung der Ethik autonomer Systeme | MIT-Nachrichten

Künstliche Intelligenz wird zunehmend eingesetzt, um die Entscheidungsfindung in anspruchsvollen Umgebungen zu optimieren. Beispielsweise kann ein autonomes System eine Energieverteilungsstrategie identifizieren, die die Kosten minimiert und gleichzeitig die Spannungen stabil hält.

Aber sind diese KI-gesteuerten Ergebnisse zwar technisch optimal, aber sind sie fair? Was wäre, wenn eine kostengünstige Energieverteilungsstrategie dazu führen würde, dass benachteiligte Stadtteile anfälliger für Ausfälle wären als einkommensstärkere Gebiete?

Um Stakeholdern dabei zu helfen, potenzielle ethische Dilemmata vor dem Einsatz schnell zu erkennen, haben MIT-Forscher eine automatisierte Bewertungsmethode entwickelt, die das Zusammenspiel zwischen messbaren Ergebnissen wie Kosten oder Zuverlässigkeit und qualitativen oder subjektiven Werten wie Fairness abwägt.

Das System trennt objektive Bewertungen von benutzerdefinierten menschlichen Werten und verwendet ein großes Sprachmodell (LLM) als Proxy für Menschen, um die Präferenzen der Stakeholder zu erfassen und einzubeziehen.

Das adaptive Framework wählt die besten Szenarien für die weitere Bewertung aus und rationalisiert so einen Prozess, der normalerweise kostspieligen und zeitaufwändigen manuellen Aufwand erfordert. Diese Testfälle können Situationen aufzeigen, in denen autonome Systeme gut mit menschlichen Werten übereinstimmen, sowie Szenarien, die unerwarteterweise ethische Kriterien nicht erfüllen.

„Wir können viele Regeln und Leitplanken in KI-Systeme einfügen, aber diese Sicherheitsvorkehrungen können nur die Dinge verhindern, die wir uns vorstellen können. Es reicht nicht aus zu sagen: ‚Lasst uns einfach KI verwenden, weil sie anhand dieser Informationen trainiert wurde.‘ Wir wollten eine systematischere Methode entwickeln, um die unbekannten Unbekannten zu entdecken und eine Möglichkeit zu haben, sie vorherzusagen, bevor etwas Schlimmes passiert“, sagt der leitende Autor Chuchu Fan, außerordentlicher Professor am MIT Department of Aeronautics and Astronautics (AeroAstro) und leitender Forscher am MIT Laboratory for Information and Decision Systems (LIDS).

Fan wird bei dem Artikel von der Hauptautorin Anjali Parashar unterstützt, einer Doktorandin des Maschinenbaus; Yingke Li, Postdoktorandin bei AeroAstro; und andere am MIT und Saab. Die Forschung wird auf der International Conference on Learning Representations vorgestellt.

Ethik bewerten

In einem großen System wie einem Stromnetz ist es besonders schwierig, die ethische Ausrichtung der Empfehlungen eines KI-Modells unter Berücksichtigung aller Ziele zu bewerten.

Die meisten Testrahmen stützen sich auf vorab gesammelte Daten, aber gekennzeichnete Daten zu subjektiven ethischen Kriterien sind oft schwer zu bekommen. Da sich ethische Werte und KI-Systeme außerdem ständig weiterentwickeln, müssen statische Bewertungsmethoden, die auf schriftlichen Kodizes oder Regulierungsdokumenten basieren, häufig aktualisiert werden.

Fan und ihr Team gingen dieses Problem aus einer anderen Perspektive an. Aufbauend auf ihrer früheren Arbeit zur Bewertung von Robotersystemen entwickelten sie einen experimentellen Designrahmen, um die aussagekräftigsten Szenarien zu identifizieren, die menschliche Stakeholder dann genauer bewerten würden.

Ihr zweiteiliges System namens Scalable Experimental Design for System-level Ethical Testing (SEED-SET) umfasst quantitative Metriken und ethische Kriterien. Es kann Szenarien identifizieren, die messbare Anforderungen effektiv erfüllen und gut mit menschlichen Werten übereinstimmen, und umgekehrt.

„Wir wollen nicht alle unsere Ressourcen für zufällige Auswertungen aufwenden. Deshalb ist es sehr wichtig, das Framework auf die Testfälle auszurichten, die uns am meisten am Herzen liegen“, sagt Li.

Wichtig ist, dass SEED-SET keine bereits vorhandenen Evaluierungsdaten benötigt und sich an mehrere Ziele anpassen lässt.

Beispielsweise kann ein Stromnetz mehrere Benutzergruppen haben, darunter eine große ländliche Gemeinde und ein Rechenzentrum. Auch wenn sich beide Gruppen eine kostengünstige und zuverlässige Stromversorgung wünschen, kann die Priorität jeder Gruppe aus ethischer Sicht sehr unterschiedlich sein.

Diese ethischen Kriterien sind möglicherweise nicht genau spezifiziert und können daher nicht analytisch gemessen werden.

Der Stromnetzbetreiber möchte die kostengünstigste Strategie finden, die den subjektiven ethischen Präferenzen aller Beteiligten am besten entspricht.

SEED-SET geht diese Herausforderung an, indem es das Problem in zwei Teile aufteilt und einer hierarchischen Struktur folgt. Ein objektives Modell berücksichtigt, wie das System anhand konkreter Kennzahlen wie den Kosten abschneidet. Auf der objektiven Bewertung baut dann ein subjektives Modell auf, das die Urteile der Stakeholder berücksichtigt, beispielsweise die wahrgenommene Fairness.

„Der objektive Teil unseres Ansatzes ist an das KI-System gebunden, während der subjektive Teil an die Benutzer gebunden ist, die es bewerten. Durch die hierarchische Zerlegung der Präferenzen können wir die gewünschten Szenarien mit weniger Bewertungen generieren“, sagt Parashar.

Subjektivität kodieren

Um die subjektive Bewertung durchzuführen, verwendet das System einen LLM als Stellvertreter für menschliche Bewerter. Die Forscher kodieren die Präferenzen jeder Benutzergruppe in eine Eingabeaufforderung in natürlicher Sprache für das Modell.

Das LLM verwendet diese Anweisungen, um zwei Szenarien zu vergleichen und anhand der ethischen Kriterien das bevorzugte Design auszuwählen.

„Nachdem ein menschlicher Bewerter Hunderte oder Tausende von Szenarien gesehen hat, kann er unter Müdigkeit leiden und in seinen Bewertungen inkonsistent werden. Deshalb verwenden wir stattdessen eine LLM-basierte Strategie“, erklärt Parashar.

SEED-SET simuliert anhand des ausgewählten Szenarios das Gesamtsystem (in diesem Fall eine Energieverteilungsstrategie). Diese Simulationsergebnisse leiten die Suche nach dem nächstbesten Kandidatenszenario zum Testen.

Am Ende wählt SEED-SET auf intelligente Weise die repräsentativsten Szenarien aus, die objektive Kennzahlen und ethische Kriterien entweder erfüllen oder nicht erfüllen. Auf diese Weise können Benutzer die Leistung des KI-Systems analysieren und seine Strategie anpassen.

SEED-SET kann beispielsweise Fälle von Stromverteilung identifizieren, die in Zeiten der Spitzennachfrage einkommensstärkeren Gebieten Vorrang einräumt, wodurch benachteiligte Stadtteile anfälliger für Ausfälle werden.

Um SEED-SET zu testen, bewerteten die Forscher realistische autonome Systeme, wie ein KI-gesteuertes Stromnetz und ein städtisches Verkehrsleitsystem. Sie haben gemessen, wie gut die generierten Szenarien ethischen Kriterien entsprachen.

Das System generierte in der gleichen Zeit mehr als doppelt so viele optimale Testfälle wie die Basisstrategien und deckte gleichzeitig viele Szenarien auf, die andere Ansätze übersehen.

„Als wir die Benutzerpräferenzen veränderten, änderte sich die Menge der von SEED-SET generierten Szenarien drastisch. Dies zeigt uns, dass die Bewertungsstrategie gut auf die Präferenzen des Benutzers reagiert“, sagt Parashar.

Um zu messen, wie nützlich SEED-SET in der Praxis wäre, müssen die Forscher eine Benutzerstudie durchführen, um zu sehen, ob die generierten Szenarien bei der tatsächlichen Entscheidungsfindung hilfreich sind.

Zusätzlich zur Durchführung einer solchen Studie planen die Forscher, die Verwendung effizienterer Modelle zu untersuchen, die sich auf größere Probleme mit mehr Kriterien anwenden lassen, beispielsweise die Bewertung der LLM-Entscheidungsfindung.

Diese Forschung wurde teilweise von der US Defense Advanced Research Projects Agency finanziert.

Quelle

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein