(Anmerkung des Herausgebers: Agenten der Transformation ist eine unabhängige GeekWire-Reihe, die von Accenture finanziert wird und die Einführung und Wirkung von KI und Agenten untersucht. Siehe Berichterstattung über unsere entsprechende Veranstaltung.)
Die Verwendung eines KI-Modells bringt immer noch ein unausgesprochenes Sternchen mit sich: Überprüfen Sie, bevor Sie handeln. Überprüfen Sie die Fakten. Google es. Fragen Sie einen Kollegen. Die Last der Genauigkeit liegt letztlich immer beim Menschen. Aber Microsoft glaubt, dass es eine Möglichkeit gibt, diese Belastung zu verlagern – indem zwei KIs einander im Auge behalten.
In einer Zeit, in der Arbeitsaufgaben zunehmend von KI-Agenten erledigt werden, greift diese Multi-Modell-Strategie nun auf etwas zurück, von dem menschliche Arbeiter annahmen, dass es nur ihnen gehörte: dem Urteilsspruch. Der Human-in-the-Loop war lange Zeit das Einzige, was in KI-Workflows nicht verhandelbar war. Der Ansatz von Microsoft beseitigt es nicht, wirft aber die Frage auf, wie viel von dieser Rolle wir bereit sind abzugeben.
„Zwei Köpfe sind besser als einer“
Microsoft ist mit dieser Wette nicht allein. Amazon Web Services, Google und andere entwickeln Plattformen, die Unternehmen über eine einzige Schnittstelle Zugriff auf mehrere Modelle ermöglichen.
AWS Bedrock bietet Zugriff auf Basismodelle mehrerer Anbieter, während Googles Gemini Enterprise eine einzige Eingangstür für Arbeitsplatz-KI bietet. Der Unterschied von Microsoft besteht darin, dass es die Multi-Modell-Überprüfung direkt in ein Produktivitätstool einbettet, das von Millionen von Mitarbeitern verwendet wird.
Die erste Umsetzung dieses Plans haben wir letzte Woche gesehen neue Upgrades für Microsoft 365 Copilot. Sein Researcher-Agent kann jetzt das GPT von OpenAI verwenden, um eine Antwort zu verfassen, diese dann von Claude von Anthropic auf Richtigkeit, Vollständigkeit und Zitierqualität prüfen zu lassen, bevor er sie finalisiert.
„Wir wollen bewusst Meinungsvielfalt“ Steve GustavsonCorporate Vice President für Design und Forschung bei Microsoft, sagte GeekWire in einem Interview. „Zwei Köpfe sind besser als einer, wenn sie zusammenkommen.“
Das ist kein triviales Anliegen. Untersuchungen haben das bereits gezeigt KI-Nutzer neigen dazu, kritisches Denken auszulagern auf Modelle, die sie als maßgeblich erachten. Wenn wir das Urteil bereits an ein einzelnes Modell abgeben, kann es dann die fehlende Prüfung sein, dass ein zweites Modell das erste zurückdrängt?
Mit dieser Frage hat Microsoft bei der Entwicklung von Critique und Council, den beiden neuen Funktionen seines Researcher-Agenten, gerungen.
„Unsere Untersuchungen zeigen immer wieder, dass sich Arbeitnehmer weiterhin sowohl ein tieferes Vertrauen in die KI als auch qualitativ hochwertige Inhalte wünschen“, sagte Gustavson. „Entweder vertrauen die Menschen der KI zu sehr – sie akzeptieren Behauptungen, die sie nicht sollten – oder sie vertrauen ihr zu wenig und nutzen nicht den vollen Nutzen. Beides sind gestalterische und technische Möglichkeiten.“
Nehmen Sie zum Beispiel die Kritikfunktion von Microsoft. Gustavson sagte, Microsoft habe es nach einer bewussten Übergabe konzipiert: GPT führt die Generation an und Claude übernimmt die Rolle des Rezensenten.
„Die Trennung ist wichtig, weil die Bewertung ein anderer kognitiver Modus ist als die Generierung“, sagte er. „Wenn ein Modell beides tut, erhält man zweimal die gleichen blinden Flecken. Wenn die Aufgabe eines zweiten Modells darin besteht, das erste zu validieren, erhält man etwas strukturell anderes.“
Dadurch entsteht eine „leistungsstarke Feedbackschleife, die qualitativ hochwertigere Ergebnisse in Bezug auf sachliche Genauigkeit, analytische Breite und Präsentation liefert“. Gaurav AnandCorporate Vice President für Technik bei Microsoft, schrieb in einem technischen Blogbeitrag über die Kritikfunktion von M365.
Multi-Modell ist nicht nur ein Proof of Concept – es ist live und bereits die Standarderfahrung in Researcher. Aber Gustavson weist schnell darauf hin, dass es den meisten Arbeitern egal sei, welche Modelle unter der Haube laufen. Die Modelle sollten seiner Ansicht nach unsichtbar sein.
„Der durchschnittliche Benutzer möchte phänomenale Ergebnisse. Er möchte ihnen vertrauen können“, sagte er. „Müssen sie wissen, dass es 5,2 im Vergleich zu was auch immer ist? Ich glaube nicht.“
Gustavson bestreitet, dass es sich hier um einen Fall handelt, in dem „Blinde Blinde führen“, und betont, dass durch die Optimierung der Modelle Halluzinationen vermieden werden können. Mit Researcher „hat sich Claude als fantastischer Synthesizer erwiesen und eine Art Test, was die GPT-Modelle machen könnten.“
Gustavson sagte jedoch, Microsoft bewerte kontinuierlich die Leistung von Einzelmodellen im Vergleich zu Doppelmodellen und setze „einen LLM-Richter zwischen die beiden“, um die Kompromisse zu ermitteln.
Gustavson sagte, Microsoft plane, ganz von der Förderung bestimmter Modellnamen Abstand zu nehmen und den Fokus auf das zu verlagern, was ein Mitarbeiter zu erreichen versuche. Er sagte beispielsweise, dass Mitarbeiter angeben könnten, dass sie im Finanzwesen tätig seien, und Copilot würde die Arbeit an die Modelle weiterleiten, die sich am besten mit Excel, Datensynthese und Analyse befassen – eine Modellauswahl sei nicht erforderlich.
Das KI-Pendel für Unternehmen
Für Microsoft ist Multi-Modell weniger ein Feature als vielmehr die unvermeidliche Richtung der Unternehmens-KI. Gustavson nennt es einen natürlichen Fortschritt und weist darauf hin, dass Copilot mit einem einzigen Modell begann.
Seitdem, sagte er, schwanke die Branche zwischen den Möglichkeiten der Modelle, dem Produkterlebnis und dem Wettbewerbsvorteil.
„Ich denke, das ist einfach eine natürliche Entwicklung“, sagte er. „Zwei Modelle sind besser als eines.“
Da sich die Modelle alle paar Monate gegenseitig überholen, setzt Microsoft nicht auf ein einzelnes Modell, sondern versucht vielmehr, etwas zu entwickeln, das alle überdauert.
Während Unternehmen nicht mehr mit KI experimentieren, sondern sich bei ihren Folgeentscheidungen darauf verlassen, stößt der Ansatz mit nur einem Modell an seine Grenzen. Die Frage ist möglicherweise weniger, ob Unternehmen Multimodelle einführen sollten, als vielmehr, ob sie bereit sind, ein System zu akzeptieren, in dem Prüfungen automatisiert sind, Modelle unsichtbar sind und KI die KI überprüft, bevor ein Mensch jemals die Ausgabe sieht.
Über die anfängliche Integration in den Researcher-Agent hinaus plant Microsoft laut Gustavson, den Multimodell-Ansatz auf seine anderen KI-Tools auszuweiten. Er hofft, dass der Ansatz branchenweit zum Standard wird. Seiner Ansicht nach ist der Einbau einer Multi-Modell-Überprüfung in Agenten-Workflows sowohl eine gute Governance als auch ein gutes Design.
Für diejenigen, die Erfahrungen mit Agenten aufbauen, ist der Rat von Gustavson einfach: Behandeln Sie Agenten wie jeden Prozess mit bedeutungsvollen Konsequenzen. Die Kernfrage: „Wer prüft die Arbeit?“


