- Google TurboQuant reduziert die Speicherbelastung und behält gleichzeitig die Genauigkeit bei anspruchsvollen Arbeitslasten bei
- Die Vektorkomprimierung erreicht ohne zusätzlichen Schulungsaufwand neue Effizienzniveaus
- Engpässe im Schlüsselwert-Cache bleiben für die Leistungsgrenzen von KI-Systemen von zentraler Bedeutung
Große Sprachmodelle (LLMs) hängen stark von internen Speicherstrukturen ab, die Zwischendaten für eine schnelle Wiederverwendung während der Verarbeitung speichern.
Eine der kritischsten Komponenten ist der Schlüsselwert-Cache, der als „digitaler Hochgeschwindigkeits-Spickzettel“ beschrieben wird, der wiederholte Berechnungen vermeidet.
Dieser Mechanismus verbessert die Reaktionsfähigkeit, erzeugt aber auch einen großen Engpass, da hochdimensionale Vektoren erhebliche Speicherressourcen verbrauchen.
Der Artikel wird weiter unten fortgesetzt
Speicherengpässe und Skalierungsdruck
Mit der Skalierung der Modelle wird es in modernen LLM-Bereitstellungen immer schwieriger, diesen Speicherbedarf zu verwalten, ohne die Geschwindigkeit oder Zugänglichkeit zu beeinträchtigen.
Herkömmliche Ansätze versuchen, diese Belastung durch Quantisierung zu reduzieren, eine Methode, die die numerische Präzision komprimiert.
Diese Techniken führen jedoch häufig zu Kompromissen, insbesondere zu einer verringerten Ausgabequalität oder einem zusätzlichen Speicheraufwand durch gespeicherte Konstanten.
Dieses Spannungsverhältnis zwischen Effizienz und Genauigkeit bleibt in vielen bestehenden Systemen ungelöst, die für die Verarbeitung in großem Maßstab auf KI-Tools angewiesen sind.
TurboQuant von Google führt einen zweistufigen Prozess ein, der diese seit langem bestehenden Einschränkungen beheben soll.
Die erste Stufe basiert auf PolarQuant, das Vektoren von kartesischen Standardkoordinaten in Polardarstellungen umwandelt.
Anstatt mehrere Richtungskomponenten zu speichern, verdichtet das System die Informationen zu Radius- und Winkelwerten und erstellt so eine kompakte Abkürzung, wodurch die Notwendigkeit wiederholter Normalisierungsschritte reduziert und der Overhead begrenzt wird, der normalerweise mit herkömmlichen Quantisierungsmethoden einhergeht.
In der zweiten Stufe wird Quantized Johnson-Lindenstrauss (QJL) angewendet, das als Korrekturschicht fungiert.
Während PolarQuant den Großteil der Komprimierung übernimmt, kann es zu kleinen Restfehlern kommen, da QJL jedes Vektorelement auf ein einzelnes Bit reduziert, entweder positiv oder negativ, und dabei wesentliche Beziehungen zwischen Datenpunkten beibehält.
Dieser zusätzliche Schritt verfeinert die Aufmerksamkeitswerte, die bestimmen, wie Modelle Informationen während der Verarbeitung priorisieren.
Berichten zufolge erzielt TurboQuant mithilfe offener Modelle Effizienzsteigerungen bei mehreren Langkontext-Benchmarks.
Berichten zufolge reduziert das System die Speichernutzung des Schlüsselwert-Cache um den Faktor sechs und sorgt gleichzeitig für konsistente Downstream-Ergebnisse.
Es ermöglicht auch eine Quantisierung auf nur drei Bits, ohne dass ein erneutes Training erforderlich ist, was auf Kompatibilität mit bestehenden Modellarchitekturen schließen lässt.
Zu den berichteten Ergebnissen gehört auch eine Steigerung der Verarbeitungsgeschwindigkeit: Aufmerksamkeitsberechnungen laufen bis zu achtmal schneller als standardmäßige 32-Bit-Operationen auf High-End-Hardware.
Diese Ergebnisse deuten darauf hin, dass die Komprimierung unter kontrollierten Bedingungen nicht unbedingt zu einer Verschlechterung der Leistung führt, obwohl diese Ergebnisse vom Benchmark-Design und dem Bewertungsumfang abhängen.
Dieses System könnte auch die Betriebskosten senken, indem es den Speicherbedarf reduziert und gleichzeitig die Bereitstellung von Modellen auf eingeschränkten Geräten erleichtert, bei denen die Verarbeitungsressourcen begrenzt bleiben.
Gleichzeitig können freigewordene Ressourcen stattdessen auf die Ausführung komplexerer Modelle umgeleitet werden, anstatt den Infrastrukturbedarf zu verringern.
Obwohl die gemeldeten Ergebnisse über mehrere Tests hinweg konsistent zu sein scheinen, bleiben sie an bestimmte experimentelle Bedingungen gebunden.
Die umfassenderen Auswirkungen hängen von der praktischen Umsetzung ab, bei der unterschiedliche Arbeitslasten und Architekturen zu unterschiedlichen Ergebnissen führen können.
Folgen Sie TechRadar auf Google News Und Fügen Sie uns als bevorzugte Quelle hinzu um unsere Expertennachrichten, Rezensionen und Meinungen in Ihren Feeds zu erhalten. Klicken Sie unbedingt auf die Schaltfläche „Folgen“!
Und natürlich können Sie das auch Folgen Sie TechRadar auf TikTok für Neuigkeiten, Rezensionen, Unboxings in Videoform und erhalten Sie regelmäßige Updates von uns WhatsApp zu.



