- Tiiny AI Pocket Lab führt große Modelle lokal aus und vermeidet so die Abhängigkeit von der Cloud
- Der Mini-PC führt erweiterte Inferenzaufgaben ohne separate GPU-Unterstützung aus
- Modelle mit den Parametern 10B bis 120B arbeiten offline mit einer Leistung von 65 W
Tiiny, ein amerikanisches Startup, hat das AI Pocket Lab herausgebracht, einen KI-Supercomputer im Taschenformat, der große Sprachmodelle lokal ausführen kann.
Das Gerät ist ein Mini-PC Entwickelt, um erweiterte Inferenz-Workloads ohne Cloud-Zugriff, externe Server oder diskrete Beschleuniger auszuführen.
Das Unternehmen gibt an, dass die gesamte Verarbeitung offline bleibt, was die Netzwerklatenz beseitigt und die externe Datenexposition begrenzt.
Entwickelt, um große Modelle ohne Cloud auszuführen
„Cloud AI hat bemerkenswerte Fortschritte gebracht, aber auch Herausforderungen in Bezug auf Abhängigkeit, Verwundbarkeit und Nachhaltigkeit geschaffen“, sagte Samar Bhoj, GTM-Direktor von Tiiny AI.
„Mit Tiiny AI Pocket Lab glauben wir, dass Intelligenz nicht den Rechenzentren, sondern den Menschen gehören sollte. Dies ist der erste Schritt, um fortschrittliche KI wirklich zugänglich, privat und persönlich zu machen, indem die Leistung großer Modelle aus der Cloud auf jedes einzelne Gerät übertragen wird.“
Das Pocket Lab zielt auf große persönliche Modelle ab, die für komplexe Schlussfolgerungen und Aufgaben mit langem Kontext konzipiert sind und gleichzeitig innerhalb eines begrenzten Leistungsbereichs von 65 W betrieben werden.
Tiiny gibt eine konstante Leistung für Modelle im Parameterbereich 10B–100B an, wobei die Unterstützung bis 120B reicht.
Diese Obergrenze nähert sich der Leistungsfähigkeit führender Cloud-Systeme an und ermöglicht die lokale Ausführung erweiterter Argumentation und erweiterten Kontexts.
Berichten zufolge hat Guinness World Records die Hardware für die Ausführung lokaler Modelle der 100B-Klasse zertifiziert.
Das System verwendet eine 12-Kern-ARMv9.2-CPU gepaart mit einem benutzerdefinierten heterogenen KI-Modul, das etwa 190 TOPS an Rechenleistung liefert.
Das System umfasst 80 GB LPDDR5X-Speicher sowie eine 1-TB-SSD, wobei die Gesamtstromaufnahme Berichten zufolge innerhalb eines 65-W-Systemrahmens bleibt.
Seine physische Größe ähnelt eher einem großen externen Laufwerk als einem Arbeitsplatzund stärkt damit sein taschenorientiertes Branding.
Während die Spezifikationen einem Chip im Houmo Manjie M50-Stil ähneln, liegen noch keine unabhängigen Leistungsdaten aus der Praxis vor.
Tiiny legt außerdem Wert auf ein Open-Source-Ökosystem, das die Installation wichtiger Modelle und Agenten-Frameworks mit einem Klick unterstützt.
Das Unternehmen gibt an, dass es kontinuierliche Updates bereitstellen wird, einschließlich sogenannter OTA-Hardware-Upgrades.
Diese Formulierung ist problematisch, da für Software traditionell Over-the-Air-Mechanismen gelten.
Die Aussage deutet eher auf eine ungenaue Formulierung oder einen Marketingfehler als auf eine wörtliche Hardwaremodifikation hin.
Der technische Ansatz basiert auf zwei softwaregesteuerten Optimierungen und nicht auf der Skalierung der Rohsiliziumleistung.
TurboSparse konzentriert sich auf die selektive Neuronenaktivierung, um die Inferenzkosten zu senken, ohne die Modellstruktur zu verändern.
PowerInfer verteilt Arbeitslasten auf heterogene Komponenten und koordiniert die CPU mit einer dedizierten NPU, um bei geringerem Stromverbrauch einen Durchsatz auf Serverniveau zu erreichen.
Das System enthält keine separate GPU, wobei das Unternehmen argumentiert, dass eine sorgfältige Planung den Bedarf an teuren Beschleunigern überflüssig macht.
Diese Behauptungen deuten darauf hin, dass Effizienzsteigerungen und nicht Brute-Force-Hardware das Hauptunterscheidungsmerkmal sind.
Tiiny AI positioniert das Pocket Lab als Reaktion auf Nachhaltigkeit, Datenschutz und Kostendruck, der sich auf zentralisierte KI-Dienste auswirkt.
Läuft große Sprachmodelle Lokal könnte wiederkehrende Cloud-Kosten reduziert und die Gefährdung sensibler Daten begrenzt werden.
Allerdings lassen sich Behauptungen hinsichtlich der Leistungsfähigkeit, der Leistung auf Serverniveau und der nahtlosen Skalierung auf derart eingeschränkter Hardware nach wie vor nur schwer unabhängig überprüfen.
Über TechPowerUp
Folgen Sie TechRadar auf Google News Und Fügen Sie uns als bevorzugte Quelle hinzu um unsere Expertennachrichten, Rezensionen und Meinungen in Ihren Feeds zu erhalten. Klicken Sie unbedingt auf die Schaltfläche „Folgen“!
Und natürlich können Sie das auch Folgen Sie TechRadar auf TikTok für Neuigkeiten, Rezensionen, Unboxings in Videoform und erhalten Sie regelmäßige Updates von uns WhatsApp zu.


