In den frühen 2000er Jahren standen die Architekten des Internets vor einem vertraut klingenden modernen Problem: Wie baut man ein System auf, das massive, unvorhersehbare Nachfrage bewältigt, ohne dass es kaputt geht, wenn ein einzelner Teil davon ausfällt?
Ihre Antwort bestand darin, ein System der Peer-to-Peer-Vernetzung aufzubauen. Anstatt alles über zentrale Server zu leiten, verteilten P2P-Systeme die Last auf Tausende einzelner Knoten, ohne dass es einen einzigen Fehlerpunkt gab, die Intelligenz näher am Benutzer lag und die Ausfallsicherheit in die Architektur integriert war, statt an der Spitze festgeschraubt zu werden.
Der Artikel wird weiter unten fortgesetzt
Gründer des Investmentfonds Epochal Corporation.
Dann, als die Cloud-Computing Als die Ära Einzug hielt, wurde das Hyperscale-Modell zur vorherrschenden Infrastrukturlogik der letzten fünfzehn Jahre. Seine Prämisse – alles in größtmöglichen Rechenzentren zusammenzufassen, hinsichtlich der Stückkosten zu optimieren und unbegrenzt zu zentralisieren – war für viele Workloads sinnvoll.
Aber die KI-Inferenz, die Phase der KI, die jetzt in Unternehmensumgebungen explodiert, basiert auf genau denselben Prinzipien, die P2P überhaupt erst so attraktiv gemacht haben.
Verstehen, warum
Um zu verstehen, warum das so ist, müssen zwei Phasen der KI getrennt werden, die oft zusammenfallen. Das Training eines großen Modells ist ein einmaliger, rechenintensiver Prozess. Es läuft gut auf einer zentralisierten, aggregierten Infrastruktur und die Hyperscale-Logik gilt dort. Schlussfolgerung ist anders.
Inferenz ist jedes Mal, wenn das Modell tatsächlich verwendet wird: ein Betrugserkennungssystem, das eine Transaktion kennzeichnet, eine Vorhersage Wartungssystem Identifizierung einer Störung in der Fabrikhalle, eine Logistikplattform, die Routen in Echtzeit neu berechnet. Diese Entscheidungen erfolgen kontinuierlich, in Millisekunden, an dem Punkt, an dem die Vorgänge tatsächlich ausgeführt werden.
Die Weiterleitung von Inferenz-Workloads an eine entfernte Hyperscale-Einrichtung führt zu Latenzzeiten, die mit vielen dieser Anwendungsfälle einfach nicht kompatibel sind. Ein chirurgisches Assistenzsystem kann nicht auf den Hin- und Rückflug zu einem Rechenzentrum in einer anderen Region warten. Das gilt auch nicht für ein industrielles Sicherheitssystem, eine autonome Inspektionsdrohne oder einen Echtzeit-Kundendienstmitarbeiter, der in der Infrastruktur der Einzelhandelsflächen läuft.
McKinsey prognostiziert, dass sich der weltweite Bedarf an Rechenzentren bis 2030 mehr als verdreifachen wird, was überwiegend auf Inferenz und nicht auf Schulungen zurückzuführen ist. Die Infrastruktur, die diesen Bedarf bedient, muss auf der Grundlage dessen aufgebaut werden, was die Inferenz tatsächlich erfordert, nämlich Berechnungen in der Nähe des Ortes, an dem die Entscheidung getroffen wird.
Die Antwort von P2P-Systemen bestand darin, die Verteilung nicht mehr als Problem zu betrachten, sondern sie als Architektur zu betrachten. BitTorrent hat nicht versucht, das Problem zu lösen Dateiübertragung durch den Aufbau schnellerer zentraler Server, aber es verteilte das Problem auf Tausende von Knoten: jeder in der Nähe eines Benutzers, jeder kümmert sich lokal um die lokale Nachfrage.
Wenn einzelne Knoten ausfielen, verschlechterte sich das System am Rande. Keine Zentrale Server Der Ausfall riss das gesamte Netzwerk mit sich. Die Architektur ging von Fehlern aus und baute darauf auf, wobei sie zentralisierte Alternativen in Bezug auf Geschwindigkeit, Belastbarkeit und Skalierbarkeit gleichzeitig übertraf.
Edge-Computing
Edge Computing wendet dieselbe Logik auf die KI-Infrastruktur an. Kleinere, modulare Recheneinrichtungen, die in der Nähe des Ortes positioniert sind, an dem Daten generiert und verbraucht werden, verteilen die Inferenzarbeitslast auf die Art und Weise, wie eine verteilte P2P-Dateiübertragung erfolgt. Jeder Standort trifft lokale Entscheidungen vor Ort. Das Netzwerk als Ganzes wird widerstandsfähiger, da keine einzelne Einrichtung die gesamte Last tragen kann.
Die zentrale Ausführung dieser Schlussfolgerung ist auch mit Kosten verbunden, die sich mit der Skalierung erhöhen: Jedes Mal, wenn Daten aus dem Netzwerk eines Hyperscale-Cloud-Anbieters verschoben werden, zahlen Unternehmen Gebühren für den ausgehenden Datenverkehr.
Bei KI-Arbeitslasten, die eine kontinuierliche Datenübertragung zwischen einer zentralen Einrichtung und verteilten Betriebsumgebungen erfordern, summieren sich diese Kosten auf eine Weise, die in der Planungsphase leicht zu unterschätzen ist. Durch die lokale Verarbeitung von Daten am Rande – in der Nähe des Ortes, an dem sie generiert werden – wird das Volumen, das das Netzwerk durchquert, von vornherein reduziert.
Ein Hardware-Shift verändert auch die Machbarkeitsberechnung auf Geräteebene. Neural Processing Units (NPUs), die speziell für KI-Inferenzaufgaben entwickelt wurden, sind jetzt darin eingebettet Smartphones, Laptopsund industrielle Edge-Geräte.
Die für die Ausführung leistungsfähiger Inferenz-Workloads erforderliche Rechenleistung ist stetig zurückgegangen, und Hardware, für die vor einigen Jahren ein Server-Rack erforderlich gewesen wäre, passt jetzt in ein Handheld-Gerät.
Da inferenzfähige Hardware billiger und physisch kompakter wird, wird die Annahme, dass jede Arbeitslast an eine zentrale Einrichtung zurückgeleitet werden muss, immer schwieriger aufrechtzuerhalten.
Datensouveränität
Da die Vorschriften zur Datensouveränität in der EU, Südostasien, Lateinamerika und darüber hinaus immer strenger werden, führt die Zentralisierung von Schlussfolgerungen in einer kleinen Anzahl von Einrichtungen zu rechtlicher Gefährdung.
Für Organisationen, die über mehrere Gerichtsbarkeiten hinweg tätig sind, löst die Edge-Infrastruktur dieses Problem von vornherein: Die Daten werden lokal innerhalb der jeweiligen Gerichtsbarkeit verarbeitet, ohne dass im Nachhinein komplexe rechtliche und technische Problemumgehungen erforderlich sind.
Ein weiterer wichtiger Aspekt ist schließlich, dass die Stromverfügbarkeit – und nicht der Preis – zur verbindlichen Einschränkung der Rechenzentrumskapazität wird. In Nord-Virginia, dem dichtesten Cloud-Hub der Welt, haben Versorgungsunternehmen aufgrund von Netzüberlastungen mit Zeitplänen für die Anbindung großer Projekte von bis zu sieben Jahren gerechnet.
Irlands Rechenzentren verbrauchen mittlerweile mehr als 20 % des nationalen Stroms. Diese Probleme sind das vorhersehbare Ergebnis der Konzentration enormer Rechenleistung auf eine kleine Anzahl von Standorten. Das Megawatt-Problem lässt sich jedoch leichter lösen, wenn es nicht an einem Ort gelöst werden muss.
Edge-Bereitstellungen verteilen die Arbeitslast auf viele kleinere Standorte und verteilen den Energiebedarf so, dass er besser mit der verfügbaren Netzkapazität übereinstimmt.
Nichts davon bedeutet, dass die Hyperscale-Infrastruktur verschwinden wird. Schulungs-Workloads, umfangreiche Datenverarbeitung und viele Unternehmensanwendungen werden weiterhin effizient in zentralisierten Cloud-Umgebungen ausgeführt.
Die Argumente für Edge sind keine Argumente gegen die Cloud, sondern eher für die Anpassung der Infrastrukturarchitektur an die tatsächlichen Anforderungen der Workloads.
Die Ingenieure, die P2P-Netzwerke aufgebaut haben, wussten, dass die Verteilung von Informationen über das Netzwerk dieses stärker und nicht schwächer macht.
Da Inferenz die KI aus dem Rechenzentrum an die Orte drängt, an denen Unternehmen tatsächlich tätig sind, wird diese Lektion wieder immer relevanter.
Wir haben die beste Backup-Software bewertet und bewertet.
Dieser Artikel wurde im Rahmen von erstellt TechRadar Pro-Perspektivenunser Kanal, um die besten und klügsten Köpfe der heutigen Technologiebranche vorzustellen.
Die hier geäußerten Ansichten sind die des Autors und nicht unbedingt die von TechRadarPro oder Future plc. Wenn Sie daran interessiert sind, einen Beitrag zu leisten, erfahren Sie hier mehr: https://www.techradar.com/pro/perspectives-how-to-submit


