Von AWS bis Cloudflare war 2025 ein Jahr voller großer Ausfälle und Cyberangriffe. Diese haben insbesondere die Abhängigkeit von einigen wenigen Auserwählten deutlich gemacht Cloud-Anbieter und Schwachstellen in komplexen IT-Umgebungen. Es war auch ein Jahr, in dem KI hat die Arbeitsweise von Organisationen weiter verändert.
Neue Tools definieren die Art und Weise, wie IT-Teams ihre Infrastruktur verwalten, neu, während Einstiegsaufgaben zunehmend von KI übernommen werden, was radikal verändert, welche Fähigkeiten in der Belegschaft benötigt werden und wie Mitarbeiter darin geschult werden.
Leitender technischer Architekt bei Cloudhouse.
Im Jahr 2026 werden diese Trends bestimmen, wie Unternehmen an die Verwaltung und Modernisierung ihrer IT-Bestände herangehen. Doch was müssen Unternehmen tun, um dies sicherzustellen? Infrastruktur bleibt auch im kommenden Jahr belastbar, sicher und anpassungsfähig?
Das Jahr des KI-Agenten
Wir sehen bereits einen Wandel in der Art und Weise, wie Organisationen und ihre Teams mit KI interagieren. 2026 wird definitiv das Jahr des KI-Agenten sein – im Wesentlichen eines virtuellen Assistenten, der für Sie autonom arbeiten kann, um eine festgelegte Aufgabe oder ein festgelegtes Ziel zu erreichen.
IT-Teams werden in der Lage sein, automatisch Checks and Balances aufzubauen, was bedeutet, dass Aufgaben intelligenter umgesetzt werden können, die über „Aufgabe A ist mit Aufgabe B passiert“ hinausgehen. Agenten können in Echtzeit mit minimalem menschlichen Aufwand arbeiten, um eine kontinuierliche Überwachung der IT-Bestände sicherzustellen.
Insgesamt wird dies dazu beitragen, eine widerstandsfähigere und selbstheilende Architektur aufzubauen. Auf der Legacy-Seite wird es den Einsatz von KI vorantreiben, um veraltete Technologien besser zu verstehen oder Möglichkeiten zu entwickeln, diese zu kommunizieren oder für den modernen Gebrauch zu übersetzen.
Chaos Engineering wird entscheidend sein, um Chaos zu verhindern
Es ist die bedauerliche Wahrheit, dass es in diesem Jahr noch mehr Ausfälle aufsehenerregender Art geben wird. Nachdem AWS, Cloudflare und Azure in diesem Jahr Opfer solcher Ereignisse wurden, müssen Unternehmen ihre betriebliche Widerstandsfähigkeit für das neue Jahr bewerten.
Eine der wichtigsten Möglichkeiten, dies zu erreichen, wird darin bestehen, ein echtes Failover zu testen, also eine reale Katastrophe wie einen Ausfall zu simulieren, um die Wirksamkeit eines Notfallwiederherstellungsplans zu bewerten.
Dies bedeutet, dass vierteljährlich Chaos-Experimente in der Produktion mit kontrolliertem Explosionsradius (Auswirkungen eines Ausfalls oder einer Sicherheitsverletzung) durchgeführt werden, um die tatsächlichen Wiederherstellungsfähigkeiten zu validieren, nicht theoretische Runbooks.
Aus technischer Sicht müssen Teams kritische Geschäftsdomänen abbilden und architektonisch isolieren. Dabei geht es darum, herauszufinden, welche Dienste auf keinen Fall gemeinsam scheitern dürfen, und klare Grenzen zwischen ihnen zu ziehen.
Um dann die Zustimmung der Organisation zu erhalten, muss für den Vorstand die Bedeutung der Resilienz in geschäftlicher Hinsicht definiert werden. IT-Teams müssen den durch Ausfallzeiten verursachten Verlust des Customer Lifetime Value (CLV) berechnen (z. B. 25 %). Kunde Abwanderung nach Zuverlässigkeitsausfällen), quantifizieren behördliche Strafen und verknüpfen Betriebszeitkennzahlen mit den Auswirkungen auf den Umsatz.
Eine stärkere Umstellung auf Multi-Vendor-Modelle
Die Gefahr von Ausfällen ist stärker denn je. Daher erwarten wir eine strategischere Arbeitslastverteilung und eine Denkweise, „nicht alles überall laufen zu lassen“.
Die Teams werden damit beginnen, Arbeitslasten basierend auf den Stärken des Anbieters zu verteilen (AWS für die Breite, Azure für Microsoft Integration, GCP für Daten/KI) und stellt gleichzeitig sicher, dass kritische Pfade über ein Cloud-übergreifendes Failover verfügen.
Um dies zu erreichen, wird die Verwendung von Infrastructure-as-Code Cloud-agnostische Bereitstellungen ermöglichen, während die Mischung regionaler und spezialisierter Cloud-Anbieter das Konzentrationsrisiko über das Hyperscaler-Oligopol hinaus verringert.
Wiederkehrende Ausfälle könnten dazu führen, dass Teams domänengesteuerte Designs übernehmen, um den Explosionsradius einzudämmen. Beispielsweise können Systeme nach Geschäftsfähigkeit getrennt werden, damit ein Ausfall eines Zahlungsdienstes nicht zum Ausfall des gesamten Systems führt E-Commerce Plattform.
Für bestimmte Anwendungsfälle mit stetigem Ressourcenbedarf kann die On-Premise-Infrastruktur als kostengünstiger und zuverlässiger angesehen werden als Cloud-Betriebsmodelle.
Technische Schulden werden weiterhin die Systemzuverlässigkeit beeinträchtigen
Unser aktueller Bericht ergab, dass nur 10 % der Unternehmen in den Bereichen Regierung, Fertigung und Finanzen keine technischen Windows-Schulden haben (die versteckten Kosten und Risiken, die entstehen, wenn Unternehmen die Aktualisierung oder Modernisierung ihrer IT-Systeme verzögern).
Dies veranschaulicht ein umfassenderes Bild, in dem die Verwendung veralteter Anwendungen wie Windows-End-of-Life-Apps zu fragilen Integrationspunkten und Sicherheitslücken führt.
Verbindungen zwischen modernen Cloud-Diensten und jahrzehntealten Mainframes sind schwer zu überwachen und werden zu Angriffsvektoren für böswillige Akteure, wenn veraltete Apps über keine moderne Authentifizierung verfügen. Verschlüsselungoder Patch-Management.
Ältere Apps können nicht an modernen Ausfallsicherheitsmustern teilnehmen, sodass sie unabhängig vom Reifegrad der Cloud-Infrastruktur zur Zuverlässigkeitsobergrenze werden.
Entscheidend ist, dass diese technischen Schulden eine Talentlücke schaffen. Bei einem prognostizierten Mangel an 100.000 Entwicklern wird es länger dauern und teurer sein, Leute zu finden, die bei Ausfällen Altsystemausfälle diagnostizieren und reparieren.
KI wird eine aktive Rolle bei der Reduzierung dieser Risiken spielen
Angesichts der drohenden Risiken werden KI-gestützte Resilienztools für den Schutz von IT-Beständen immer wichtiger. Der Einsatz von KI-gesteuerter Beobachtbarkeit wird beispielsweise von grundlegender Bedeutung sein, um Ausfälle vorherzusagen und Probleme zu erkennen, bevor es zu Ausfällen kommt.
Dazu gehört die Bereitstellung von Plattformen, die den gesamten IT-Bestand, Anwendungsprotokolle und Geschäftsdaten überwachen können, um Muster zu erkennen, die auf drohende Ausfälle hinweisen (Speicherlecks, Integrationszeitüberschreitungen), und automatisch vorbeugende Maßnahmen auszulösen.
Selbstheilung Automatisierung wird dann häufige Fehlerszenarien angehen, ohne auf Menschen warten zu müssen, während die kontinuierliche KI-gesteuerte Compliance-Überwachung und Abweichungserkennung automatisch neue Risiken in Legacy-Umgebungen erkennen und Abhilfeempfehlungen generieren wird.
All dies gibt IT-Teams mehr Zeit, Strategien zu entwickeln und ihre Infrastruktur proaktiv zu verwalten.
KI wird auch als wirksames Mittel zur Überwindung veralteter Codebasen und Sprachen genutzt. Generative KI kann beispielsweise jahrzehntealten Quellcode crawlen, ihn in natürliche Sprache übersetzen und Geschäftsspezifikationen erstellen, für deren manuelle Erstellung menschliche Teams Monate benötigen würden.
Dazu gehört die automatische, vorhersehbare und skalierbare Konvertierung älterer Sprachen in moderne Stacks.
Und im Hinblick auf die Talentlücke wird KI in der Lage sein, Entwicklern, die mit älteren Sprachen nicht vertraut sind, in Echtzeit Codierungsvorschläge und Unterstützung anzubieten und so die Produktivität der knappen Fachkräfte zu vervielfachen.
2026: Weniger Vertrauen, mehr Proaktivität
Die Risiken und Bedrohungen für die IT waren noch nie so groß. Aber auch die Tools zur Verwaltung von IT-Beständen waren noch nie so fortschrittlich. KI-Agenten, Chaos Engineering und die Abkehr von einzelnen Cloud-Anbietern dürften das kommende Jahr dominieren.
Da Unternehmen versuchen, sich vor kostspieligen Ausfällen und Cyberangriffen zu schützen, ist die Modernisierung ihrer Legacy-Anwendungen und die kontinuierliche Überwachung ihrer IT-Bestände auf Risiken von entscheidender Bedeutung, um die Widerstandsfähigkeit sicherzustellen.
Um an der Spitze zu bleiben, sollten IT-Führungskräfte damit beginnen, Altrisiken abzubilden und der Sanierung technischer Schulden Priorität einzuräumen, KI-Agenten für Routineaufgaben zu testen und Infrastruktur als Code zu implementieren, um dies zu ermöglichen Wolke Portabilität.
Planen Sie vierteljährliche Chaos-Engineering-Übungen, um die Widerstandsfähigkeit unter realen Bedingungen zu überprüfen und die finanziellen Auswirkungen von Ausfallzeiten zu quantifizieren, von Umsatzeinbußen bis hin zur Kundenabwanderung, um Sponsoring auf Vorstandsebene zu sichern.
Diese Schritte werden nicht nur die IT-Bestände vor Ausfällen schützen, sondern auch die Widerstandsfähigkeit als strategischen Vorteil und nicht als reaktive Maßnahme positionieren.
Wir haben die beste Endpoint-Schutzsoftware vorgestellt.
Dieser Artikel wurde im Rahmen des Expert Insights-Kanals von TechRadarPro erstellt, in dem wir die besten und klügsten Köpfe der heutigen Technologiebranche vorstellen. Die hier geäußerten Ansichten sind die des Autors und nicht unbedingt die von TechRadarPro oder Future plc. Wenn Sie daran interessiert sind, einen Beitrag zu leisten, erfahren Sie hier mehr: https://www.techradar.com/news/submit-your-story-to-techradar-pro



