- Immer mehr große Nachrichtenseiten blockieren die Wayback Machine
- Berichten zufolge sind darunter 23 Organisationen, die verhindern, dass ihre Inhalte im Archiv erscheinen
- Dies geschieht aufgrund der Befürchtungen, dass die Wayback Machine zum Scraping von KI-Inhalten missbraucht wird
Die Wayback-Maschine ist einer ernsthaften Bedrohung ausgesetzt (und das nicht zum ersten Mal), da eine wachsende Zahl großer Nachrichten-Websites offenbar das Archivierungssystem blockiert.
Wenn Sie mit der Wayback Machine nicht vertraut sind: Sie wird vom gemeinnützigen Internet Archive betrieben und ist im Wesentlichen eine Zeitmaschine, die die Geschichte des Webs (und mehr) speichert. Dies kann beispielsweise bei historischen Recherchen oder der Überwachung von Änderungen auf Websites von entscheidender Bedeutung sein.
Wie Wired berichtet (über 9 to 5 Mac), gibt es einen wachsenden Trend, dass Online-Nachrichtenagenturen den Webcrawler blockieren, den das Internet Archive zum Sammeln seiner Schnappschüsse verwendet. Laut Originality AI (das auf KI-Erkennung spezialisiert ist) tun dies derzeit etwa 23 große Nachrichtenseiten.
Der Artikel wird weiter unten fortgesetzt
Dazu gehören die New York Times (basierend auf einem Bericht von Nieman Lab) und USA Today, wobei Wired hervorhebt, dass Letzterer kürzlich einen Bericht darüber veröffentlicht hat, wie die US-Einwanderungs- und Zollbehörde die Offenlegung wichtiger Informationen über die Auswirkungen von Inhaftierungsrichtlinien verzögert hat. Dies war ein Artikel, der die Wayback-Maschine in seiner Recherche ausgiebig nutzte.
Die Ironie, dass USA Today diese Daten auf diese Weise verwendet und der Wayback Machine dennoch den Zugriff auf ihre eigenen Inhalte verweigert – was möglicherweise dazu führen könnte, dass die Nachrichtenseite selbst in Zukunft ehrlich bleibt –, ist Wayback Machine-Direktor Mark Graham nicht entgangen.
Graham sagte gegenüber Wired: „Sie sind in der Lage, ihre Story-Recherche zusammenzuführen, weil die Wayback-Maschine existiert. Gleichzeitig blockieren sie den Zugriff.“
Wenn natürlich immer mehr Organisationen beginnen, die Wayback-Maschine zu blockieren, wird ihre Fähigkeit, eine historische Aufzeichnung von Online-Inhalten zu führen, zunehmend beeinträchtigt.
Analyse: (erneut) die Schuld auf die KI schieben
Warum passiert das? Hier geht es nicht darum, dass Leser Paywall-Inhalte mithilfe der Wayback Machine umgehen, falls Sie dachten, das sei das Problem, um das es geht. Würde es Sie überraschen, wenn Sie auf Umwegen erfahren würden, dass es tatsächlich um KI geht? Natürlich wäre das nicht der Fall, und wie vorhersehbar scheint es, dass das Internet Archive hier in die breite Gegenreaktion gegen die KI verwickelt ist.
Was diese Nachrichtenorganisationen nach eigener Aussage ablehnen, ist nicht die historische Aufzeichnung ihrer Inhalte, die gepflegt wird, sondern die Tatsache, dass dieses Archiv von dritten KI-Firmen zum Trainieren ihrer Modelle (LLMs) verwendet werden kann.
Wie Wired betont, sagte Graham James, Sprecher der New York Times: „Das Problem besteht darin, dass Inhalte der Times im Internetarchiv von KI-Unternehmen unter Verletzung des Urheberrechts verwendet werden, um direkt mit uns zu konkurrieren.“
Kurz gesagt besteht die Sorge dieser Unternehmen darin, dass sie solche KI-Scraping-Aktivitäten möglicherweise selbst blockieren können, dies jedoch weiterhin hinter ihrem Rücken über die Wayback-Maschine geschieht. Diese Sorgen haben nicht nur große Nachrichtenagenturen, sondern auch Social-Media-Plattformen, insbesondere Reddit, das den Webcrawler der Wayback Machine aufgrund genau derselben Bedenken blockiert hat.
Während es andere mögliche Quellen und Möglichkeiten gibt, Nachrichteninhalte indirekt zu extrahieren, ist die Wayback Machine das offensichtlichste Ziel für betrügerische KI-Betreiber, da sie eine so umfangreiche Bibliothek an Webhistorien verwaltet.
Es handelt sich also um ein komplexes Thema im Zusammenhang mit KI-Scraping und einer ganzen Reihe von Grauzonen in Bezug auf die Legalität. Allerdings sind die Auswirkungen auf eine wichtige Ressource zur Kontrolle von Regierungen oder Mediengiganten – und zur Rechenschaftspflicht für das, was in der Vergangenheit gesagt wurde oder in manchen Fällen vollständig aus dem Internet gelöscht wurde – eindeutig besorgniserregend.
Graham behauptet: „Es steht außer Frage, dass die allgemeine Sperrung immer größerer Teile des öffentlichen Internets die Fähigkeit der Gesellschaft beeinträchtigt, zu verstehen, was in unserer Welt vor sich geht.“
Eine Petition mit dem Titel „Journalisten begrüßen die Rolle des Internetarchivs bei der Bewahrung öffentlicher Aufzeichnungen“ wurde zusammengestellt und mit über 100 Unterschriften von arbeitenden Journalisten verschickt. Unterdessen ist ein Dialog zwischen dem Internetarchiv und den besagten Nachrichtenverlegern im Gange, so dass die Hoffnung, hier eine praktikable Lösung zu finden, noch nicht verloren ist.

Die besten Computer für jedes Budget
Folgen Sie TechRadar auf Google News Und Fügen Sie uns als bevorzugte Quelle hinzu um unsere Expertennachrichten, Rezensionen und Meinungen in Ihren Feeds zu erhalten. Klicken Sie unbedingt auf die Schaltfläche „Folgen“!
Und natürlich können Sie das auch Folgen Sie TechRadar auf TikTok für Neuigkeiten, Rezensionen, Unboxings in Videoform und erhalten Sie regelmäßige Updates von uns WhatsApp zu.



