Start Nachrichten Ich habe die lokale KI auf meinem M1-Mac getestet und erwartete Magie...

Ich habe die lokale KI auf meinem M1-Mac getestet und erwartete Magie – und bekam stattdessen einen Realitätscheck

37
0
Ich habe die lokale KI auf meinem M1-Mac getestet und erwartete Magie – und bekam stattdessen einen Realitätscheck

Das M1 MacBook Pro ist ein altes, aber immer noch leistungsfähiges Gerät im Jahr 2026.

Kyle Kucharski/ZDNET

Folgen Sie ZDNET: Fügen Sie uns als bevorzugte Quelle hinzu auf Google.


Die wichtigsten Erkenntnisse von ZDNET

  • Ollama macht es ziemlich einfach, Open-Source-LLMs herunterzuladen.
  • Selbst kleine Modelle können quälend langsam laufen.
  • Versuchen Sie dies nicht ohne einen neuen Computer mit 32 GB RAM.

Da ich seit über einem Jahrzehnt als Reporter über künstliche Intelligenz arbeite, wusste ich immer, dass der Einsatz künstlicher Intelligenz alle möglichen Herausforderungen in der Computertechnik mit sich bringt. Zum einen werden die großen Sprachmodelle immer größer und benötigen immer mehr DRAM-Speicher, um ihre Modell-„Parameter“ oder „neuronalen Gewichte“ auszuführen.

Auch: So installieren Sie ein LLM unter MacOS (und warum sollten Sie das tun)

Ich wusste das alles, aber ich wollte ein Gefühl dafür aus erster Hand bekommen. Ich wollte ein großes Sprachmodell auf meinem Heimcomputer ausführen.

Nun kann das Herunterladen und Ausführen eines KI-Modells viel Arbeit zum Einrichten der „Umgebung“ erfordern. Inspiriert von der Berichterstattung meines Kollegen Jack Wallen über das Open-Source-Tool Ollama habe ich die MacOS-Binärdatei von Ollama als mein Tor zur lokalen KI heruntergeladen.

Ollama ist relativ einfach zu bedienen und hat bei der Integration mit LangChain, Codex und mehr gute Arbeit geleistet, was bedeutet, dass es sich zu einem Werkzeug entwickelt, das viele Aspekte der KI zusammenführt, was spannend ist.

Gründe, es lokal zu belassen

Das lokale Ausführen von LLMs, anstatt nur online ChatGPT oder Perplexity einzugeben, ist nicht nur für Programmierer, sondern für jeden Informationsarbeiter sehr attraktiv.

Erstens sind Sie als Informationsarbeiter auf dem Arbeitsmarkt begehrenswerter, wenn Sie beispielsweise ein Modell herunterladen und ausführen können, anstatt wie jeder kostenlose Benutzer von ChatGPT in die Online-Eingabeaufforderung einzugeben. Wir sprechen hier von grundlegender beruflicher Weiterentwicklung.

Zweitens können Sie mit einer lokalen Instanz eines LLM verhindern, dass Ihre sensiblen Daten Ihren Computer verlassen. Das sollte für jeden Informationsarbeiter von offensichtlicher Bedeutung sein, nicht nur für Programmierer. In meinem Fall bestand mein Projektziel darin, lokale Modelle zu nutzen, um meinen eigenen Fundus an Artikeln im Laufe der Jahre zu durchsuchen, als eine Art Bericht über das, was ich geschrieben habe, einschließlich Dingen, die ich vielleicht vergessen habe. Mir gefiel die Idee, alle Dateien lokal zu behalten, anstatt sie in einen Cloud-Dienst hochzuladen.

Auch: Ich habe als Anfänger versucht, eine App mit Vibe zu programmieren – hier ist, was mir Cursor und Replit beigebracht haben

Drittens können Sie Gebühren vermeiden, die von OpenAI, Google, Anthropic und anderen erhoben werden. Wie ich kürzlich geschrieben habe, werden die Preise für die Online-Nutzung von LLMs voraussichtlich steigen. Daher ist jetzt ein guter Zeitpunkt, darüber nachzudenken, wie Sie den Großteil Ihrer Arbeit offline, auf Ihrem eigenen Computer, erledigen können, wo der Zähler nicht ständig läuft.

(Offenlegung: Ziff Davis, die Muttergesellschaft von ZDNET, reichte im April 2025 eine Klage gegen OpenAI ein und behauptete, das Unternehmen habe bei der Schulung und dem Betrieb seiner KI-Systeme die Urheberrechte von Ziff Davis verletzt.)

Viertens haben Sie viel mehr Kontrolle. Wenn Sie beispielsweise tatsächlich programmieren möchten, können Sie LLMs optimieren, was als Feinabstimmung bezeichnet wird, um gezieltere Ergebnisse zu erzielen. Und Sie können verschiedene lokal installierte Tools wie LangChain, das Claude Code-Tool von Anthropic, das Codex-Codierungstool von OpenAI und mehr verwenden.

Auch: Warum Sie im Jahr 2026 mehr für KI bezahlen werden und 3 Tipps zum Geldsparen, die Sie ausprobieren sollten

Selbst wenn Sie lediglich Informationsarbeitsaufgaben wie das Erstellen von Berichten erledigen möchten, können Sie dies mit einem lokalen Dokumenten-Cache oder einer lokalen Datenbank mit größerer Kontrolle erledigen als das Hochladen von Inhalten in den Bot.

Minimalstes Bare-Metal

Ich habe dieses Experiment mit einer absolut minimalen Maschine gestartet, soweit es zum Ausführen eines LLM erforderlich ist. Ich wollte herausfinden, was passieren würde, wenn jemand, der nicht ständig neue Maschinen kauft, versuchen würde, dies zu Hause auf demselben Computer zu tun, den er für alltägliche Aufgaben verwendet.

Mein MacBook Pro ist drei Jahre alt und verfügt über 16 Gigabyte RAM und eine Terabyte-Festplatte, die zu drei Vierteln gefüllt ist, und läuft nicht mit dem neuesten MacOS, sondern mit MacOS Sonoma. Es handelt sich um das Modell 2021 mit der Modellnummer MK193LL/A. Als ich es im Januar 2023 in einem Ausverkauf bei Best Buy kaufte, war es zwar erstklassig, aber schon damals war es das beste Modell von gestern.

Auch: 5 Gründe, warum ich lokale KI auf meinem Desktop verwende – anstelle von ChatGPT, Gemini oder Claude

Ich weiß, ich weiß: Das liegt über der typischen Nutzungsdauer von Maschinen und über jedem Abschreibungsplan. Nichtsdestotrotz war das MacBook damals ein großartiges Upgrade, und es leistet weiterhin täglich hervorragende Arbeit bei den typischen Aufgaben des Informationsarbeiters: Kalender, Unmengen von E-Mails, Unmengen von Websites, Video-Postproduktion, Podcast-Audioaufzeichnung und mehr. Ich habe nie Beschwerden. Hey, wenn es nicht kaputt ist, oder?

Die Frage war also: Wie würde diese ehrwürdige, aber immer noch mächtige Maschine eine ganz andere neue Art von Arbeitsbelastung bewältigen?

Ollama starten

Der Startbildschirm für Ollama sieht aus wie ChatGPT, mit einer freundlichen Eingabeaufforderung, einem „Plus“-Zeichen zum Hochladen eines Dokuments und einem Dropdown-Menü mit Modellen, die Sie lokal installieren können, darunter beliebte Modelle wie Qwen.

Wenn Sie bei der Eingabeaufforderung einfach mit der Eingabe beginnen, versucht Ollama automatisch, das im Dropdown-Menü angezeigte Modell herunterzuladen. Tippen Sie also nichts, es sei denn, Sie möchten Modell-Roulette spielen.

ollama-start-up-screen-jan-2026.png
Screenshot von Tiernan Ray für ZDNET

Stattdessen habe ich die Modelle in der Dropdown-Liste durchgesehen und festgestellt, dass einige dieser Modelle nicht lokal waren, sondern in der Cloud. Ollama betreibt einen Cloud-Dienst, wenn Sie dessen Infrastruktur anstelle Ihrer eigenen benötigen. Das kann nützlich sein, wenn Sie viel größere Modelle verwenden möchten, die Ihre eigene Infrastruktur übermäßig belasten würden.

Laut Preisseite bietet Ollama im kostenlosen Konto einen gewissen Zugriff auf die Cloud, mit der Möglichkeit, mehrere Cloud-Modelle zu betreiben, die im „Pro“-Plan für 20 US-Dollar pro Monat abgedeckt sind, und sogar noch mehr Nutzung im „Max“-Plan für 100 US-Dollar pro Monat.

Auch: Diese App macht die Verwendung der lokalen KI von Ollama auf MacOS-Geräten ganz einfach

Ich blieb bei den lokal ausgeführten Optionen und beschloss, einen Blick auf die breitere Liste der Modelle im von Ollama verwalteten Modellverzeichnis zu werfen.

Zufällig habe ich mich für glm-4.7-flash vom chinesischen KI-Startup Z.ai entschieden. Mit einem Gewicht von 30 Milliarden „Parametern“ oder neuronalen Gewichten wäre GLM-4.7-flash nach heutigen Maßstäben ein „kleines“ großes Sprachmodell, aber nicht winzig, da es Open-Source-Modelle mit weniger als einer Milliarde Parametern gibt. (Vor nicht allzu langer Zeit war eine Milliarde Parameter groß!)

Das Verzeichnis enthält die Terminalbefehle zum Herunterladen des ausgewählten Modells vom Mac-Terminal, indem Sie es einfach kopieren und an der Eingabeaufforderung einfügen, z. B.:

Ollama führt glm-4.7-flash aus

Achten Sie auf den Speicherplatz. Glm-4.7-Flash wiegt eine Festplattennutzung von 19 Gigabyte, und denken Sie daran: das ist klein!

Meiner Erfahrung nach scheint das Herunterladen von Modellen recht schnell, wenn auch nicht blitzschnell, zu sein. Auf einem Kabelmodem mit Gigabit-Geschwindigkeit zu meinem Heimbüro, das von Spectrum in New York City bereitgestellt wurde, lud das Modell zeitweise mit einer Geschwindigkeit von 45 Megabyte pro Sekunde herunter, sank jedoch später auf eine langsamere Durchsatzrate.

Kennenlernen des Modells

Meine erste Frage war ziemlich einfach: „Was für ein großes Sprachmodell sind Sie?“

Ich saß eine Weile da und beobachtete, wie die ersten Zeichen als Antwort auftauchten: „(Glühbirnensymbol) Nachdenken – Lass mich analysieren, was mich zu einem macht“ und das war’s.

Auch: Mein Lieblings-LLM-Tool hat gerade eine supereinfache Mac- und PC-App für lokale KI herausgebracht – warum Sie sie ausprobieren sollten

Zehn Minuten später war es nicht mehr viel weiter gekommen.

Lassen Sie mich analysieren, was mich zu einem großen Sprachmodell macht und wie ich dies dem Benutzer erklären kann.

Zunächst muss ich meine grundlegende Natur als KI-System berücksichtigen. Ich sollte erklären, dass ich darauf ausgelegt bin, menschliche Sprache anhand von Mustern in großen Datensätzen zu verstehen und zu generieren. Der Schlüssel liegt darin, klar zu sein

Und alles auf dem Mac war merklich träge geworden.

Fünfundvierzig Minuten später erzeugte glm-4.7-flash immer noch Gedanken über den Gedanken: „Lassen Sie mich diese Erklärung so strukturieren, dass sie zunächst klar und deutlich zum Ausdruck kommt …“ und so weiter.

Gefangen im schnellen Kriechen

Eine Stunde und 16 Minuten später – das Modell „dachte“ 5.197,3 Sekunden lang – hatte ich endlich eine Antwort auf meine Frage, was für ein Sprachmodell glm-4.7-flash sei. Die Antwort erwies sich trotz der aufgewendeten Zeit als gar nicht so interessant. Es verriet mir nicht viel über glm, was ich nicht selbst erraten hätte, und auch nichts Wichtiges über den Unterschied zwischen glm und anderen großen Sprachmodellen:

Ich dachte, ich wäre zu diesem Zeitpunkt mit glm fertig. Leider bietet Ollama keine Anweisungen zum Entfernen eines Modells, nachdem es lokal installiert wurde. Die Modelle werden in einem versteckten Ordner „.ollama“ im aktuellen Benutzerverzeichnis unter MacOS gespeichert, in einem anderen Ordner namens „models“. Im Modellordner befinden sich zwei Ordner, „blobs“ und „manifests“. Der Großteil eines Modells befindet sich im Blobs-Ordner. In den Manifesten befindet sich ein Ordner „Bibliothek“, der einen Ordner mit dem Namen für jedes heruntergeladene Modell enthält, und darin einen Ordner „Neueste“.

gpt-oss-thinking-about-itself-in-ollama-jan-2026.png
Screenshot von Tiernan Ray für ZDNET

Mit dem Terminal habe ich den Inhalt von Blobs und den Inhalt jedes Modellordners gelöscht, und das hat das Problem gelöst. (Jack teilte mir später mit, dass der Terminalbefehl zum Entfernen eines Modells „ollama rm“ lautet „.)

Jack hatte auch OpenAIs jüngstes Open-Source-Modell gpt-oss in der 20-Milliarden-Parameter-Variante „20b“ empfohlen, das seiner Meinung nach lokal deutlich schneller lief als andere, die er ausprobiert hatte. Also ging ich im Verzeichnis daneben.

Auch: Dies ist die schnellste lokale KI, die ich je ausprobiert habe, und sie ist noch nicht einmal annähernd so – wie man sie bekommt

Diesmal gab gpt-oss:20b nach etwa sechs Minuten – nicht im Schneckentempo, aber auch nicht schnell – die Antwort ab, dass es sich um „ChatGPT, powered by OpenAIs GPT-4-Familie“ handele, und so weiter.

Auf diese Antwort folgte eine schöne Tabelle mit Details. (Seltsamerweise sagte mir gpt-oss:20b, dass es „ungefähr 175 Milliarden Parameter“ habe, was darauf hindeutet, dass gpt-oss:20b seine eigene 20b-Identität nicht vollständig erfasst.)

gpt-oss-reflects-on-itself-january-2026.png
Screenshot von Tiernan Ray für ZDNET

Für eine einfache Eingabeaufforderung war das jedenfalls in Ordnung. Aber es war schon klar, dass ich mit etwas Ehrgeizigerem Probleme haben würde. Das Gefühl, auf die Antwort zu warten, war langsam genug – man könnte sagen, eine Art schnelles Kriechen –, dass ich es nicht wagte, noch mehr Komplexität hinzuzufügen, wie etwa das Hochladen einer ganzen Sammlung von Schriften.

Wir werden eine neuere Maschine brauchen

Der aktuelle ChatGPT-Onlinedienst von OpenAI (mit GPT5.2) sagt mir, dass eine Mindestkonfiguration für einen Computer mit gpt-oss:20b tatsächlich 32 Gigabyte DRAM beträgt. Das M1-Pro-Silizium des MacBook verfügt über eine integrierte GPU, und ChatGPT wies zustimmend darauf hin, dass Ollama die gpt-oss:20b-Version mit Unterstützung für die Mac-GPU ausgestattet hat, einer Bibliothek namens „llama.cpp-Backend“.

Auch: Ich habe den einzigen Agenten-Browser ausprobiert, der lokale KI ausführt – und habe nur einen Nachteil festgestellt

Also sollte alles in Ordnung sein, aber ich brauche wirklich mehr DRAM als nur 16 GB. Und ich muss vom mittlerweile fünf Jahre alten M1 auf einen M4 oder M5 umsteigen. Nach drei Jahrzehnten, in denen ich über Computer schreibe, ist es für mich ziemlich faszinierend, dass wir für einen Informationsarbeiter von 32 Gigabyte als vernünftiger Mindestkonfiguration sprechen.

Wie ich kürzlich erwähnt habe, steigen die Preise für DRAM in die Höhe, weil all diese Cloud-Rechenzentren immer mehr DRAM verbrauchen, um große Sprachmodelle auszuführen. Ich bin also gegen die Cloud-Anbieter, könnte man sagen, und ich werde wahrscheinlich auf die Kreditkarte zurückgreifen, um gegen einen neuen Computer einzutauschen. (Apple gibt mir als Inzahlungnahme etwa 599 US-Dollar für mein M1 MacBook.)

Auch wenn meine noch jungen lokalen Ollama-Bemühungen keinen Erfolg brachten, hat sie mir ein neues Verständnis dafür vermittelt, wie speicherintensiv KI ist. Ich wusste das immer aus jahrelanger Berichterstattung über KI, aber jetzt spüre ich es in meinen Knochen, dieses Gefühl, wenn die Reaktion auf die Aufforderung ewig dauert, über den Bildschirm zu scrollen.



Quelle

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein