Wie viele Pinguine sind in diesem Tiervideo zu sehen? Können Sie den orangefarbenen Ball im Katzenvideo verfolgen? Welche Mannschaften spielen und wer hat getroffen? Gib mir eine Schritt-für-Schritt-Anleitung aus diesem Kochvideo?
Dies sind Beispiele für Abfragen, die von bearbeitet werden können Mund 2eine neue Familie von Open-Source-KI-Vision-Modellen des Allen Institute for AI (Ai2), die Videos ansehen, verfolgen, analysieren und Fragen dazu beantworten können: Beschreiben, was passiert, und genau lokalisieren, wo und wann.
Ai2 zitiert Benchmark-Tests, die zeigen, dass Molmo 2 Open-Source-Modelle bei der kurzen Videoanalyse und -verfolgung übertrifft und geschlossene Systeme wie Googles Gemini 3 bei der Videoverfolgung übertrifft, während es bei anderen Bild- und Videoaufgaben annähernd deren Leistung erreicht.
In einer Reihe von Demos für Reporter zeigten Forscher kürzlich in den Ai2-Büros in Seattle, wie Molmo 2 eine Vielzahl kurzer Videoclips auf unterschiedliche Weise analysieren kann.
- In einem Fußballclip fragten Forscher, welcher Abwehrfehler zu einem Tor führte. Das Modell analysierte die Sequenz und wies darauf hin, dass es nicht gelungen war, den Ball effektiv zu klären.
- In einem Baseball-Clip identifizierte die KI die Mannschaften (Angels und Mariners), den Spieler, der ein Tor erzielte (#55), und erklärte, woher sie die Heimmannschaft kannte, indem sie die Uniformen und das Stadionlogo las.
- Anhand eines Kochvideos gab das Model ein strukturiertes Rezept mit Zutaten und Schritt-für-Schritt-Anleitungen zurück, einschließlich der Zeitvorgabe, die aus dem Text auf dem Bildschirm entnommen wurde.
- Als das Modell gebeten wurde, zu zählen, wie viele Drehungen ein Tänzer ausführte, sagte es nicht nur „fünf“, sondern lieferte Zeitstempel und Pixelkoordinaten für jeden einzelnen.
- In einer Tracking-Demo folgte das Modell vier Pinguinen, während sie sich im Bild bewegten, und behielt eine konsistente ID für jeden Vogel bei, auch wenn sie sich überlappten.
- Als das Model gebeten wurde, „das Auto zu verfolgen, das am Ende am Auto Nr. 13 vorbeifährt“, schaute es sich zunächst einen gesamten Rennclip an, verstand die Abfrage, ging dann zurück und identifizierte das richtige Fahrzeug. Es verfolgte Autos, die in den Rahmen hinein- und herausfuhren.
Großes Jahr für Ai2
Molmo 2, das am Dienstagmorgen angekündigt wurde, krönt ein Jahr wichtiger Meilensteine für die in Seattle ansässige gemeinnützige Organisation, die durch die Entwicklung vollständig offener KI-Systeme eine treue Anhängerschaft in Geschäfts- und Wissenschaftskreisen aufgebaut hat. Sein Ansatz steht in scharfem Kontrast zu den geschlossenen oder teilweise offenen Ansätzen von Branchenriesen wie OpenAI, Google, Microsoft und Meta.
Ai2 wurde 2014 vom verstorbenen Microsoft-Mitbegründer Paul Allen gegründet brachte 152 Millionen Dollar ein von NSF und Nvidia, Partner bei einem KI-Krebsforschungsinitiativee unter der Leitung von Fred Hutch aus Seattle und veröffentlicht Ulme 3ein Textmodell, das mit Meta, DeepSeek und anderen konkurriert.
Ai2 habe in diesem Jahr mehr als 21 Millionen Downloads seiner Modelle und fast 3 Milliarden Abfragen auf seinen Systemen verzeichnet, heißt es Ali Farhadider CEO von Ai2, während der Medienbesprechung letzte Woche im neuen Hauptsitz des Instituts am Nordufer des Lake Union in Seattle.
Als gemeinnützige Organisation versucht Ai2 nicht, kommerziell mit den Technologiegiganten zu konkurrieren, sondern zielt darauf ab, den Stand der Technik voranzutreiben und diese Fortschritte frei verfügbar zu machen.
Das Institut hat offene Modelle für Text (OLMo), Bilder (das ursprüngliche Molmo) und jetzt auch für Video veröffentlicht – und baut damit auf das hin, was er als einheitliches Modell bezeichnet, das alle Modalitäten berücksichtigt.
„Im Grunde bauen wir Modelle, die mit den Besten auf dem Markt konkurrieren können“, sagte Farhadi – aber auf völlig offene Weise, für eine Reihe unterschiedlicher Medien und Situationen.
Zusätzlich zu Molmo 2 wurde am Montag Ai2 veröffentlicht Bolmoein experimentelles Textmodell, das Sprache auf Zeichenebene und nicht in Wortfragmenten verarbeitet – ein technischer Wandel, der den Umgang mit Rechtschreibung, seltenen Wörtern und mehrsprachigem Text verbessert.
Erweiterung zur Videoanalyse
Beim neu veröffentlichten Molmo 2 liegt der Fokus auf Video. Um es klar zu sagen: das Modell Analysen Wenn Sie ein Video erstellen, wird kein Video generiert. Denken Sie eher daran, Filmmaterial zu verstehen, als es zu erstellen.
Das ursprüngliche Molmo, das letzten September veröffentlicht wurde, konnte statische Bilder mit einer Präzision analysieren, die mit Closed-Source-Konkurrenten mithalten konnte. Es wurde eine „Zeige“-Funktion eingeführt, die es ermöglichte, bestimmte Objekte innerhalb eines Frames zu identifizieren. Molmo 2 bietet denselben Ansatz für das Video- und Mehrbildverständnis.

Das Konzept ist nicht neu. Googles Gemini, OpenAIs GPT-4o und Metas Perception LM können alle Videos verarbeiten. Aber im Einklang mit der umfassenderen Mission von Ai2 als gemeinnütziges Institut ist Molmo 2 vollständig offen und seine Modellgewichte, Trainingscodes und Trainingsdaten sind alle öffentlich veröffentlicht.
Das unterscheidet sich von Modellen mit „offenem Gewicht“, die das Endprodukt, aber nicht das Originalrezept freigeben, und einen starken Kontrast zu geschlossenen Systemen von Google, OpenAI und anderen.
Die Unterscheidung ist nicht nur ein akademisches Prinzip. Der Ansatz von Ai2 bedeutet, dass Entwickler das Verhalten eines Modells auf seine Trainingsdaten zurückführen, es für bestimmte Verwendungszwecke anpassen und vermeiden können, an das Ökosystem eines Anbieters gebunden zu sein.
Ai2 legt auch Wert auf Effizienz. Metas Perception LM wurde beispielsweise anhand von 72,5 Millionen Videos trainiert. Molmo 2 verwendete etwa 9 Millionen und stützte sich auf hochwertige menschliche Anmerkungen.
Das Ergebnis ist laut Ai2 ein kleineres, effizienteres Modell, das sein eigenes, viel größeres Modell vom letzten Jahr übertrifft und den kommerziellen Systemen von Google und OpenAI nahe kommt, während es gleichzeitig einfach genug ist, um auf einem einzelnen Computer ausgeführt zu werden.
Als der ursprüngliche Molmo letztes Jahr seine Zeigefunktion einführte, die es dem Modell ermöglichte, bestimmte Objekte in einem Bild zu identifizieren, übernahmen Konkurrenzmodelle diese Funktion schnell.
„Wir wissen, dass sie unsere Daten übernommen haben, weil sie genauso gut funktionieren wie wir“, sagte er Ranjay Krishnader das Computer-Vision-Team von Ai2 leitet. Krishna ist außerdem Assistenzprofessor an der University of Washington und mehrere seiner Doktoranden arbeiten ebenfalls an dem Projekt.
Farhadi stellt die Wettbewerbsdynamik anders dar als die meisten in der Branche.
„Wenn Sie wirklich Open Source machen würden, würde ich das Wort tatsächlich ändern Wettbewerb Zu Zusammenarbeit„, sagte er. „Weil es keinen Grund gibt, zu konkurrieren. Alles ist da draußen. Sie müssen kein Reverse Engineering durchführen. Sie müssen es nicht neu erstellen. Schnappen Sie es sich einfach, bauen Sie darauf auf und machen Sie das nächste. Und wir lieben es, wenn Leute das tun.“
Eine laufende Arbeit
Gleichzeitig weist Molmo 2 einige klare Einschränkungen auf. Die Tracking-Fähigkeit – das Verfolgen von Objekten über Frames hinweg – liegt derzeit bei etwa 10 Elementen. Bitten Sie es, eine Menschenmenge oder eine stark befahrene Autobahn zu verfolgen, und das Modell kann nicht mithalten.
„Das ist eine sehr, sehr neue Fähigkeit, und sie ist so experimentell, dass wir ganz klein anfangen“, sagte Krishna. „Dafür gibt es keine technologischen Grenzen, es sind lediglich mehr Daten und mehr Beispiele für wirklich überfüllte Szenen erforderlich.“
Auch lange Videos bleiben eine Herausforderung. Das Modell schneidet bei kurzen Clips gut ab, aber die Analyse längerer Aufnahmen erfordert Rechenleistung, die Ai2 noch nicht bereit ist, auszugeben. Auf dem Spielplatz, der parallel zu Molmo 2 startet, sind hochgeladene Videos auf 15 Sekunden begrenzt.
Und im Gegensatz zu einigen kommerziellen Systemen verarbeitet Molmo 2 keine Live-Videostreams. Es analysiert Aufnahmen im Nachhinein. Krishna sagte, das Team erforsche Streaming-Funktionen für Anwendungen wie die Robotik, bei denen ein Modell in Echtzeit auf Beobachtungen reagieren müsste, aber diese Arbeit sei noch am Anfang.
„Es gibt Methoden, die sich die Leute ausgedacht haben, um Videos im Laufe der Zeit zu verarbeiten und Videos zu streamen“, sagte Krishna. „Das sind Richtungen, die wir als nächstes untersuchen.“
Molmo 2 ist ab heute auf Hugging Face und erhältlich Ai2s Spielplatz.



