- Roboter versagen immer noch schnell, wenn sie aus vorhersehbaren Fabrikumgebungen entfernt werden
- Microsoft Rho-alpha verknüpft das Sprachverständnis direkt mit der Bewegungssteuerung von Robotern
- Die taktile Wahrnehmung ist von zentraler Bedeutung, um die Lücken zwischen Software und physischer Aktion zu schließen
In streng kontrollierten industriellen Umgebungen mit vorhersehbaren Umgebungen und begrenzten Abweichungen arbeiten Roboter seit langem zuverlässig, aber außerhalb davon haben sie oft Probleme.
Um dieses Problem zu lindern, Microsoft hat angekündigt Rho-Alphadem ersten Robotikmodell, das aus der Vision-Language-Serie Phi abgeleitet wurde, argumentiert, dass Roboter bessere Möglichkeiten brauchen, um Anweisungen zu sehen und zu verstehen
Das Unternehmen ist davon überzeugt, dass Systeme über Fließbänder hinaus funktionieren können, indem sie auf sich ändernde Bedingungen reagieren, anstatt starren Skripten zu folgen.
Wofür Rho-alpha entwickelt wurde
Microsoft verknüpft dies mit der sogenannten physischen KI, bei der von Softwaremodellen erwartet wird, dass sie Maschinen durch weniger strukturierte Situationen führen.
Es kombiniert Sprache, Wahrnehmung und Aktion, wodurch die Abhängigkeit von festen Produktionslinien oder Anweisungen verringert wird.
Rho-alpha übersetzt Befehle in natürlicher Sprache in Robotersteuersignale und konzentriert sich auf bimanuelle Manipulationsaufgaben, die eine Koordination zwischen zwei Roboterarmen und eine feinkörnige Steuerung erfordern.
Microsoft charakterisiert das System als eine Erweiterung typischer VLA-Ansätze, indem es sowohl Wahrnehmungs- als auch Lerneingaben erweitert.
„Das Aufkommen von Vision-Language-Action (VLA)-Modellen für physische Systeme ermöglicht es Systemen, neben Menschen in Umgebungen, die weit weniger strukturiert sind, zunehmend autonom wahrzunehmen, zu denken und zu handeln“, sagte Ashley Llorens, Corporate Vice President und Managing Director, Microsoft Research Accelerator
Rho-Alpha umfasst neben der visuellen Wahrnehmung auch die taktile Wahrnehmung, mit weiteren Wahrnehmungsmodalitäten wie der Krafterkennung, die sich in einer fortlaufenden Entwicklung befindet.
Diese Designentscheidungen deuten auf einen Versuch hin, die Kluft zwischen simulierter Intelligenz und physischer Interaktion zu verringern, ihre Wirksamkeit wird jedoch noch evaluiert.
Ein zentraler Teil des Ansatzes von Microsoft basiert auf Simulationen, um begrenzte große Robotikdaten zu verarbeiten, insbesondere Daten, die Berührungen beinhalten.
Durch verstärkendes Lernen im Inneren werden synthetische Flugbahnen erzeugt Nvidia Isaac Sim, dann kombiniert mit physischen Demonstrationen aus kommerziellen und offenen Datensätzen.
„Die Ausbildung von Grundmodellen, die schlussfolgern und handeln können, erfordert die Überwindung der Knappheit vielfältiger, realer Daten“, sagte Deepu Talla, Vizepräsident für Robotik und Edge AI bei Nvidia.
„Durch die Nutzung von NVIDIA Isaac Sim auf Azure zur Generierung physikalisch genauer synthetischer Datensätze beschleunigt Microsoft Research die Entwicklung vielseitiger Modelle wie Rho-alpha, die komplexe Manipulationsaufgaben bewältigen können.“
Microsoft legt außerdem großen Wert auf menschliche Korrektureingaben während der Bereitstellung, sodass Bediener mithilfe von Teleoperationsgeräten eingreifen und Feedback geben können, aus dem das System im Laufe der Zeit lernen kann.
Diese Trainingsschleife verbindet Simulation, reale Daten und menschliche Korrektur und spiegelt die wachsende Abhängigkeit davon wider KI-Tools um knappe verkörperte Datensätze auszugleichen.
Professor Abhishek Gupta, Assistenzprofessor an der University of Washington, sagte: „Während die Generierung von Trainingsdaten durch Teleoperation von Robotersystemen zur Standardpraxis geworden ist, gibt es viele Situationen, in denen Teleoperation unpraktisch oder unmöglich ist.“
„Wir arbeiten mit Microsoft Research zusammen, um von physischen Robotern gesammelte Pre-Training-Datensätze mit verschiedenen synthetischen Demonstrationen anzureichern, indem wir eine Kombination aus Simulation und Reinforcement Learning nutzen.“
Folgen Sie TechRadar auf Google News Und Fügen Sie uns als bevorzugte Quelle hinzu um unsere Expertennachrichten, Rezensionen und Meinungen in Ihren Feeds zu erhalten. Klicken Sie unbedingt auf die Schaltfläche „Folgen“!
Und natürlich können Sie das auch Folgen Sie TechRadar auf TikTok für Neuigkeiten, Rezensionen, Unboxings in Videoform und erhalten Sie regelmäßige Updates von uns WhatsApp zu.



