Microsoft erweitert seine Liste an hauseigenen KI-Modellen, veröffentlicht ein neues Speech-to-Text-System und stellt Entwicklern erstmals zwei bestehende Modelle allgemein zur Verfügung.
Die Schritte von Microsoft AI (MAI) sind Teil einer umfassenderen Anstrengung des Unternehmens, seine proprietären KI-Funktionen über die Partnerschaft mit OpenAI hinaus zu erweitern und Microsoft mehr Kontrolle über sein eigenes Schicksal im Wettbewerb mit Google, Amazon und anderen zu geben.
Microsoft angekündigt MAI-Transcribe-1 am Donnerstag, ein Speech-to-Text-Modell, das seiner Meinung nach das genaueste ist, das derzeit verfügbar ist. Das Unternehmen hat außerdem seine bestehenden Sprach- und Bilderzeugungsmodelle, bekannt als MAI-Voice-1 und MAI-Image-2, für eine breite kommerzielle Nutzung freigegeben.
Es ist die erste große Modellveröffentlichung von Microsoft seither eine Umstrukturierung im Märzangekündigt von CEO Satya Nadella, in dem Mustafa Suleyman, CEO von Microsoft AI, von der alltäglichen Copilot-Aufsicht abrückte und sich auf die Entwicklung von Grenzmodellen und Superintelligenz konzentrierte.
Suleiman sagte The Verge dass das Transkriptionsmodell „zur Hälfte der GPU-Kosten der anderen hochmodernen Modelle“ läuft. Er sagte VentureBeat dass das Modell von einem Team von nur 10 Leuten erstellt wurde und dass Microsoft plant, schließlich ein Grenzmodell für große Sprachen zu erstellen, um bei Bedarf „völlig unabhängig“ zu sein.
Microsoft hat kürzlich auch den ehemaligen CEO des Allen Institute for Ali Farhadi und andere führende KI-Forscher des in Seattle ansässigen Instituts eingestellt, um Suleymans Team weiter zu verstärken GeekWire berichtete letzte Woche.
MAI-Transcribe-1 ist für den Umgang mit lauten realen Bedingungen wie Callcentern und Konferenzräumen konzipiert und Microsoft gibt an, Integrationen mit Copilot und Teams zu testen. Laut Microsoft bietet es das beste Preis-Leistungs-Verhältnis aller großen Cloud-Anbieter und konkurriert beim FLEURS-Benchmark direkt mit Whisper von OpenAI und Gemini von Google.
In ein BlogbeitragSuleyman bezeichnete das Modell als „nicht nur das genaueste, sondern auch blitzschnell“.
MAI-Voice-1 erzeugt natürlich klingende Sprache und ermöglicht es Entwicklern nun, aus kurzen Beispiel-Audioausschnitten benutzerdefinierte Stimmen zu erstellen. MAI-Image-2 rangiert auf der Arena.ai-Rangliste zur Bildgenerierung unter den ersten drei und wird in Bing und PowerPoint eingeführt.
Alle drei sind auf der Microsoft Foundry-Entwickler-KI-Plattform und MAI Playground verfügbar.



