Eine neue globale Studie legt nahe, dass Menschen aufhören, KI-Stimmen zu vertrauen, sobald sie erkennen, dass die Stimme nicht menschlich ist, was ein großes Problem für Unternehmen darstellt, die synthetische Stimmen im Kundenservice und anderen öffentlich zugänglichen Systemen verwenden.
Die Teilnehmer der Studie, an der im Laufe eines Monats mehr als 10.000 Teilnehmer teilnahmen, hörten auf verschiedene Stimmen und wurden gebeten, darauf zu reagieren. Sie konnten jede Stimme mögen, nicht mögen, überspringen oder bewerten. Den Zuhörern wurde im Vorfeld nicht mitgeteilt, dass sie KI-generierte Sprache hören würden.
Der Artikel wird weiter unten fortgesetzt
KI-Stimmen ablehnen
In der Studie wurde gemessen, wie Menschen auf Stimmen anhand von 18 Merkmalen reagierten, einschließlich der Frage, ob sie warm, klar oder monoton klangen. Die Forscher verfolgten auch, wie lange die Menschen zuhörten und wie sie reagierten, anstatt sich nur auf direktes Feedback zu verlassen.
Eines der deutlichsten Ergebnisse war, dass Menschen dazu neigen, KI-Stimmen abzulehnen, sobald sie sie erkennen. Die Forscher fanden einen starken negativen Zusammenhang zwischen dem Erkennen einer KI-Stimme und dem Gefallen daran.
Die Ergebnisse zeigten auch große Qualitätsunterschiede zwischen den Sprachmodellen. Das System mit der besten Leistung wurde dreimal besser bewertet als das Modell mit der niedrigsten Bewertung.
Kleinere KI-Unternehmen schnitten in der Rangliste besonders gut ab, wobei das chinesische Startup MiniMax sowohl von britischen als auch US-amerikanischen Hörern als bestes Sprachmodell eingestuft wurde. Große Tech-Giganten mögen Google, AmazonasUnd Microsoft hinkte deutlich hinterher.
Die Studie stellte auch Unterschiede zwischen den Ländern fest. Britische Zuhörer erkannten KI-generierte Stimmen mit einer um 13 % höheren Wahrscheinlichkeit als Amerikaner. Allerdings waren europäische Hörer insgesamt eher bereit, KI-Stimmen zu akzeptieren.
„Während der Wechsel zu einem spezialisierten TTS Ressourcen erfordert, wird die Wahl des falschen Anbieters zu einem entscheidenden Markenrisiko – insbesondere bei Produkten, die auf Vertrauen basieren“, sagte Nick Lahoika, CEO und Gründer von Vocal Image. „Die Realität ist einfach: Die Menschen vertrauen schlechten KI-Stimmen immer noch nicht.“
- Das chinesische Startup Minimax belegte in Ihrer Audio-Wahrnehmungsstudie den ersten Platz. Können Sie uns sagen, warum das so eine große Sache ist?
Wir haben diese Untersuchung im Januar mit 10.000 Benutzern durchgeführt und MiniMax mit 19 Sprachmodellen verglichen. Das Ziel war einfach: herauszufinden, welcher Stimme die Menschen tatsächlich vertrauen.
Angesichts der jüngsten viralen Aufmerksamkeit rund um ihre Videos bestätigt unsere Studie, dass die Stimme von MiniMax, auch ohne den visuellen Avatar, als die authentischste wahrgenommen wird.
Anstelle des standardmäßigen A/B-Benchmarkings, wie Sie es bei Hugging Face sehen, haben wir uns auf die menschliche Wahrnehmung konzentriert. Die Teilnehmer bewerteten Stimmen auf die gleiche Weise, wie sie andere Menschen bewerten, basierend auf Vertrauen, Attraktivität und Autorität, ohne zu wissen, dass sie der KI zuhörten.
Meiner Meinung nach sind diese Art von Daten weitaus wertvoller als das orchestrierte Upvoting, das Sie auf ProductHunt erhalten.
Die Ergebnisse waren interessant. 86 % der britischen und US-amerikanischen Muttersprachler bewerteten MiniMax als die Stimme mit der höchsten Qualität. Britische Zuhörer bezeichneten es ausdrücklich als das selbstbewussteste.
Unsere Forschung zeigt auch, dass britische Zuhörer KI-Stimmen am besten erkennen können, was dieses Ergebnis noch aussagekräftiger macht. Wenn das am schwersten zu täuschende Publikum es als authentisch wahrnimmt, bewegt sich das Modell eindeutig auf einem sehr hohen Niveau.
- Sie haben auch festgestellt, dass die großen Technologiegiganten „hinken“. Warum ist das Ihrer Meinung nach so und was könnten sie tun, um die Lücke zu schließen (z. B. durch Akquisitionen)?
Big Tech gewinnt im Maßstab, verliert aber bei der Präzision. Meiner Meinung nach sind ihre Sprachmodelle für Millionen horizontaler Anwendungsfälle konzipiert, bei denen „gut genug“ akzeptabel ist. Das funktioniert für so etwas wie ein Wetter-Update. Aber in anspruchsvollen Kontexten wie Kommunikationscoaching oder Sprachtherapie kommt es auf Intonation und Rhythmus an. Wenn sich die Stimme synthetisch anfühlt, bricht das Erlebnis sofort ab.
In Branchen, in denen KI für Vertrieb, Bildung oder die Verwaltung sensibler Anfragen eingesetzt wird, muss die Stimme Vertrauen, Klarheit und Vertrauenswürdigkeit vermitteln, um das Vertrauen der Benutzer aufzubauen und zu stärken.
Wir haben dies aus erster Hand gesehen, als unser Team als Hommage an Estland, wo unser Unternehmen nach dem Umzug aus Weißrussland im Jahr 2020 nun seinen Sitz hat, ein hochpräzises estnisches Synthesemodell entwickelte. Damals war die einzige Alternative das System von Microsoft, das estnische Ziffern nicht richtig aussprechen konnte.
Stellen Sie sich eine Wirtschaftsnachrichtensendung vor, bei der die Zahlen falsch sind. Das ist die „letzte Meile“ der Qualität, die große horizontale Plattformen oft übersehen.
Um diese Lücke zu schließen, erwarte ich, dass Big Tech zunehmend auf Übernahmen setzt. Es ist schwierig, sich auf alle Branchen tief zu spezialisieren und gleichzeitig die Skaleneffekte beizubehalten.
Für Startups liegt die Chance darin, Systeme zu entwickeln, die für bestimmte, hochwertige Kontexte optimiert sind, bei denen Qualität wichtiger ist als Größe.
- Der Bericht stellte auch fest, dass viele Zuhörer KI-generierte Stimmen bevorzugten. Warum ist das Ihrer Meinung nach so? Sehen wir Ermüdungserscheinungen bei den Nutzern?
Wir haben für diesen Bericht nur KI-Stimmen überprüft und können daher nicht behaupten, dass Menschen KI-Stimmen mehr mögen als echte Stimmen.
Viele Menschen (66 %) konnten nicht erkennen, dass die KI-Stimme gefälscht war. Dies zeigt, dass die KI-Sprachtechnologie mittlerweile sehr gut ist.
Ich glaube nicht, dass die Menschen menschliche Stimmen satt haben. Ich denke, sie gewöhnen sich gerade erst an KI-Stimmen. Viele Leute beschleunigen Videos (1,5x oder 2x). Wenn sie das tun, hören sie auf, auf Gefühle zu hören und wollen einfach nur schnell die Fakten erfahren.
Eine KI-Stimme eignet sich perfekt für Fakten, da sie sauber und klar ist und keine Fehler oder Pausen aufweist. Die Menschen beginnen, sich für KI zu entscheiden, weil sie schneller und klarer ist, und nicht, weil sie gezwungen wurden, sich daran anzupassen.
In unserer Studie haben wir 18 Sprachfunktionen untersucht. Der Schlüssel war, dass Stimmen, die klar und sicher klangen, immer besser waren als Stimmen, die einfach nur echt klangen.
Dies galt insbesondere für ElevenLabs und Descript. Ihre KI-Stimmen scheinen „professioneller“ zu klingen als viele menschliche Synchronsprecher, die in billigen Studios aufnehmen.
- Sie haben in der Untersuchung drei große Kategorien von Text-to-Speech-Modellen erwähnt: KI-Plattformen, spezialisierte TTS-Einheiten und die großen Geschütze. Wie unterscheiden sich ihre jeweiligen Ansätze voneinander und welcher wird Ihrer Meinung nach in Zukunft zum Mainstream werden?
Unsere Forschung zeigt, dass KI-Plattformen und hochspezialisierte Startups die beiden Kategorien sind, die die nächste Stufe der Sprachtechnologie am ehesten dominieren werden.
Die Branche geht über die bloße Erzeugung von Ton hinaus. Die eigentliche Herausforderung besteht darin, Stimmen mit der menschlichen Wahrnehmung in Einklang zu bringen, was Emotionen, Humor, Autorität und subtile Nuancen erfordert.
Die Erstellung synthetischer Sprache wird immer mehr zur Massenware. Der eigentliche Engpass besteht darin, Stimmen zu bewerten und darauf abzustimmen, wie Menschen sie tatsächlich wahrnehmen.
Spezialisierte Start-ups kommen hier oft schneller voran, weil sie Systeme für bestimmte Ergebnisse entwickeln, anstatt für allgemeine Fähigkeiten zu optimieren. Sicherlich verfügen große Technologieunternehmen immer noch über enorme Ressourcen, und für sie werden Akquisitionen wahrscheinlich weiterhin die wichtigste Strategie zur Schließung der Qualitätslücke bleiben.
- Sie sagten mir, dass Sie in Zukunft einen einzigen einheitlichen Weg entwickeln möchten, der den Benutzer ganzheitlich führt und beispielsweise Manierismen und das gesamte Spektrum der nonverbalen Kommunikation erfasst, wie es Schauspieler bei der Darstellung von Prominenten in Biopics tun. Der Zyniker in mir meint, dass dies zu weit geht und dazu genutzt werden könnte, nahezu perfekte Deepfakes zu erstellen. Irgendwelche Gedanken dazu?
Auch heute noch reicht ein Foto oder Video von Ihrem Instagram aus, um einen äußerst realistischen Deepfake zu erstellen. Das Klonen von Stimmen dauert nur wenige Sekunden. Es gibt keine gute oder schlechte Technologie; Es gibt nur Menschen, die es auf unterschiedliche Weise nutzen.
Wir verwenden Daten, um unsere Software in Soft Skills zu trainieren und den Benutzern umsetzbares Feedback zu geben. Obwohl diese Daten möglicherweise zur Betrugserkennung verwendet werden könnten, liegt unser Hauptaugenmerk weiterhin auf der Bereitstellung von Feedback, um Benutzern bei der Verbesserung zu helfen. Unser Ziel ist es nicht, Klone von Menschen zu erstellen. Unser Ziel ist das Gegenteil: Wir wollen Menschen dabei helfen, ihre Kommunikationsfähigkeiten zu verbessern.
Schon heute analysieren Investoren die schriftliche Kommunikation eines Gründers. Zukünftig werden sie auch bewerten, wie sicher jemand spricht, wie er sich präsentiert und wie klar er seine Ideen zum Ausdruck bringt.
KI kann dabei helfen, diese Fähigkeiten objektiv zu trainieren, ohne den sozialen Druck, den Menschen oft in Coaching-Umgebungen verspüren.
Sprechangst ist ein massives globales Problem. Mehr als 200 Millionen Menschen haben damit zu kämpfen. Traditionelles Coaching ist teuer und für die meisten Menschen unzugänglich.
KI-Coaching kann bis zu 280-mal kostengünstiger sein als herkömmliche Führungskräfteschulungen. Anstatt mehrere Spezialisten wie einen Sprechtrainer, einen Schauspiellehrer und einen Kommunikationstrainer einzustellen, erhalten Benutzer strukturiertes Feedback und tägliche Übung in einem System. Traditionelle Coaching-Programme für Führungskräfte kosten kann zwischen 7.000 und 25.000 US-Dollar pro Mitarbeiter und Jahr, während ein Jahresabonnement für unsere App in den USA nur 89,99 US-Dollar kostet
Kurz gesagt, wir wollen das menschliche Wachstum nicht ersetzen. Unsere Mission ist es, die persönliche Weiterentwicklung für jedermann zugänglich zu machen.
Folgen Sie TechRadar auf Google News Und Fügen Sie uns als bevorzugte Quelle hinzu um unsere Expertennachrichten, Rezensionen und Meinungen in Ihren Feeds zu erhalten. Klicken Sie unbedingt auf die Schaltfläche „Folgen“!
Und natürlich können Sie das auch Folgen Sie TechRadar auf TikTok für Neuigkeiten, Rezensionen, Unboxings in Videoform und erhalten Sie regelmäßige Updates von uns WhatsApp zu.



