Wie Apple Siri weiterentwickelt und dennoch an der Sprachbarriere scheitert
Vor allem von den Kollegen in den USA wird aktuell ein Reuters-Bericht gehypt, in dem es um die sprachlichen Vorzüge von Siri gegenüber der Konkurrenz auf dem Markt der intelligenten Sprachassistenten geht. Keine Frage, eines der größten Probleme dieser Assistenten ist die riesige Zahl an Sprachen und die noch größere Zahl an Dialekten, die es auf der Welt gibt. Diese zu verstehen, auszuwerten und entsprechend zu antworten ist sicherlich eine der größten Herausforderungen der Anbieter wie Google, Amazon, Microsoft und Apple. Während Siri der Assistent ist, der bereits die längste Zeit auf dem Markt ist, ist Apples Lösung auch diejenige mit den meisten unterstützten Sprachen. Insgesamt spricht Siri inzwischen 21 Sprachen, die für 36 Länder lokalisiert wurden. Dies wird von vielen als ausgesprochen wichtig angesehen, bedenkt man, dass der Smartphone-Markt natürlich nicht nur englischsprachige Länder umfasst.
Vergleicht man Siris Sprachtalent mit dem der anderen Anbieter, wird der Abstand besonders deutlich. Microsoft Cortana beherrscht inzwischen acht Sprachen für 13 Länder, Google Assistant spricht aktuell vier Sprachen, Amazons Alexa lediglich Englisch und Deutsch. Die Sprachvielfalt ist also ohne Zweifel ein absolutes Pro-Argument für Siri. Demnächst wird sich sogar nich Shanghainese, ein spezieller Dialekt des "Wu Chinese", der in der Gegend um Shanghai gesprochen wird. Was die US-Kollegen allerdings bei aller Begeisterung um die Sprachenvielfalt von Siri nicht beachten ist, dass die Quantität hier nicht alles ist. Die Qualität außerhalb des Englischen sorgt nämlich alles andere als für Begeisterungsstürme.
Ich persönlich nutze Siri nach wie vor nicht auf meinem iPhone, geschweige denn am Mac. Während die Spracherkennung seit dem Start sicherlich deutliche Fortschritte gemacht hat und man Siri inzwischen durchaus brauchbar einen Text diktieren kann, ist das Frage-Antwort-Spiel auf Deutsch aus meiner Sicht nach wie vor nicht auf einem Level, auf dem es mir in irgendeiner Weise weterhilft. Im Gegenteil, einen Kalendereintrag erledige ich nach wie vor schneller per Hand, als dass Siri dies für mich erledigen würde.
Die Sprachbarriere ist nach wie vor die größte Herausforderung, der sich die Anbieter stellen müssen. Dabei ist es beinahe schon natürlich, dass die native Sprache der Entwickler, in diesem Fall in der Regel Englisch, deutlich bessere Ergebnisse zu Tage fördert, als andere Sprachen. Eines kann man den Anbietern aber nicht absprechen, nämlich dass sie nicht stetig an der Verbesserung und Weiterentwicklung in anderen Sprachen arbeiten würden. Bei Microsoft arbeitet beispielsweise ein 29-köpfiges Team an der Weiterentwicklung von Cortana für weitere Märkte. Dabei ist Spanisch in Spanien beispielsweise ein anderes Spanisch als das, was in Mexiko gesprochen wird. Auch Google und Amazon planen die Unterstützung für weitere Sprachen, wollten den Kollegen von Reuters aber keine Deztails verraten.
Apple zeigte sich hier überraschenderweise deutlich offenherziger und beschrieb den Ablauf der Weiterentwicklung von Siri sogar recht detailliert. So lässt man in Cupertino echte Menschen Text-Passagen in verschiedenen Akzenten und Dialekten einsprechen, die dann von Hand transkribiert werden, damit auch der zugrundeliegende Computer diese Passagen in Textform vorliegen hat. Aus diesen Informationen und einer Reihe von Klangbildern und -farben baut Apple dann ein Sprachmodell, welches möglichst nah an der jeweiligen Sprachregion des Nutzers liegen soll. Weiterentwickelt wird dieses dann durch die Diktierfunktion in iOS-Geräten und dem Mac. Hier sammelt Apple anonymisiert kleine Sprachschnipsel, Hintergrundgeräusche und vernuschelte Worte, um die Spracherkennung weiter zu verbessern. Erst danach wird Siri in der entsprechenden Sprachversion auf die Nutzer losgelassen. Doch auch anschließend geht der Lernprozess des Sprachassistenten weiter, so dass eine kontinuierliche Verbesserung gewährleistet sein soll. Wirklich beeindruckend ist, dass Siri in jeder Sprache anschließend alle zwei Wochen mit neuen Antworten und einer verbesserten Spracherkennung aktualisiert wird.
Nichts desto totz ist die Skalierbarkeit dieses Verbesserungsprozesses stark limitiert, was vor allem an den benötigten Schreibern liegt, die die gesprochenen Wörter transkribieren müssen, damit der Computer sie versteht. Genau an diesem Problem arbeiten aktuell die ehemaligen Köpfe hinter Siri, die Apple inzwischen verlassen und sich dem neuen Projekt namens "Viv" zugewandt haben. Der Ansatz hier liegt darin, das System zu öffnen und die ganze Welt daran zu beteiligen, sie weiter zu entwickeln und zu verbessern. Ob sich dies realisieren lässt, muss freilich abgewartet werden. Bis dahin werden wir uns allerdings vermutlich auch weiterhin mit verschiedenen Unzulänglichkeiten abfinden müssen. Vor allem im nicht-englischsprachigen Raum.
Kommentare
Ansicht der Kommentare: Linear | Verschachtelt
Somaro am :
Also mir ist eine künstliche Sprachausgabe, die weiss was ich will erheblich wichtiger als ein Assistent, der Bayrisch spricht, aber für jede zweite Frage die Google-Suche bemüht.
Baaazii am :
\ud83d\ude09
Anonym am :
Was leider gar nicht funktioniert ist die Erstellung eines Kalendereintrags.
mac4ever am :
Mich st\366rt eher, dass Siri nicht innerhalb von Apps funktioniert (navigiert) und dass auch einander bezogene Anfragen nach wie vor nicht funktionieren
Axel am :
Torro am :
PaulBpunkt am :
Thom am :
Ulf am :
Wenn wir von Spanisch reden meinen wir Kastilisch.
Allerdings ist Mexikanisch nur ein Dialekt des Kastilischen.
Ulf am :
Ulf am :
Ulf am :
Sprachen in Deutschland sind aber "Friesisch", "Plattdeutsch" und "Sorbisch" (in Brandenburg/Sachsen). In diesen Sprachen werden auch Zeitungen und B\374cher geschrieben.
Ron am :
Tom am :
Norman am :
Alex am :
Aber \374ber mehr als systemeigene Apps anzusteuern, verf\374gt Siri nicht.
Bei der Frage, wie hoch der Mount-Everest ist, w\374nscht man sich doch eine konkrete Antwort und nicht ein: "gute Frage, Hans-Otto!", oder 20 verschiedene Suchergebnisse aus dem Netz. Oder denke ich da falsch? K\366nnen das die anderen Sprachassis auch nicht?
Ralf am :
Das iPhone muss man teilweise mehrmals anschreien, bis Siri reagiert \ud83d\ude33
Wulf am :
Also quasi ein sehr menschliches Feature. Da Siri ja sehr nat\374rlich r\374berkommen soll, w\374rde ich sagen: Mission completed! \ud83d\ude02