Spracherkennungstechnologie: hilfreich oder schmerzhaft?

2026

Inhaltsverzeichnis:

Um mit einem Menschen zu sprechen, drücken Sie bitte 0
Persönliche Telefon-Apps: Siri, Google Now
Wo VR flach fällt
Was die Zukunft bringt

Haben Sie jemals eine Firma angerufen, um Hilfe zu erhalten oder Ihre Rechnung zu bezahlen, nur um von einer angenehmen, aufgezeichneten Stimme begrüßt zu werden, die ein Gespräch mit Ihnen führen möchte - aber nicht die Hälfte von dem verstehen kann, was Sie sagen? Oder vielleicht besitzen Sie ein iPhone und während Siri zuerst wie ein guter Verbündeter wirkte, stellen Sie fest, dass sie es manchmal (OK, seien wir ehrlich, oft) einfach nicht versteht? Die Spracherkennungstechnologie (Voice Recognition Technology, VRT), auch als "Speech-to-Text" bekannt, gerät in eine häufig anzutreffende Falle: Sie kann unglaublich cool sein (und, Junge, machen wir uns auf den Weg), aber häufiger ist es ein Zähneknirschen Übung in Frustration.

Das Audrey-System von Bell Laboratories, das einst eine Idee aus dem Bereich der Science-Fiction war, hat sich seit den Anfängen der Spracherkennung in den 1950er-Jahren zu einem modernen Netzwerk von Unterhaltungselektronik entwickelt, mit dem wir jetzt interagieren täglich - mit gemischten Ergebnissen.

Um mit einem Menschen zu sprechen, drücken Sie bitte 0

Viele der heutigen Unternehmen verwenden Systeme mit der Bezeichnung Interactive Voice Response (IVR), um Kundenanrufe zu bearbeiten. Am häufigsten werden sprachgesteuerte Menüs verwendet. Einige Unternehmen verwenden jedoch IVR-Systeme, mit denen auf Kundenkontoinformationen zugegriffen und kleinere Fragen beantwortet werden können. Die Menü-IVR-Software verfügt normalerweise über ein begrenztes Vokabular, das auf "Ja", "Nein" und Zahlen beschränkt sein kann. Kompliziertere Systeme können firmenspezifische Wörter und Ausdrücke erkennen.

Diese Systeme werden - zumindest für Unternehmen - aus einem einfachen Grund immer beliebter: Sie sind kostengünstig. Laut einem Bericht des Wall Street Journal aus dem Jahr 2010 kostet ein typischer Kundenanruf, der einen Agenten erreicht, zwischen 3 und 9 US-Dollar, während ein Anruf, der über ein automatisiertes System abgewickelt wird, nur fünf bis sieben Cent kostet. Und natürlich werden Computerprogramme nicht müde, rufen krank an oder sind frustriert von Kunden (obwohl Kunden sicherlich frustriert von ihnen sind!).

Glücklicherweise bedeutet dies nicht immer, dass IVR den Menschen Jobs wegnimmt - oder zumindest, dass alle Menschen aus Call Centern verschwinden. Mithilfe dieser sprachaktivierten Helfer können Mitarbeiter des Kundendienstes produktiver arbeiten, indem sie Anrufe umleiten und einfache Fragen beantworten.

Natürlich ist es für die menschlichen Benutzer, die mit diesen Technologien interagieren, nicht immer reibungslos. Die Technologie trägt dazu bei, häufig auftretende Probleme bei der IVR-Technologie, z. B. Probleme mit Akzenten, zu beheben. Die Entlassung automatisierter Systeme ist jedoch immer noch ein häufiges Thema im Internet. Schauen Sie sich diese Komödie über einen Aufzug an, der mit Spracherkennung ausgestattet ist und die Frustration hervorhebt, die Fehlfunktionen in IVR-Systemen hervorrufen können.

Persönliche Telefon-Apps: Siri, Google Now

Die meisten Menschen sind mit der Spracherkennung für Smartphones vertraut. Während die Mehrheit der neuesten Telefonmodelle mit VR ausgestattet ist, schwoll ihre Popularität und Bekanntheit an, als Apple 2011 Siri, den leicht sarkastischen, sprachaktivierten "persönlichen Assistenten" für das iPhone 4S, einführte. Google schuf bald einen direkten Konkurrenten: Google Nun zum Android Jelly Bean OS. Beide Systeme verfügen über Frauenstimmen und ausgeklügelte Erkennungsfunktionen, mit denen Benutzer mit ihren Handys in ungezwungener Sprache "sprechen" können.

Diese Systeme sind zwar wesentlich ausgefeilter und funktionaler als ihre Vorgänger, zeigen aber auch, dass die Technologie noch einen weiten Weg vor sich hat. Witze über Siris Versagen sind zu einem beliebten Internet-Mem geworden. Ein Mann verklagte Apple sogar wegen falscher Werbung in Bezug auf Siris Fähigkeiten.

Vielleicht ist das der Grund, warum Apple Siri so entwickelt hat, dass es fortschrittlich und informativ ist, aber die VR-Software ist auch etwas frech. Wenn Sie beispielsweise eine der berüchtigtsten Nachrichtentechnologielinien in der Kinogeschichte aus dem Film "2001: A Space Odyssey" (1968) sprechen - "Öffnen Sie die Türen der Pod-Bucht" -, antwortet Siri entweder mit der Antwortzeile aus dem Film. " Es tut mir leid (Ihr Name), ich fürchte, ich kann das nicht tun ", oder noch sarkastischer, " wir Geheimdienstagenten werden das anscheinend nie aushalten. "

Dich beim Namen zu nennen ist nur eine der Funktionen, die Siri leichter zu lieben und ein bisschen menschlicher machen. Der VR-Assistent kann Sprachbefehlen folgen, um Anrufe zu tätigen, Diktate aufzunehmen und Texte zu senden, im Internet nach Informationen zu suchen, Geschäfte in der Nähe zu finden, Wegbeschreibungen anzugeben und vieles mehr, ohne dass Sie etwas berühren müssen. Die Antworten werden gleichzeitig vom Telefon aus gesprochen und auf dem Bildschirm angezeigt.

Google Now, der VR-Teil der Android Jelly Bean-Plattform, ist Siri sehr ähnlich. Das System bietet die gleichen umfangreichen Erkennungsfunktionen, indem gelegentliche Sprache in Befehle umgewandelt wird, mit denen Benutzer Anrufe tätigen, Texte senden, Suchen ausführen, Berechnungen und Konvertierungen durchführen, Wortdefinitionen erfassen, Alarme einstellen, Lieder abspielen sowie Karten und Wegbeschreibungen abrufen können.

Mit persönlichen Sprachassistenten wie Siri und Google Now liegen die Vorteile auf der Hand. Von Anrufen und SMS bis hin zu Suchen und Unterhaltung ist alles schneller und einfacher. Sagen Sie einfach, was Sie wollen, und die VR-App greift (meistens) danach. Die Hands-Off-Technologie von VR ist besonders während der Fahrt hilfreich. Und während viele Leute Siris Fehler verleumdet haben und Autoren argumentiert haben, dass die Fähigkeit von Google Now, das Leben der Nutzer im Wesentlichen zu führen, ein wenig beleidigend ist, finden die meisten Leute diese futuristischen Technologien immer noch ziemlich cool.

Persönliche Telefon-Apps wie Siri und Google Now sind natürlich alles andere als perfekt - obwohl sie zeigen, wohin diese Technologie in Zukunft führen könnte. Das heißt, auch wenn Siri eine falsche Antwort findet, werden wir wahrscheinlich lachen und ihr vergeben, da wir wissen, dass die nächste Version viel besser sein wird.

Wo VR flach fällt

Wenn Sie bei einem Anruf bei einem Unternehmen jemals auf eine IVR gestoßen sind, haben Sie möglicherweise bestimmte Kommunikationshindernisse festgestellt. Einige Programme verwenden eine automatische Sprachausgabe, bei der Wörter falsch ausgesprochen werden und die Verständlichkeit beeinträchtigt wird. Andere haben Empfindlichkeitsprobleme, die dazu führen, dass die Software das Gesagte nicht verarbeiten kann, wenn Sie zu laut, zu leise oder nicht sorgfältig aussprechen.

Darüber hinaus fühlen sich viele Menschen immer noch nicht wohl, wenn sie mit einer Maschine sprechen. Wenn Sie mit IVR ein paar Mal suchen, werden Sie auf Listen stoßen, die von Leuten zusammengestellt wurden, um IVR-Systeme zu umgehen und zu einer "echten Person" zu gelangen. Diese Lösungen reichen von "0 für einen Bediener gedrückt halten" bis "auf die Maschine schwören, bis sie einen Menschen abholt". Infolgedessen drehte sich ein Großteil der jüngsten Entwicklung bei IVR-Systemen darum, sie für den Menschen schmackhafter zu machen. Die Stimmen werden sympathischer und weniger robotisch, das System lässt sich einfacher navigieren und die Anrufer wissen, wie lange das Ganze von Anfang bis Ende dauern wird. Dies legt nahe, dass die bessere Technologie hier nur die halbe Miete ist. Die andere Hälfte bringt Benutzer dazu, mit einer Maschine zu sprechen.

Was die Zukunft bringt

Trotz dieser Herausforderungen verbessert sich die Spracherkennungstechnologie ständig. Anwendungen wie Siri und Google Now - Fehler und alles - sind immer noch außerordentlich beeindruckend in ihrer Leistung, und mehrere Unternehmen erweitern die VR-Funktionen auf andere Anwendungen.

Beispielsweise hat Nuance, der Entwickler der Sprachausgabe-Software Dragon NaturallySpeaking, bereits Sprachsteuerungen für Fernseher und Automobile entwickelt. Versionen dieser Technologie sind in einigen Samsung-Fernsehgeräten und den in bestimmten Ford-Fahrzeugen verwendeten SYNC-Unterhaltungssystemen enthalten.

Und da Google und Apple weiterhin neue Verwendungsmöglichkeiten für ihre Spracherkennungstechnologien finden, werden wir wahrscheinlich zunehmend mit allen Arten von Alltagsgeräten sprechen, vom Fernseher bis zu unseren Toastern. Und wieder sieht es so aus, als ob Science Fiction richtig war. Wir müssen nur hoffen, dass diese klugen Schreiber in einer Sache falsch lagen. Wenn diese Maschinen übernehmen, könnten Sie Probleme haben, wenn Sie Siri das nächste Mal bitten, "die Türen der Pod-Bucht zu öffnen".

Spracherkennungstechnologie: hilfreich oder schmerzhaft?

Inhaltsverzeichnis:

Um mit einem Menschen zu sprechen, drücken Sie bitte 0

Persönliche Telefon-Apps: Siri, Google Now

Wo VR flach fällt

Was die Zukunft bringt

Wie kann ein "Random Walk" beim maschinellen Lernen hilfreich sein?

Wie hilft ein gewichteter oder probabalistischer Ansatz, über einen rein regelbasierten oder deterministischen Ansatz hinauszugehen?

Auf welche Weise können maschinelle Lernsysteme für die Humanressourcen hilfreich sein?

Die Wahl des Herausgebers

Wer ist Paul Allen? - Definition aus techopedia

Was ist altair basic? - Definition aus techopedia

Was ist Alphago? - Definition aus techopedia

Was ist Self-Service-Analytik? - Definition aus techopedia

Die Wahl des Herausgebers

Was ist ein Elektromagnet? - Definition aus techopedia

Was ist Spintronik? - Definition aus techopedia

Was ist ein supraleitendes Quanteninterferenzgerät (Tintenfisch)? - Definition aus techopedia

Was ist ein E-Mail-Thread? - Definition aus techopedia

Die Wahl des Herausgebers

Was ist eine doppelte Datenrate (ddr)? - Definition aus techopedia

Was ist ein Festplattenlaufwerk? - Definition aus techopedia

Was ist ein digitaler Teilnehmeranschluss (dsl)? - Definition aus techopedia

Was ist Ethernet? - Definition aus techopedia

Die Wahl des Herausgebers

Was ist eine wichtige Prozessausgangsvariable (kpov)? - Definition aus techopedia

Was ist Identitäts- und Zugriffsverwaltung als Dienst (iamaas)? - Definition aus techopedia

Was ist hierarchisches Zeitgedächtnis? - Definition aus techopedia

Was ist eine verwaiste VM? - Definition aus techopedia

Die Wahl des Herausgebers

Was ist eine Funktionsspezifikation (fs)? - Definition aus techopedia

Was bedeutet Hack in Sicherheit? - Definition aus techopedia

Was ist ein Hacker? - Definition aus techopedia

Was ist Müll rein, Müll raus (Gigo)? - Definition aus techopedia

Beliebte Kategorien