Q:
Was ist der Unterschied zwischen Sprache zu Text und Chatbots?
EIN:Die zahlreichen signifikanten Unterschiede zwischen Speech-to-Text-Technologien und Chatbots sind Teil dessen, was in der rasanten Entwicklung von Chatbot- und Voicebot-Projekten untersucht wird.
Eine Speech-to-Text-Technologie ist einfach eine Technologie, die verbale Sprache in Text auf einer digitalen Seite umwandelt. Das ist seine volle Funktion, aber es ist nicht eine, die einfach zu entwerfen ist. Um verbale Sprache in Text umzuwandeln, muss die Technologie Wörter und Sätze in einzelne Phoneme aufteilen und mit diesen nach komplexen Algorithmen arbeiten, um einen Text zu erstellen, der genau ist und das darstellt, was der Sprecher gesagt hat.
Chatbots hingegen sind Technologien, die das Ziel der Kommunikation mit einem Menschen erreichen. Es gibt zwei Arten von Chatbots: Text-Chatbots und Voicebots. Text-Chatbots gibt es schon viel länger, da sie nicht das Sprach-Text-Element benötigen, das Voicebots verwenden.
Der Hauptunterschied zwischen Speech-to-Text-Technologien und Chatbots liegt im Umfang. Wie bereits erwähnt, muss die Rede-zu-Text-Technologie lediglich die verbale Sprache transkribieren. Auf der anderen Seite muss der Chatbot Sprache in welcher Form auch immer aufnehmen, verstehen und Antworten bereitstellen, um den Turing-Test zu bestehen - den Test, ob eine Technologie einen Menschen zum Glauben verleiten kann, dass er oder sie es ist mit einer anderen Person sprechen.
In diesem Sinne sind Chatbots viel einfacher zu erstellen als Voicebots. Der Chatbot nimmt den Text des Menschen auf und gibt eine Antwort. Sogar relativ einfache Chatbots haben seit den späten 1980er und frühen 1990er Jahren interessante und erfreuliche Ergebnisse für den Menschen gebracht.
Der Voicebot muss dagegen verbale Sprache aufnehmen, in Text umwandeln, auf Richtigkeit prüfen, eine Antwort erstellen und diese Antwort aus der Maschinensprache in hörbare Sprache umwandeln. Diese große Anzahl von ziemlich bedeutenden Aufgaben bedeutet, dass der Voicebot viel Rechenleistung und viel Design benötigt, um gebaut zu werden.
Projekte wie Siri, Cortana und Alexa demonstrieren einen Teil der Avantgarde der Voicebot-Technologien. Sie zeigen auch, dass diese Technologie noch in den Kinderschuhen steckt. Obwohl Alexa und andere Technologien verbal auf menschliche Sprache reagieren können, sind sie in dem Sinne, wie wir sie allgemein mit verbaler menschlicher Sprache assoziieren, nicht extrem fähig. Mit anderen Worten, die Antworten, die diese Technologien liefern können, sind ziemlich begrenzt. Die heutige Generation von persönlichen Assistenten verfügt nur über eine eingeschränkte Fähigkeit, Sprache in Text umzuwandeln, um beispielsweise eine E-Mail zu transkribieren oder jemandem zu helfen, einen Aufsatz zu schreiben, ohne die Hände zu benutzen. Einige der auf dem Markt erhältlichen spezifischen Speech-to-Text-Programme können dies besser als Siri oder Cortana, wahrscheinlich aufgrund der Zuweisung von Ressourcen. Es gibt jedoch Anzeichen dafür, dass die Fortschritte bei Voicebot bald zunehmen werden - beispielsweise die Lex-Plattform von Amazon, die eine Studioumgebung für die Erstellung solcher Technologien ermöglicht.
In einem cleveren und lehrreichen Aufsatz zu diesem Thema spricht Tobias Goebel über den Unterschied zwischen diesen Technologien, indem er den Vorgang des „Transkribierens“, der Sprache in Text, der Aufgabe des Verstehens und den Aufgaben der Chatbots gegenüberstellt.
„Während die Notwendigkeit der Spracherkennung für einen Chatbot nicht mehr erforderlich ist, liegt die größte Herausforderung für die Erstellung funktionsfähiger Bots im Verständnis der natürlichen Sprache“, schreibt Goebel.
Goebel identifiziert auch viele der aktuellen Akteure in der Branche:
Der Marktführer für Spracherkennung ist Nuance, der hinter bekannten Systemen wie Dragon NaturallySpeaking für das Diktieren auf einem PC steckt, das es seit den neunziger Jahren gibt, aber auch Siri: die Spracherkennungs- / Transkriptionsaufgabe, die in der Apple-Cloud ausgeführt wird Nuance Technologie hinter den Kulissen. Andere sind LumenVox, Verbio oder Interactions, aber Spracherkennung wird jetzt auch als Cloud-Service über APIs von Amazon, Google, Microsoft und IBM angeboten.
Während sich Chatbots weiterentwickeln, wird davon ausgegangen, dass ihr Verständnis auf einer bestimmten Strecke weiter zunehmen wird - und es wird auch weitgehend davon ausgegangen, dass mehr Bot-Technologie von Textschnittstellen zu verbalen Schnittstellen übergeht, was zusätzliche Rechenleistung erfordert.