Zuhause Audio Ich höre tote Leute? natural language tech lässt vergangene und gegenwärtige Stimmen lebendig werden

Ich höre tote Leute? natural language tech lässt vergangene und gegenwärtige Stimmen lebendig werden

Inhaltsverzeichnis:

Anonim

Heutzutage sind die meisten Computerstimmen passé. Wahrscheinlich sind Sie nicht über Cyborgs und Roboter aufgeregt, wenn Sie den "Droiden" auf Ihrem Telefon hören, der Ihnen bei einer Rechnungszahlung hilft oder Sie fragt, welche Abteilung Sie möchten. Aber was ist, wenn Sie plötzlich Kurt Cobain hören, der Sie nach Karteninformationen fragt? Oder John F. Kennedy, der Ihnen von den Wundern der frühen Abstimmung erzählt? Oder Elvis, der Ihren Namen und Ihre Adresse notiert, bevor er in "ein Stück, ein Stück brennender Liebe" einbricht?


All dies wäre … ein bisschen komisch, aber was noch faszinierender ist, dass die Technologie im Grunde schon da ist. Vor ungefähr einem Jahrzehnt waren wir erstaunt über die Fähigkeit eines Computers, überhaupt zu sprechen. Jetzt werden wir von computergenerierten Stimmen erfasst, die genau wie bekannte Leute klingen.

Große Änderungen im NLP

Wenn Sie sich mit dem Bereich der Verarbeitung natürlicher Sprache (NLP) befassen, haben Sie möglicherweise von einigen jüngsten Fortschritten gehört, die über die in unseren globalen Positionsbestimmungssystemen (GPS) und im automatisierten Geschäft heute üblichen virtuellen Assistentenstimmen hinausgehen Telefonleitungen.


Der Beginn des NLP erforderte eine ganze Reihe von Untersuchungen zur allgemeinen Mechanik der menschlichen Sprache. Forscher und Ingenieure mussten einzelne Phonetiken identifizieren, sie zu größeren Algorithmen für die Erzeugung von Phrasen und Sätzen zusammenfassen und dann versuchen, alles auf einer Metaebene zu verwalten, um etwas zu erzeugen, das real klang. Mit der Zeit haben die NLP-Verantwortlichen dies gemeistert und begonnen, fortschrittliche Algorithmen zu entwickeln, um zu verstehen, was Menschen sagen. Zusammen haben die Unternehmen die Treiber für die heutigen virtuellen Assistenten und volldigitalen Bill-Pay-Angestellten entwickelt, deren Manierismen - auch wenn sie ärgerlich sind - immer noch erstaunlich sind, wenn man über die Arbeit nachdenkt, die in sie geflossen ist.


Jetzt gehen einige Unternehmen über die generische virtuelle Stimme hinaus, um ein spezifischeres personalisiertes Ergebnis zusammenzustellen. Dazu müssen Sie das Lexikon einer bestimmten Person durchgehen und große Mengen einzigartiger Sprachvideos sammeln. Anschließend müssen Sie dieses Archiv auf die komplexen Rhythmen für Phonetik, Betonung, Trittfrequenz und all die anderen winzigen Stichwörter anwenden, die Linguisten häufig unter dem großen Motto "Prosodie" zusammenfassen.


Was dabei herauskommt, ist eine Stimme, die Hörer für "im Besitz" einer bestimmten Person halten - entweder jemand, den sie kennen und mit dem sie gesprochen haben, oder jemand, dessen Stimme sie aufgrund des Ruhmes der Person erkennen.


Von Elvis bis Martin Luther King kann jetzt jede Stimme auf diese Weise "geklont" werden - vorausgesetzt, es gibt eine umfangreiche Aufzeichnung ihrer Rede. Indem Unternehmen noch detailliertere Analysen und Manipulationen für einzelne kleine Geräusche durchführen, können sie eine virtuelle Kopie der Stimme einer Person erstellen, die dem Original sehr ähnlich ist.

Spannende "Text to Voice" -Kreationen bei VivoText

VivoText ist beispielsweise ein Unternehmen, das daran arbeitet, die Verwendung künstlicher menschlicher Stimmen für alle Arten von Kampagnen zu revolutionieren, vom Hörbuch bis zur interaktiven Sprachantwort (IVR). Bei VivoText arbeiten Forschungs- und Produktionsteams an Prozessen, die theoretisch die Stimmen von verstorbenen Prominenten wie Ol 'Blue Eyes selbst nachbilden könnten.


"Um Frank Sinatras Stimme zu klonen, würden wir tatsächlich sein aufgezeichnetes Erbe durchgehen", erläutert Gershon Silbert, CEO von VivoText, die Funktionsweise dieser Technologie.


Im Moment arbeitet VivoText daran, die Stimmen derer zu archivieren, die noch bei uns sind, wie zum Beispiel der NPR-Korrespondent Neal Conan, der sich als Vorbild für ein solches IT-Pionierprojekt angemeldet hat. Ein Werbevideo zeigt, wie VivoText-Mitarbeiter mit der von Conan bereitgestellten Spracheingabe mühsam phonetische Codemodule erstellen. Anschließend erstellen sie Modelle für Text-to-Speech-Tools (TTS), die ein dramatisch menschliches und persönliches Ergebnis hervorrufen.


Laut Ben Feibleman, Vice President für Strategie und Geschäftsentwicklung bei VivoText, arbeitet der Computer auf Phonemebene (unter Verwendung der kleinsten eindeutigen Wortbestandteile), um einem prosodischen Modell für eine individuelle menschliche Stimme zu entsprechen.


"Es weiß, wie die Stimme spricht", sagt Feibleman und fügt hinzu, dass der Computer mithilfe von "Einheitenauswahl" eine Reihe von Teilen auswählt, um ein einzelnes kurzes Wort zusammenzusetzen, z. B. wenn dem Wort "Freitag" fünf Komponenten gegeben werden, die bei der Entwicklung helfen ein besonderer Schwerpunkt und klangliches Ergebnis.

Künstliche Stimme im Marketing

Wie funktioniert das im Marketing? Die Produkte von VivoText können äußerst nützlich sein, um Produkte wie Hörbücher zu erstellen, die die Zielgruppe erreichen. Wie viel effektiver wäre zum Beispiel eine Elvis-Stimme im Vergleich zu einer der heutigen generischen, toten, automatisierten Stimmen, wenn sie zum Verkauf von Unterhaltungsprodukten verwendet würde?


Oder wie wäre es in der Politik? Feibleman hat an verschiedenen Ideen für die Verwendung solcher Projekte gearbeitet, um das Marketing für Unternehmen oder andere Parteien zu verbessern, die eine effektivere Nachrichtenübermittlung benötigen.


"Wenn Sie Politiker kennen, die für das Präsidentenamt kandidieren, könnte dies dazu führen, dass 10 Millionen Swing-State-Wähler einen persönlichen Anruf von einem Kandidaten erhalten, der ihnen für ihre Unterstützung dankt und ihnen mitteilt, wohin sie gehen müssen, um zu wählen, das Wetter und all das, was dazugehört Nacht vor der Wahl ", sagte Feibleman.

Ihre Stimme lebt weiter

Es gibt eine andere offensichtliche Anwendung für all diese Technologien. Unternehmen in natürlicher Sprache wie VivoText könnten einen persönlichen Service erstellen, der alle Sprachdaten eines Kunden in ein Produkt hochlädt, das es dieser Person ermöglicht, "für immer zu sprechen".


Die praktische Umsetzung würde wahrscheinlich eine Reihe von Fragen aufwerfen, wie wir gesprochene Stimmen hören und verinnerlichen. Was braucht es zum Beispiel, um einen Sound-Stream genau wie jemanden klingen zu lassen? Wie gut müssen wir eine Person kennen, um eine bestimmte Stimme zu erkennen? Und was passiert interessanterweise, wenn ein natürlicher Sprachdienst eher eine grobe Karikatur als eine zwingende Mimikry produziert?


Laut Feibleman hängt die Bewertung der Ergebnisse häufig von der Berücksichtigung des Kontexts ab. Zum Beispiel sagt er, dass Kinder normalerweise keine Fragen dazu stellen, wer spricht, wenn sie eine Geschichte hören. Sie wollen einfach mehr. Aber auch viele Erwachsene denken unter Umständen nicht darüber nach, wer mit ihnen spricht, wenn ein bestimmtes Szenario vorliegt, z. B. eine passive Sendung oder eine telefonische Nachricht. Es ist auch einfacher, sich über das Telefon von einem Computer täuschen zu lassen, da der gedämpfte Ton Störungen oder andere Diskrepanzen zwischen den Computerergebnissen und einer menschlichen Stimme überdecken kann.


"Es fällt Ihnen nicht ein, die Authentizität der Stimme in Frage zu stellen", sagt Feibleman.

Im Jahr 2525

Wenn Unternehmen Produkte und Dienstleistungen entwickeln und diese Fragen beantworten, könnten "lebende Sprachtechnologien" uns zu einer Konvergenz von Technologie und menschlichem Geist führen, die klassischerweise als künstliche Intelligenz (KI) bezeichnet wird.


Wenn Computer wie wir sprechen können, können sie andere Benutzer möglicherweise dazu verleiten, zu denken, dass sie wie wir denken. Dies entspricht dem größeren Prinzip der Singularität, das von John von Neumann, einem Technologiepionier aus den 1950er Jahren, der von Schriftstellern evangelisiert wurde, in unser Lexikon aufgenommen wurde und Denker wie Ray Kurzweil. Kurzweils 2005er Buch "The Singularity Is Near" erregt einige und erschreckt andere. Kurzweil hat vorausgesagt, dass die "Intelligenz" als Phänomen bis 2045 stark vom menschlichen Gehirn abgelöst wird und in die Technologie übergeht, wodurch die Grenzen zwischen Maschinen und ihren menschlichen Herren verwischt werden.


Unsterblich in den Texten von Zager & Evans "In the Year 2525" (niemand macht so gruselige Science-Fiction-Balladen wie diese Jungs)…


Im Jahr 4545

Du wirst deine Zähne nicht brauchen, wirst nicht brauchen

deine Augen

Sie werden nichts zum Kauen finden

Niemand wird dich ansehen


Im Jahr 5555

Deine Arme hängen schlaff an deinen Seiten

Deine Beine haben nichts zu tun

Einige Maschinen erledigen das für Sie


Sind Computerstimmen ein Schritt in diese Richtung? Als eine neue Möglichkeit, einige Funktionen des menschlichen Körpers auszulagern (oder allgemeiner zu simulieren), ist diese Art des technischen Fortschritts einer der größten - und wahrscheinlich unterberichteten - Fortschritte am Horizont, wenn wir in eine singuläre Zukunft blicken . (über "die Singularität" in "Werden Computer in der Lage sein, den menschlichen Geist nachzuahmen?")

Ich höre tote Leute? natural language tech lässt vergangene und gegenwärtige Stimmen lebendig werden