Was ist Sprachsynthese: 3 wichtige Faktoren, die damit zusammenhängen

Text-to-Speech-Roboter

Sprachsynthese

Die Methode zur Erzeugung von künstlicher Sprache mit Hilfe von Maschinen wird als Sprachsynthese bezeichnet. Ein Computersystem, das zur Durchführung dieses Verfahrens verwendet wird, wird als Sprachsynthesizer bezeichnet. Das System erfordert eine weitere Implementierung in Software oder Hardware, und wir können eine Anwendung davon in einem Text-to-Speech-System (TTS) feststellen. Ein Text-zu-Sprache-System akzeptiert die alltägliche menschliche Sprache in Textform als Eingabe und wandelt sie als Ausgabe in Sprache um.

Die Sprachsynthese erfolgt durch Sequenzieren der aufgezeichneten Sprache in Form von Einheiten, die in einer Datenbank gespeichert sind. Systeme variieren in der Größe der gespeicherten Spracheinheiten. Den größten Ausgabebereich bietet ein System, das Telefone oder Diphone mit der Möglichkeit eines Klarheitsverlusts speichert.

Die Speicherung ganzer Wörter oder Sätze ermöglicht eine qualitativ hochwertige Produktion für bestimmte Benutzerdomänen. Diese Methode kann ersetzt werden, indem ein Stimmtraktmodell und verschiedene andere Merkmale der menschlichen Stimme einbezogen und eine künstliche Sprachausgabe erzeugt werden.

Sprachsynthese
Übersicht über das TTS-System

Die Qualität der Ausgabe eines Sprachsynthesizers hängt davon ab, ob er der echten menschlichen Stimme nahe kommt und wie leicht sie zu verstehen ist. Die Verwendung des Sprachsynthesegeräts ist seit den 1990er Jahren offensichtlich und wurde gründlich entwickelt, um Menschen mit bestimmten Behinderungen und Beeinträchtigungen zu helfen.

Übersicht über das Text-to-Speech-System

Eine Text-zu-Sprache-Rede besteht aus zwei wesentlichen Teilen:

  • Front End- Es ist verantwortlich für die Konvertierung des Eingabetextes, der verschiedene Symbole, Zahlen und Abkürzungen enthält, in die entsprechende Form von verständlichen und konvertierbaren Daten. Dieser Vorgang wird als Textnormalisierung oder Vorverarbeitung der Daten bezeichnet. Jedes Wort wird dann mit phonetischen Transkriptionen versehen und trennt und markiert den Text durch einen Prozess, der als Text-zu-Phonem oder Graphem-zu-Phonem bezeichnet wird, in prosodische Einheiten wie Sätze, Klauseln und Phrasen. Die beiden Aspekte werden dann kombiniert, um die Ausgabedaten zu erzeugen, die die symbolische sprachliche Darstellung enthalten.
  • Back End- Dieser Teil wird allgemein als „Synthesizer“ bezeichnet und ist für die symbolische sprachliche Darstellung in Klang verantwortlich. In einem fortgeschrittenen System folgt auf diesen Prozess die Berechnung der Zielprosodie (Tonhöhenkontur, Phonemzeiten), die in der Ausgabesprache verwendet wird.
Gehäuse für Computer- und Sprachsynthesizer 19 9663804888
Sprachsynthesizer von Stephen Hawking; Bildquelle: Wissenschaftsmuseum London / Bildbibliothek für Wissenschaft und GesellschaftComputer- und Sprachsynthesizergehäuse, 19 (9663804888)CC BY-SA 2.0

Technologien für die Sprachsynthese

Natürlichkeit und Verständlichkeit sind die wichtigsten Attribute, die die Qualität eines Sprachsynthesegeräts bestimmen. Natürlichkeit wird durch die Fähigkeit des Geräts definiert, die menschliche Stimme so genau wie möglich zu reproduzieren, und die Verständlichkeit bestimmt, wie leicht das Gerät den ausgegebenen Ton verstehen kann. Sprachsynthesizer bemühen sich, in beiden Aspekten optimale Ergebnisse zu erzielen.

Verkettungssynthese und Formantensynthese sind die beiden Haupttechnologien, die synthetische Sprachwellenformen erzeugen. Jede Technologie weist Stärken und Nachteile auf, und die übliche Verwendung einer Synthesemethode bestimmt normalerweise die Wahl eines dieser Ansätze.

Verkettete Synthese

Die Sequenzierung von Fragmenten aufgezeichneter Sprache auf eine bestimmte Weise wird als verkettete Synthese bezeichnet. Dieser Prozess erzeugt normalerweise die am natürlichsten klingende synthetisierte Sprache. Inkonsistenzen zwischen natürlichen Sprachvariationen und dem Design der automatisierten Wellenformsegmentierungsverfahren führen jedoch häufig zu hörbaren Ausgangsstörungen.

Es gibt drei wichtige Untertypen der verketteten Synthese.

  1. Synthese der Einheitenauswahl- Die Eingabe für diese Auswahltechnik ist eine umfangreiche Datenbank mit aufgezeichneter Sprache. Die Segmentierung der Datenbank erfolgt unter Verwendung eines Spracherkenners, der auf den erzwungenen Ausrichtungsmodus eingestellt ist. Die Segmentierung führt zu Einheiten wie Telefonen, Diphonen, Wörtern, Phrasen, Silben, Morphemen, Sätzen usw. Die Indizierung dieser Einheiten basiert auf verschiedenen Parametern wie Tonhöhe, Dauer, Position in der Silbe und den benachbarten Telefonen. Der Entscheidungsbaumprozess wählt die am besten geeigneten Einheiten aus, um eine Kette für die Ausführung zu bilden. Je umfangreicher die Datenbank ist, desto natürlicher ist die ausgegebene Sprache. Diese Technik bietet die außergewöhnlichste Natürlichkeit für die Sprachausgabe basierend auf den aufgezeichneten Daten.
  2. Diphonsynthese- Die Datenbank für diese Technik besteht nur aus Diphonen, was sie relativ klein macht. Die Phonotaktik einer ausgewählten Sprache bestimmt die Menge aller zu berücksichtigenden eindeutigen Diphone. Die Sprachdatenbank besteht aus einer einzelnen Aufzeichnung jedes Diphons. Verschiedene digitale Signalverarbeitungstechniken wie PSOLA, MBROLA und lineare Vorhersagecodierung werden verwendet, um den Zielsatz diesen Diphoneinheiten zu überlagern. Die Verwendung der Diphonsynthese ist auf die Forschung beschränkt, da die Sprache nicht natürlich ist, sehr roboterhaft klingt und Schallstörungen enthält.
  3. Domänenspezifische Synthese- Die Datenbank für diese Technik ist auf zuvor aufgezeichnete Wörter und Phrasen beschränkt. Die Anwendbarkeit dieses Syntheseverfahrens ist auf den Bereich beschränkt, auf dessen Grundlage die Datenbank generiert wird, z. B. Bahnhofsansagen, Wetterberichte, sprechende Uhren usw. Die Implementierung dieser Technologie ist unkompliziert und gleichzeitig auf einem hohen Niveau Natürlichkeit kann durch begrenzte Ausgabesätze erreicht werden. Um eine reibungslose Mischung von Wörtern mit natürlicher Sprache zu erreichen, müssen viele Sprachvariationen berücksichtigt werden.

Formantensynthese

Für viele Anwendungen ist die Natürlichkeit der Sprache kein Ziel. Vielmehr sind Zuverlässigkeit, Intelligenz und Hochgeschwindigkeitsgenauigkeit wichtiger. Dies kann durch Formantensynthese erreicht werden, die eine synthetisierte Sprache unter Verwendung additiver Synthese und akustischer Modellierung erzeugt. Diese Methode, auch regelbasierte Synthese genannt, erzeugt eine künstliche Sprachwellenform durch Variieren von Parametern wie Frequenz, Geräuschpegel und Sprachausgabe.

Es ist sehr unwahrscheinlich, dass die künstliche, roboterhaft klingende Sprache, die durch die Formantensynthesetechnologie erzeugt wird, mit menschlicher Sprache verwechselt wird. Akustische Störungen, die in verketteten Systemen häufig auftreten, werden bei dieser Technik hauptsächlich beseitigt. Aufgrund des Fehlens einer umfangreichen Datenbank mit Sprachaufzeichnungen sind diese Programme relativ klein, da sie in eingebetteten Systemen Verwendung finden, in denen die Verarbeitungsleistung begrenzt ist.

Abgesehen von Standardfragen und -aussagen ist es möglich, eine Vielzahl von Sprachtönen und Emotionen zu vermitteln, da formatbasierte Systeme die vollständige Kontrolle über alle Aspekte der Ausgabe haben. Beispielsweise haben viele bemerkenswerte Videospiele die Formatsynthesetechnologie für interaktives Sprechen verwendet.

Artikulatorische Synthese

Die Methode zur Erzeugung von Sprachlauten basierend auf dem Modell des menschlichen Stimmapparates wird als Artikulationssynthese bezeichnet. Es zielt darauf ab, die Sprachartikulatoren auf eine oder mehrere Arten zu simulieren. Es bietet eine Möglichkeit, die Entwicklung der Sprache zu verstehen und die Phonetik zu erforschen.

Koartikulation ist ein natürlich vorkommender Effekt in einem solchen Modell, und es sollte möglich sein, theoretisch korrekt mit den Eigenschaften der Stimmritzenquelle, der Beziehung des Stimmapparates zu den Stimmlippen und dem subglottalen System, dem Nasentrakt und umzugehen Die Sinushöhlen beeinflussen durch dieses Modell die Erzeugung menschlicher Sprache.

Die Artikulationssynthese umfasst typischerweise zwei unterschiedliche Komponenten: den Vokaltrakt, der in mehrere Unterkomponenten unterteilt ist, und die entsprechenden Querschnittsbereiche, die parametrisch zur Reflexion der Stimmbandcharakteristika verwendet werden. Im akustischen Modell approximiert eine elektrische analoge Übertragungsleitung jedes Querschnittsfeld.

Die Simulation des Vokaltrakts unterliegt den zeitlichen Änderungen in den Bereichsfunktionen. Die jedem Klang zugewiesene Zielkonfiguration bestimmt das Tempo der Stimmbewegung. Bei richtiger Konstruktion kann der Artikulationssynthesizer jeden relevanten Effekt bei der Entwicklung von Frikativen und Plosiven sowie bei der Modellierung von Koartikulationsübergängen reproduzieren, um die Prozesse bei der realen Sprachproduktion zu replizieren.

Mitte der 1970er Jahre entwickelten Philip Rubin, Tom Baer und Paul Mermelstein in den Haskins Laboratories den ersten artikulatorischen Synthesizer, der üblicherweise für Laborexperimente verwendet wird.

HMM-basierte Synthese

Dies ist eine statistische parametrische Synthese, bei der die „Hidden-Markov-Modelle“ befolgt werden. HMMs Modellieren Sie gleichzeitig das Frequenzspektrum, die Grundfrequenz und die Sprachlänge bei dieser Methode. Sprachwellenformen, die nach dem Maximum-Likelihood-Kriterium erstellt wurden, werden aus HMMs selbst erstellt.

Ein Hidden-Markov-Modell (HMM) in der Computational Biology ist eine mathematische Technik, die hauptsächlich für die Modellierung biologischer Sequenzen verwendet wird. Eine Sequenz wird als Ausgabe einer diskreten stochastischen Methode in ihrer Implementierung modelliert, die durch eine Reihe von sequentiellen Zuständen voranschreitet, die dem Beobachter "verborgen" sind.

Sinuswellensynthese

Die Sinuswellensynthese oder Sinuswellenstimme ist eine Methode zur Synthese von Sprache, bei der die Formanten (prominente Energiebänder) durch reine Tonpfeifen ersetzt werden. Philip Rubin entwickelte in den 1970er Jahren die erste Sinuswellensynthesesoftware (SWS) zur automatisierten Erzeugung von Stimuli für Wahrnehmungsexperimente in den Haskins Laboratories.

Die Sinuswellensprache ist ein eigenartiges Phänomen, bei dem einige der Sprachmerkmale von einer kleinen Anzahl zusammengesetzter Sinuskurven übernommen werden - denen sie in den meisten Punkten überhaupt nicht ähneln. Eine hohe Verständlichkeit kann mit drei Sinuskurven erreicht werden, die die Frequenz und Amplitude der ersten drei Sprachformanten verfolgen.

Deep Learning-basierte Synthese

Im Gegensatz zum HMM-basierten Ansatz ordnet die Deep Learning-basierte Methode sprachliche Merkmale explizit akustischen Merkmalen zu, wobei sich tiefe neuronale Netze als äußerst erfolgreich beim Lernen inhärenter Dateneigenschaften erwiesen haben. Die Menschen haben in der langen Tradition von Studien verschiedene Modelle vorgeschlagen, die auf Deep Learning basierenden Methoden zur Sprachsynthese folgen.

Ein nützliches Werkzeug für die Sprachsynthese ist geworden tiefe Lernen in der Lage, große Mengen an Trainingsdaten zu nutzen. In letzter Zeit wurden immer mehr Forschungen zu Deep-Learning-Techniken oder sogar zu End-to-End-Systemen durchgeführt und Erfolge auf dem neuesten Stand der Technik erzielt.

AI ML DL 1
Bildquelle: Originaldatei: Avimanyu786 SVG-Version: Tukijaaliwa, AI-ML-DL, CC BY-SA 4.0

Im September 2016 begann WaveNet mit DeepMind, ein tiefes generatives Modell von rohen Audio-Wellenformen. Es wurde deutlich, dass Deep-Learning-basierte Modelle rohe Wellenformen modellieren und anhand akustischer Eigenschaften wie Spektrogrammen oder spezifischer vorverarbeiteter sprachlicher Eigenschaften eine gute Leistung erbringen können, um Ausdruck zu erzeugen.

Vorteile von End-to-End-Systemen

  • Eingeschränkte Fähigkeit zur Textanalyse mit einem einzigen System.
  • Eingeschränkter Umfang an Feature-Engineering.
  • Reichhaltige Konditionierung bestehender Attribute und einfache Anpassung an neuere.
  • Erhöhte Natürlichkeit und Verständlichkeit
  • Robuster im Vergleich zu mehrstufigen Modellen.

Nachteile von End-to-End-Systemen

  • Vorhandensein eines langsamen Inferenzproblems.
  • Geringere Daten führen zu einer weniger robusten Ausgangssprache.
  • Begrenzte Kontrollfähigkeit als verketteter Ansatz.
  • Die flache Prosodie wird mit Mittelwertbildung über Trainingsdaten entwickelt.

Herausforderungen bei der Sprachsynthese

  1. Anpassung von unterschiedlich ausgesprochenen Wörtern mit der gleichen Schreibweise, je nach Kontext.
  2. Rückschluss darauf, wie man eine Nr. Erweitert. basierend auf umgebendem Wort, Zahl und Interpunktion. Zum Beispiel kann 1465 "eintausendvierhundertfünfundsechzig" sein oder auch als "eins vier sechs fünf", "vierzehn fünfundsechzig" oder "vierzehnhundertfünfundsechzig" gelesen werden.
  3. Mehrdeutigkeit in Abkürzungen. Zum Beispiel muss 'in' für 'Zoll' vom Wort 'in' unterschieden werden.
  4. Der wörterbuchbasierte Ansatz (jedes Wort im Wörterbuch nachschlagen und die Schreibweise durch die im Wörterbuch angegebene Aussprache ersetzen, um die richtige Aussprache für jedes Wort auszuwählen) des Text-zu-Phonem-Prozesses schlägt für jedes Wort, das in gefunden werden kann, vollständig fehl das Wörterbuch.
  5. Regelbasierter Ansatz (Um ihre Aussprachen anhand ihrer Schreibweise zu bewerten, werden Ausspracheregeln auf Wörter oder den Ansatz des „Lernens des Lesens“ angewendet.) des Text-zu-Phonem-Prozesses schlägt fehl, da das Schema ungewöhnliche Schreibweisen oder Aussprachen berücksichtigt, da die Komplexität der Regeln erheblich zunimmt.
  6. Schwierigkeiten bei der zuverlässigen Bewertung von Sprachsynthesesystemen aufgrund fehlender allgemein anerkannter objektiver Leistungsstandards.
  7. Verschiebung der Tonhöhenkontur des Satzes, je nachdem, ob es sich um einen positiven, fragenden oder ausrufenden Ausdruck handelt.

Für den vorherigen Artikel über Mecanum Wheeled Robot, Klick hier.

Lesen Sie auch: