Norwegischen Forschern gelingt es, eine künstliche Kinderstimme zu schaffen

Norwegischen Forschern gelingt es, eine künstliche Kinderstimme zu schaffen

Video: Extremwetter – auf den Spuren der Klimaforschung | Ganze Folge Terra X (March 2020).

Anonim

vom norwegischen Forschungsrat

Es ist sehr schwierig, einen PC dazu zu bringen, die Stimme eines Kindes zu erkennen. Ebenso problematisch ist die Verwendung eines Computers, um Sprache in der Stimme eines Kindes zu synthetisieren. Norwegische Forscher haben einfache und effektive Lösungen für beide Herausforderungen gefunden.

„Synthetisierte Sprache ist der menschlichen Sprache immer ähnlicher geworden. Kinder, die über ein Sprachgerät kommunizieren, müssen jedoch immer noch eine synthetische Erwachsenenstimme verwenden “, erklärt Magne Lunde, Geschäftsführerin von Media LT, einem Unternehmen, das Hilfsmittel für behinderte Menschen entwickelt.

Dieser Nachteil war der Grund für ein gemeinsames Forschungsprojekt mit MedialT und Lingit, einem Softwareunternehmen. Gemeinsam entwickeln sie Norwegens erste synthetisierte kindliche Stimme.

Mit Mitteln aus dem Programm IKT für Behinderte (IT Funk) des Forschungsrats stellen sie eine völlig neue Methode auf den Prüfstand.

Umwandlung der Meisterstimme in eine verständliche Kinderstimme

„Wir beginnen mit einer so genannten Masterstimme, die aus drei oder vier erwachsenen Sprechern besteht, die mehrere Tausend Phrasen aufnehmen. Dann nehmen wir ein einzelnes Kind auf, das eine kleinere Anzahl von Phrasen vorliest. Wir verwenden diese Aufnahme, um die Masterstimme so zu verändern, dass sie wie eine Kinderstimme klingt “, berichtet Torbjørn Nordgård von Lingit. Dr. Nordgård ist außerdem Professor für Linguistik an der Universität Nordland.

Die vom Kind aufgenommenen Phrasen wurden so ausgewählt, dass sie eine Reihe der wichtigsten norwegischen Töne enthalten.

„Die Meisterstimme trägt immer noch die Intonation, dh die Melodie einer Phrase. Das Ergebnis klingt eher wie ein Kind mit ungewöhnlichen Sprachkenntnissen, ist aber immer noch viel besser als die Stimme eines Erwachsenen “, sagt Nordgård.

Weit vor dem Rest der Welt

Zu diesem Thema wurden international nur sehr wenige Untersuchungen durchgeführt. Die innovative Methode von MediaLT und Linget zur Synthese der Stimme eines Kindes bringt es an die Spitze seines Fachgebiets.

Jetzt ist alles vorhanden, um Testversionen der Kinderstimme zu testen.

"Wir hoffen, diesen Sommer eine Beta-Version zu haben", sagt Magne Lunde.

PCs müssen die Sprache der Kinder verstehen

Herr Lunde und seine Kollegen erforschen auch die Sprachsteuerung, beispielsweise die Verwendung von verbalen Befehlen zur Bedienung eines PCs.

Um einen Computer per Sprache bedienen zu können, muss die Maschine das Gesagte erfolgreich entschlüsseln. Das Interpretieren der Sprache von Personen sowohl am jungen als auch am älteren Ende der Skala ist besonders herausfordernd, da der Abstand zwischen ihren Stimmbändern und ihren Lippen kürzer ist als der des durchschnittlichen Erwachsenen.

„Ein Spracherkennungsprogramm zu unterrichten, um die Aussprache der verschiedenen Töne einer Sprache zu verstehen, erfordert eine relativ große Menge aufgezeichneter Sprache. Leider gibt es heutzutage nicht genügend Daten zur tatsächlichen Sprache der Kinder “, erklärt Professor Torbjørn Svendsen von der Norwegischen Universität für Wissenschaft und Technologie.

Professor Svendsen und seine Forschungspartner haben eine sehr elegante und dennoch einfache Methode entwickelt, um die mit Spracherkennung und Kindern verbundenen Herausforderungen zu bewältigen. Sie haben Kinderstimmen synthetisiert und die Ergebnisse zur Zusammenstellung einer Datensammlung verwendet.

Eine enorme Qualitätsverbesserung

Die Länge des Vokaltrakts beeinflusst die Frequenzverteilung der Sprachenergie. Die Forscher verwenden Technologie, um die Energieverteilung von Sprache für Erwachsene so darzustellen, dass sie der eines Kindes ähnlicher ist.

„Die konvertierte Erwachsenenrede ähnelt der Art und Weise, wie Kinder auch in Bezug auf den Klang sprechen. Auf diese Weise können wir unsere Konvertierungstechnik auf eine große Datenbank von Erwachsenen anwenden und eine funktionale Datenbank künstlicher kindlicher Stimmen erstellen. Damit haben wir dann ein separates Spracherkennungsprogramm für Kinder trainiert “, erklärt Professor Svendsen.

„Dies hat die Wiedererkennungsgenauigkeit der Kindersprache erheblich verbessert. Die Fehlerquote konnte um 50 bis 70 Prozent reduziert werden “, erklärt er.

Die Aktivitäten werden in Zusammenarbeit mit den Forschern des Projekts Sprachsteuerung im multimodalen Dialog (SMUDI) durchgeführt, das vom Forschungsrat im Rahmen seines Großprogramms Kernkompetenz und Wertschöpfung in der IKT (VERDIKT) und vom Ministerium für Bildung und Forschung gefördert wurde .

Norwegisch ist eine schwierige Sprache

Die norwegische Sprache stellt die Spracherkennungsexperten vor eine Reihe besonders großer Herausforderungen.

„Im Allgemeinen ist der Variationsgrad in jeder Sprache groß genug, um die Modellierung zu erschweren. Aber Norwegisch ist besonders schwierig. Es gibt zwei verschiedene geschriebene Formen der Sprache, unzählige Dialekte und eine breite Palette akzeptierter Alternativen für Wörter, Deklinationen und Verbindungen. Darüber hinaus gibt es keinen einheitlichen Aussprachestandard “, betont Torbjørn Svendsen.

Dr. Svendsen weist auch darauf hin, dass Menschen mit sprachgesteuerten Geräten erhebliche Schwierigkeiten haben können.

"Es ist einfach, sich von unserer Faszination für die Spracherkennung und die vielen Möglichkeiten, die sie bietet, faszinieren zu lassen. Daher ist es wichtig, vorhandene Technologien nicht zu ersetzen, wenn sie die beste Option für die Erledigung von Aufgaben bleiben - beispielsweise die Verwendung von Tasten zum Bedienen eines Aufzugs", sagte er schließt.