Einleitung

Forschung im Bereich multilinguale Spracherkennung ist nicht ohne eine Datenbasis möglich, die ausreichendes Sprach- und Textmaterial von ein- heitlicher Qualität in vielen Sprachen bereitstellt. Diese Erkenntnis hat sich mittlerweile durchgesettzt, und viele Konsortien kümmern sich heutzutage verstärkt um multilinguale Datensammlungen. Zu Beginn dieser Arbeit gab es noch keine Sammlung von ausreichender Größenordnung. Im Rahmne dieser Arbeit wurde daher das Projekt GlobalPhone initiiert, um eine eigene Datenbasis zu erstellen. Dieses Kapitel beschreibt die Planung und Durch- führung des Projekts und die daraus entstande GlobalPhone-Datenbasis, die die Grundlage dieser Arbeit bildet.

 

Motivation

Im Idealfall stünde zur Forschung im Bereich "Spracherkennung für große Wortschätze unter dem Aspekt der Multilingualität" eine Datenbasis in vielen verschiedenen Sprachen zur Verfügung, die:

- die für die Spracherkennung wichtigsten Sprachen im Sinne von Verbreitungsgrad und wirtschaftlicher Relevanz abdeckt,

- möglichst das komplette lautliche Inventar abdeckt, das der Mensch zur sprachlichen Kommunikation verwendet,

- Personen umfaßt, die einer repräsentativen Auswahl von Muttersprachlern im Sinne von Geschlecht, Alter und Bildung entstammen,

- ausreichend transliteriertes Sprachmaterial enthält, das ein robustes Schätzen akustischer Modelle garantiert (pro Sprache mindestens 10,000 Äußerungen mit etwa 100,000 kontinuierlich gesprochenen Wörtern,

- umfangreiche Texte mit Millionen laufender Wörter zum Trainieren der Sprachmodelle zur Verfügung stellt,

- in möglichst einheitlicher akustischer Qualität vorliegt, um sprachenspezifische Unterschiede erfaßbar machen zu können (gleiche Aufnahmebedingungen, gleiche Umgebungsbedingungen, gleiche Szenarien),

- in allen Sprachen den gleichen Sprechstil aufweist (gelesen, spontan, oder Umgangssprache, im Monolog oder Dialog),

- in semantischer Hinsicht in allen Sprachen äquivalent ist (Vokabular und Domäne).

Zum Zeitpunkt des Beginns dieser Arbeit (1996) gab es nur wenige Datensammlungen, die mehrere Sprachen umfassen. Die umfangreichste Datenbasis, die zur Lösung des Sprachenidentifizierungsproblems entstanden war, ist das OGI Multilanguage Telephone Speech Corpus, der 1996 bereits 11 Sprachen umfaßte. Da für Sprachenidentifizierung keine Traqnskriptionen vorausgesetzt werden, wurde nur ein kleiner Anteil der Sammlung transkribiert. Solche Datenbasen sind zur Entwicklung von Erkennern für große Wortscshätze ungeeignet. Im Rahmen des deutschen Sprachprojektes VERBMOBIL entstand eine sehr umfangreiche, komplett verschriftete Datenbasis. Allerdings umfaßt das Projekt "nur" die drei Sprachen Deutsch, Englisch und Japanisch, was für das im Rahmen dieser Arbeit geplante Forschungsvorhaben zu wenig waren. Neben diesen Datenbasen waren im Jahr 1996 nur monolinguale oder höchstens bilinguale verschriftete Datenbasen verfügbar, wie etwa der ATIS und der Wall Street Journal Task in Amerikanischem Englisch von der DARPA, das WSJCAM0 Korpus für Britisches Englisch, dessen französisches Pendant BREF Le Monde oder deutsche PHONDAT-Korpus Frankfurter Rundschau. Für Forschungsarbeiten mit dem Ziel des Vergleichs zwischen Sprachen ist eine Zusammenfassung mehrerer solcher Korpora kaum möglich, da die Sammelbedingungen der einzelnen Datenbasen nicht standardisiert sind und daher erheblich voneinander abweichen. Jedes Korpus verfügt über eigene Szenarien und Aufnahmebedingungen.

Während sich mittlerweile die Erkentnis durchgesetzt hat, daß die Forschung im Bereich multilinguale Sprachtechnologie durch das Fehlen einheitlicher multilingualer Datenbasen stark behindert wird, gab es bis 1966 keine verschriftete Sprachdatenbasen in gegenüber Sprachenzahl, ausreichendem Datenumfang und einheitlicher Qualität. Daher entschloß sich die Autorin zur Initiierung des Projekts GlobalPhone, um eigenständig eine multilinguale Datenbasis aufzubauen, die den eigenen Erfordernissen genügt. Die Sammlung der GlobalPhone-Datenbasis war damit dem allgemeinen Trend zur Sammlung großer multilingualer Datren voraus. Sie wird heute als Vorbild herangezogen und in Aufzählungen zitiert.

Mittlerweile bemühen sich zahlreiche international operierende Datenkonsortien darum, große Datensammlung zu koordinieren und zu Forschungszwecken zur Verfügung zu stellen. Zu nennen sind hier insbesondere das Linguistic Data Consortium (LDC) in den Vereinigten Staaten und die European Language Resources Association (ELRA) als Datendistributionsorgan der EU-Language Engineering Initiative. Beispiele für Datensammelprojekte sind Speechdata, welches die Sammlung von Kommandowörtern und isoliert gesprochenen Ziffern und Buchstaben und einigen wenigen gesprochenen Sätzen via Telefon in den 8 europäischen Sprachen Deutsch, Französisch, Italienisch, Britisch-Englisch, Portugiesisch, Spanisch, Schweizer-Französisch und Dänisch umfaßt, und mittlerweile in die vierte Runde geht. Es wurde auf die Sammlung von Autodaten in 10 Sprachen erweitert. Im Rahmen des EC-Copernicus Programmes gibt es das Projekt BABEL, in dem eine Datenbank für Sprachen aus Zentral- und Osteuropa erstellt werden soll. Gesammelt wird in den 6 Sprachen Bulgarisch, Estnisch, Ungarisch, Polnisch und Rumänisch. Da Multilingualität eines der Kernthemen des fünften Rahmenprogrammes der EU ist, ist die Erstellung großer Datenbasen in vielen Sprachen derzeit eines der vordringlichen Ziele der ELRA. In den Vereinigten Staaten vertreibt das LDC die Daten aus dem Projekt CallHome, in dem Telefonkonversationen in den Sprachen Ägyptisch, Englisch, Mandarin Chinesisch und Spanisch mitgeschnitten werden. Das Hub4 Programm der DARPA umfaßt die Sammlung von BroadcastNews Daten in den Sprachen, der Datenumfang sowie die Szenarien, in denen gesammelt wird, steigt beständig. Das internationale Coordinating Committee fpr Speech Databases and Assessment COCOSDA hat sich mit dem Polyphone Projekt zum Ziel gesetzt, soviel Weltsprachen wie nur möglich in Telefonqualität zu sammeln. Die Asienerweiterung dieses Kommittees bemüht sich derzeit um den Aufbau Von Datenbasen im asiatischen Raum.