Automatisierte Spracherkennung?

 

Test einer Spracherkennungssoftware zur automatisierten Metadatenerfassung

von Johannes Kapeller
(Österreichische Mediathek, 2008)

1. Warum Spracherkennung?

Eines der Ziele des vorliegenden Projektes war, die Möglichkeiten einer automatischen Spracherkennung bei der inhaltlichen Erfassung eines großen Datenbestandes auszuloten. Diese Möglichkeit, so sie realisierbar wäre, würde eine große Arbeitserleichterung bzw. Zeiteinsparung in Bezug auf die intellektuelle bzw. manuelle Katalogisierung bedeuten, welche eine sehr zeitintensive Tätigkeit innerhalb von Editionsprojekten wie diesem darstellt.

Im Rahmen des Projektes sollte deshalb die Möglichkeit einer automatisierten Erstellung eines schriftlichen Transkriptes zum Zweck einer genauen inhaltlichen Erfassung des vorhandenen Bestandes an Hörfunksendungen überprüft werden. Weiters – und damit zusammenhängend – wurde versucht, die Möglichkeit der Metadatenanreicherung mittels automatisch generierter Stichwörter durch eine Spracherkennungssoftware auszuloten, sowie die eventuell sich ergebenden möglichen Ergänzungen zwischen manueller/intellektueller und automatisierter Katalogisierung zu testen.

2. Technische Grundlagen der Spracherkennung

Das Programm NOA Dactylo

Gearbeitet wurde mit der Spracherkennungssoftware „NOA Dactylo Indexer Version 1.0.0“ (Build 16) der Firma NOA und dem „Language Model Toolkit Version 3.0“ (Matador_1111) der Firma SAIL LABS Technology AG. Beide zusammen bilden eine Einheit.

Die Erkennung und Indizierung gesprochener Sprache erfolgt in diesem Programm auf folgender technischer Grundlage: Zur Spracherkennung wird eine digital vorhandene Tonaufnahme in einem vierstufigen Modell mathematisch analysiert.

In der ersten Stufe werden Hintergrundgeräusche aus dem Tonfile herausgefiltert, sodass das gesprochene Wort im Vordergrund steht.
In der zweiten Stufe wird eine Phonemtranskription durchgeführt. Phoneme sind per Definition die kleinsten bedeutungsunterscheidenden, aber nicht bedeutungstragenden Einheiten einer Sprache. Die deutsche Sprache verfügt über etwa 40 Phoneme, Dialekte mitunter über noch viel mehr. Phoneme sind nicht ident mit Buchstaben, da viele Buchstaben in mehreren Varianten ausgesprochen werden können. Dadurch ergeben sich weit mehr gesprochene Phoneme als niedergeschriebene Buchstaben.
In der dritten Stufe entsteht auf Grund dieses ersten phonetischen Transkriptes eine Übersetzung anhand eines Wörterbuchs. Das Spracherkennungsprogramm enthält ein Wörterbuch mit 150.000 bis 180.000 Wörtern, die in einem weiteren Arbeitsschritt mit neuen Worten ergänzt werden können.
In der vierten und letzten Stufe wird das Resultat mit einem Sprachmodell verglichen, das mit Hilfe von Linguist/innen durch Analyse der gesprochenen Sprache entwickelt wurde. Das Sprachmodell geht speziell auf den semantischen Kontext ein, der je nach Wissenschaftsgebiet oder Thema variiert. Es werden vektorielle Wahrscheinlichkeiten für jedes Wort berechnet.

Während für den Software-Benutzer bei den ersten drei Stufen nicht sehr viele Eingriffsmöglichkeiten bestehen – man kann nur auswählen, welches Tonfile transkribiert werden soll und sich anschließend das Ergebnis ansehen – ist die Arbeit mit dem in der vierten Stufe verwendeten „Language Model Toolkit“ eine sehr zeitintensive Tätigkeit, die es ermöglichen sollte, das Programm auf einen jeweiligen Bestand anzupassen. Hier wird ebenfalls ein fertiges Sprachmodell mit 150.000 bis 180.000 Wörtern zur Verfügung gestellt. Von dieser Basis aus kann ein eigenes Sprachmodell gebaut werden, indem man zu schon gespeicherten Wörtern neue hinzufügt. Da die Spracherkennungssoftware lernend ist, kann man durch das Hinzufügen neuer Wörter bzw. Textpassagen die Trefferquote der Texterkennung steigern.

3. Test der Spracherkennungssoftware NOA Dactylo

Ziele

Getestet wurde die Spracherkennungssoftware im Rahmen der oben erwähnten Projektziele erstens auf die Möglichkeit, die digitalisierten Audioaufnahmen in einer Volltextversion abzubilden, zweitens auf die Möglichkeit einer automatischen Indizierung (Beschlagwortung) der bearbeiteten Tonfiles als Zusatz zur manuellen Katalogisierung. Auf der Basis der vorhandenen Möglichkeiten sollte ein eigens auf den vorhandenen Bestand zugeschnittenes Sprachmodell entwickelt werden, wodurch die erzielten Ergebnisse noch verbessert werden sollten

4. Testanordnung

Der Bestand

Da der zu indizierende Bestand hinsichtlich der für die Sendungen verwendeten Aufnahmesituationen und Stimmporträts sehr vielfältig ist, und damit zu rechnen war, dass sich dadurch Auswirkungen auf die Möglichkeiten der automatischen Spracherkennung ergeben würden, erfolgte vorerst eine Auswahl von einzelnen Beiträgen nach der jeweiligen Aufnahmeumgebung.

Folgende Kategorien wurden ausgewählt:

  • Studiobeiträge: Bei Studiobeiträgen handelt es sich um eine kontrollierte Aufnahmesituation, es kann von einer sehr guten Aufnahmequalität ausgegangen werden, zudem ist meist ein/e geschulte/r Sprecher/in beteiligt (Moderator/in, bzw. Gestalter/in) sowie teilweise weitere Gesprächspartner/innen.
  • Nachrichtenbeiträge: Bei Nachrichtenbeiträgen handelt es sich um eine Sonderform einer Studioaufnahme, es kommt nur ein/e einzelne/r, geschulte/r Sprecher/in vor, zudem ist der Tonfall des Vortrags („Nachrichtenton“) keinen allzu großen Schwankungen unterworfen.
  • Außenaufnahmen: Bei Außenaufnahmen können unterschiedlichste Qualitätsfaktoren zum Tragen kommen. Die Möglichkeit unerwünschter Nebengeräusche ist gegeben, die Aufnahmesituation ist in Bezug auf Hintergrundgeräusche nicht vollständig kontrollierbar.
  • Kulturbeiträge: Bei Kulturbeiträgen handelt es sich natürlich nicht um eine „Aufnahmeumgebung“, im konkreten Fall wurden diese jedoch trotzdem als eigene Kategorie aufgenommen, da darin vermehrt O-Töne mit Interviewten in teilweise unterschiedlichen Sprachen mit Dolmetscher/innen verwendet werden, sowie teilweise Musik- bzw. Filmszenenausschnitte mit Sprache vermischt präsentiert werden, sowie Studio- und Außenaufnahmen gleichermaßen vertreten sind.li>
  • Telefonübertragungen: Telefonübertragungen wurden ebenfalls als Testkategorie ausgewählt. Es handelt sich dabei meist um eine/n Sprecher/in (Gestalter/in), die Qualität der Aufnahme kann jedoch je nach Verbindung ziemlich unterschiedlich sein und ist im Vergleich zu Studioaufnahmen allgemein als niedriger einzuschätzen.

Zusätzlich wurden innerhalb der jeweiligen Aufnahmeumgebung verschiedene Aufnahmesituationen unterschieden, um auch eventuelle Auswirkungen durch verschiedene Außeneinflüsse wie z. B. veränderte Dialogkonstellationen etc. herauszufinden:

  • Längeres Interview mit zwei Sprecher/innen 
  • Männlicher Sprecher
  • Weibliche Sprecherin
  • Gute Qualität
  • Schlechte Qualität
  • Kanalausfälle
  • Live-Reportage vor Ort
  • Fremdsprachige Interviews
  • Außeninterviews in geschlossenen Räumen
  • Beitrag mit Probenausschnitten

Diese Auswahl erhebt keinen Anspruch auf Vollständigkeit, es ging hierbei vielmehr darum, eine möglichst große Bandbreite an verschiedenen Parametern (Aufnahmesituationen, Qualitätsunterschiede) bzw. möglichen Einflussfaktoren auf die Möglichkeiten der automatisierten Spracherkennung zu erstellen.

Tabelle 1: Verwendete Testbeiträge: Studiobeiträge

 1980–841985–881989
längeres Interview 2 Sprecher/innenjm-850112jm-891230
männlicher Sprecherjm-841217jm-850112jm-891230
weibliche Sprecherinjm-830125jm-870824jm-891230
gute Qualitätjm-841217jm-870102jm-891219
schlechte Qualitätjm-820624jm-861231jm-891230
Kanalausfällejm-820624jm-870824jm-891230

Tabelle 2: Verwendete Testbeiträge: Nachrichten

 1980–841985–881989
männlicher Sprecherjm-841217jm-870102jm-890130
weibliche Sprecherinjm-830125jm-850112jm-891230
gute Qualitätjm-841217jm-870102jm-891219
schlechte Qualitätjm-820624jm-861231jm-890130
Kanalausfällejm-820624jm-870824jm-890130

Tabelle 3: Verwendete Testbeiträge: Außenaufnahmen

 1980–841985–881989
männlicher Sprecherjm-841217jm-850112jm-890130
weibliche Sprecherinjm-820624jm-880915jm-890130
gute Qualitätjm-841217jm-850112jm-891219
schlechte Qualitätjm-841217jm-870824jm-890130
Live-Reportage vor Ortjm-841217jm-850112jm-891230
fremdsprachige Interviewsjm-841217jm-881111jm-891219
Kanalausfällejm-820624jm-870824jm-890130
Außeninterview in geschl. Räumenjm-841217jm-850112jm-891230

Tabelle 5: Verwendete Testbeiträge: Telefonübertragungen

 1980–841985–881989
längeres Interview 2 Sprecher/innenjm-841217jm-850112jm-890130
männlicher Sprecherjm-841217jm-861231jm-890130
weibliche Sprecherinjm-841217jm-850112jm-890130
gute Qualitätjm-841217jm-870102jm-891219
schlechte Qualitätjm-841217jm-861231jm-891127
Telefoninterview allgemeinjm-800126jm-870102jm-890130
Kanalausfällejm-820624jm-870824jm-890130

Tabelle 4: Verwendete Testbeiträge: Kulturbeiträge

 1980–841985–881989
längeres Interview 2 Sprecher/innenjm-841217jm-870824jm-891230
gute Qualitätjm-841217jm-870102jm-891219
schlechte Qualitätjm-820624jm-870824jm-890130
Beitrag mit Probenausschnittenjm-880312jm-891219
Beitrag mit Musikjm-800128jm-850112jm-891230
Kanalausfällejm-820624jm-870824jm-890130
fremdsprachige Interviewsjm-800128jm-881111jm-891219
Außenaufnahmenjm-841217jm-870824jm-890130

5. Testdurchführung

Vergleich von automatischer und manueller Transkription

Die Zuordnung der Aufnahmekategorien zu den einzelnen Aufnahmesituationen ergab eine Anzahl von 16 nötigen Testfiles, deren Inhalt die gesamte Bandbreite abdecken sollte.
In einem ersten Testdurchgang wurden die ausgewählten Beiträge manuell transkribiert sowie parallel dazu von NOA Dactylo gescannt und die Ergebnisse verglichen, geplant war zudem ein Verbessern der Ergebnisse in einem zweiten Testdurchgang. Da NOA Dactylo, wie oben erwähnt, bis zu einem gewissen Grad „lernfähig“ ist, sollten die manuell erstellten Transkripte in das Language-Model des Programmes eingegeben werden, um die Qualität der automatisch erstellten Transkripte zu verbessern. Als Beispiel sollen hier zwei Ausschnitte dargestellt werden, welche die Bandbreite der erzielten Ergebnisse sehr gut illustrieren.

Tonbeispiel 1 – Aufnahme mit guter Tonqualität:
Beim ersten Beispiel handelt es sich um den Nachrichtenbeitrag des Mittagsjournals vom 17. Dezember 1984, die Aufnahme wurde im Studio mit einem geschulten, männlichen Sprecher (Anm.: Josef Wenzel Hnatek) aufgenommen, es handelt sich also um eine kontrollierte Studio-Aufnahmesituation, bei der hinsichtlich der Aufnahmequalität keine Abstriche gemacht werden mussten.

00:06:19 audio
Tonbeispiel 1

Aufnahme mit guter Tonqualität

Details

Tonbeispiel 2 – Aufnahme mit mangelhafter Tonqualität:
Für das zweite Beispiel wurde ein Ausschnitt mit mangelhafter Tonqualität ausgewählt. Am 31. Dezember 1986 berichtete der israelische ORF-Korrespondent Moshe Meisels von den Silvester-Feiern 1986 in Israel. Bei dieser Aufnahme handelte es sich um einen leider unvollständig erhaltenen Beitrag, der per Telefon aus Tel Aviv überspielt wurde, zudem war der Sender bei der Aufnahme der Journal-Sendung leicht verstellt.

00:01:15 audio
Tonbeispiel 2

Aufnahme mit mangelhafter Tonqualität

Details

6. Testergebnisse

Volltext
Wie auch aus den vorgestellten Beispielen ersichtlich wird, ergaben sich trotz der teilweise sehr guten Ergebnisse der getesteten Aufnahmen große Unterschiede im Vergleich zwischen automatisch und manuell erstellten Transkripten.
Die eingangs erwähnte Möglichkeit der Erstellung eines automatischen Transkriptes als Volltextversion der Audioaufnahmen schien somit nicht praktikabel, es wurde beschlossen, diese Möglichkeit nicht weiterzuverfolgen, da auch hinsichtlich der Möglichkeiten einer Verbesserung der Resultate durch die Entwicklung eines eigenen Sprachmodells große Zweifel bestanden. Es handelte sich nämlich inhaltlich bei den nicht erkannten Wörtern großteils um solche, die in der Wortdatenbank von NOA Dactylo bereits enthalten waren. In solchen Fällen hätte auch eine Erweiterung der Software-internen Datenbank keine wesentlichen Verbesserungen bewirken können.

Schlagwort-Indizierung
Im Hinblick auf eine mögliche Verwendung des Programms zur automatisierten Indizierung des Bestandes über Stichwörter – dafür bedürfte es keines vollständigen Transkriptes – wurden die Ergebnisse der Testreihe auch auf diese Möglichkeit hin ausgewertet. Im konkreten Fall waren dies Angaben zu Orten sowie Personen bzw. Körperschaften.

In Beispiel 1 wurden insgesamt 66 relevante Stichwörter verwendet. Es waren dies 22 Personen- bzw. Körperschaftsbezeichnungen sowie 44 Ortsangaben. Von NOA Dactylo wurden davon insgesamt 46 Stichwörter richtig erkannt. Daraus ergibt sich in diesem Beispiel eine Erkennungsrate von 69,69 %. Zudem wurden drei Stichwörter „falsch erkannt“, das heißt, sie kamen zwar im generierten Transkript, nicht aber in der Aufnahme selbst vor.

In Beispiel 2 wurde von den drei vorhandenen Stichworten keines erkannt. In diesem Fall beträgt die Erkennungsrate also 0 %. Zudem wurden hier vier Stichwörter „erkannt“, welche nicht in der Aufnahme vorkamen.

Innerhalb des gesamten Testspektrums waren die erzielten Ergebnisse allesamt innerhalb der Bandbreite dieser beiden Beispiele angesiedelt. Die beiden Beispiele stellen also quasi die Eckpfeiler der vorhandenen Möglichkeiten der verwendeten Spracherkennungssoftware in Bezug auf den zu untersuchenden Bestand dar.
Bei Studiobeiträgen, im besonderen Nachrichtenbeiträgen, konnten die besten Resultate erzielt werden. Die Anzahl der erkannten Stichwörter lag zwischen 40 und 70 %.
Bei Außenaufnahmen sowie Kulturbeiträgen – diese Kategorien überschnitten sich zuweilen – war die Bandbreite der erzielten Ergebnisse hingegen größeren Schwankungen unterworfen und der Prozentsatz der erkannten Stichwörter generell um einiges geringer. Die Erkennungsrate lag hier etwa zwischen 20 und 50 %.
Telefonübertragungen lieferten allgemein, wie erwartet, die schlechtesten Ergebnisse. Hier wurden zwischen 0 und 30 % der gesuchten Stichwörter erkannt.
Unterschiede in Bezug auf die innerhalb der Testkategorien vorkommenden Aufnahmesituationen wurden nicht weiter ausgewertet.

7. Schlussfolgerungen

weitere Vorgangsweise

Die grundsätzliche Funktionstüchtigkeit des Spracherkennungsprogramm NOA Dactylo war im Test zweifellos gegeben. Dennoch hing die Erfolgsquote sehr stark von der jeweiligen Aufnahmequalität ab, die beim vorliegenden Bestand nur bei den Nachrichten- bzw. Studioaufnahmen mit geschulten Sprecher/innen gegeben waren. Außenaufnahmen, Interviews und Telefon- oder Leitungsbeiträge eigneten sich nur bedingt bis gar nicht für die Analyse.

Bezogen auf das gesamte Testmaterial lag die Erfolgsquote bei einem geschätzten Anteil von 40–50 % an erkannten Wörtern, bezogen auf den gesamten Inhalt. Da eine mögliche Steigerungsrate der erkannten Wörter durch die Entwicklung eines eigenen Sprachmodells im „Language Model Toolkit“ nicht über eine prozentuelle Steigerung von höchstens 10 % hinauszugehen scheint, wurde von dieser sehr zeitintensiven Möglichkeit zur Verbesserung der Ergebnisse abgesehen.

Für die Zwecke einer Katalogdatenanreicherung mit Stichwörtern, einer möglichen praktischen Ergänzung der Metadatenerfassung innerhalb dieses Projektes, hätte jedoch bereits eventuell ein vorhandener Anteil von 40 % zu verwendbaren Ergebnissen, sprich einer Verbesserung der Katalogdaten führen können.

Problematisch waren hier jedoch zwei Punkte. Zum einen stellte die doch sehr große Streuung der Ergebnisse (eine Erkennungsrate zwischen 0 und 70 %) ein Problem für die Katalogisierung dar. Dies würde zu einer ungleichen Gewichtung innerhalb der Metadaten führen; abhängig davon, ob ein Stichwort erkannt wird, würden Stichwörter automatisch in den Katalog aufgenommen oder nicht. So würden zum Beispiel Telefonbeiträge, welche von NOA Dactylo nicht bzw. schlechter erkannt werden, dementsprechend weniger Präsenz im Katalog bekommen, was ein eindeutiges Manko im Vergleich zur manuellen Katalogisierung darstellen würde.

Ein zweites Problem stellten jene von der Software „erkannten“ Begriffe dar, welche im Ausgangstext gar nicht vorkamen. Im oben erwähnten Beispiel 1 würde zum Beispiel die Such nach „Malta“, „Carter“, bzw. „Jena“ zu Suchergebnissen führen, welche in diesem Fall keinen Bezug zum tatsächlichen Inhalt darstellen. Die automatisierte Aufnahme solcher Schlagwörter in den Katalog würde ebenfalls zu einer Qualitätsminderung der Metadaten durch die Aufnahme falscher Stichwörter führen. Um diesen Nachteil auszugleichen wäre eine umfangreiche manuelle Nachbearbeitung der erhaltenen Daten nötig, welche im Zeitrahmen dieses Projektes nicht zu realisieren war. Bezüglich des nötigen Arbeits- bzw. Zeitaufwandes würden sich durch eine automatisierte Schlagworterkennung mittels Sprachsoftware also beim derzeitigen Stand dieser Technik keine entscheidenden Vorteile ergeben.

Die Einbindung der Spracherkennungssoftware als automatisierte Katalogisierungsunterstützung wurde deshalb für den Rahmen dieses Projektes als ebenfalls nicht zielführend bewertet und nicht weiter verfolgt. Ein Vergleich zwischen intellektueller und automatischer Katalogisierung wurde somit vorerst eindeutig zugunsten der intellektuellen/manuellen Metadatenerfassung entschieden.

Die Spracherkennungssoftware NOA Dactylo bedarf mit Sicherheit noch weiterer Forschung, verbesserter Programmierung, weiterer Testreihen und grundlegender Fehleroptimierung, bevor das Programm in großem Stile zur archivarischen Indizierung bzw. zur Metadaten-Anreicherung verwendet werden kann.
Mögliche Ergänzungen von automatisierter und manueller Katalogisierung werden in Zukunft mit verbesserter Software eventuell realisiert werden können. Da diese Tätigkeiten bei weitem die zeitlichen Möglichkeiten dieses Projektes überstiegen hätten, wurde im konkreten Fall beschlossen, die freigewordenen Ressourcen in die manuelle Katalogisierung zu investieren.