Langzeitarchivierung an der Österreichischen Mediathek

Die Österreichische Mediathek arbeitet kontinuierlich daran, ihre analogen Bestände zu digitalisieren und analoge wie digitale Ton- und Videoaufnahmen zu sammeln. Das digitale Archiv der Österreichischen Mediathek enthält mit Stand Jänner 2024 etwa 300 000 digitale Objekte. Um diese Files langfristig intakt und abspielbar zu erhalten, müssen verschiedene Maßnahmen ergriffen werden, wie im folgenden Text erläutert. Dazu zählen die redundante Speicherung von Kopien, die regelmäßige Migration der Speichermedien, die kontinuierliche und wiederholte Überprüfung der Integrität der digitalen Files und die Prüfung der Dateiformate auf Obsoleszenz. Die digitale Langzeitarchivierung ist somit ein fortlaufender Arbeitsprozess und keine einmalige Aktion.

Langzeitarchivierung vor dem Hintergrund von Verlust

Magnetbandbasierte audiovisuelle Archive wie die Österreichische Mediathek sind im Wesentlichen davon geprägt, dass die Abspielbarkeit der Originale im Analogarchiv bedroht ist. Bestandsdigitalisierung stellt hierfür die einzige Lösung dar, um dauerhaft die Quellen der Sammlung nutzbar zu halten. Medienarchive sind in der Regel getrieben vom drohenden Verlust ihrer Bestände; verkürzt dargestellt: was nicht rechtzeitig digital vorhanden ist, ist verloren. Eingebettet in eine Langzeitarchivierungsstrategie stellt die Digitalisierung analoger Tonaufnahmen den ersten großen Migrationsschritt in einer zukünftig langen Serie von Migrationen dar.
 

Vor dem Hintergrund von Verlust kommt nicht nur der Digitalisierung, sondern auch der Langzeitarchivierung ein besonderer Stellenwert zu. Während es Ziel der Erhaltungsdigitalisierung ist, ein digitales Abbild der analogen Quelle zu schaffen, das dem Original so nahe wie möglich kommt; so kommt der Langzeitarchivierung die Aufgabe zu, die digitalen Objekte für alle Zukunft zu erhalten und das Risiko von digitalen Verlusten abzuschätzen und möglichst zu reduzieren.

 

Konzept der Langzeitarchivierung an der Österreichischen Mediathek

Ewige Migration

Wie kann es gelingen, ein digitales Objekt für alle Zukunft zu erhalten? Unvorstellbar erscheint das Ziel, Digitales für alle Ewigkeit zu erhalten. Das kann nur gelingen, wenn die Essenz des Files erhalten bleibt, während Form („Format“) und Informationsträger immer wieder aktualisiert und angepasst werden. Das Konzept der „ewigen Migration“ beschreibt genau diese Strategie. Hier geht es im Wesentlichen um zwei Punkte: Trägermigration und Formatmigration. Bei der Trägermigration werden die Daten Bit-Stream-getreu auf ein anderes Speichermedium transferiert. Mittels Prüfsummen kann verifiziert werden, ob die Kopie auf dem neuen Trägermedium mathematisch mit seiner Quelle ident ist. Solche Migrationen des Speichermediums sind aufwendig und teuer, und stellen doch die Basis jeder Langzeitarchivierung dar. 

Neben einer alle paar Jahre stattfindenden Trägermigration muss allerdings auch darauf geachtet werden, ob die Files in der Form, in der sie vorliegen, auch dauerhaft genutzt – im AV-Archiv „abgespielt“ – werden können. Hier braucht es einen vorausschauenden Blick auf die digitale Sammlung und das frühzeitige Erkennen von potenziellen Risiken in Hinblick auf Formatobsoleszenz. 

Vier Säulen der Langzeitarchivierung

Die Langzeitarchivierungsstrategie der Österreichischen Mediathek basiert auf vier Säulen der LZA:

1. Speicher

Die Basis jeder Langzeitarchivierung ist die Speicherinfrastruktur. Die Österreichische Mediathek speichert von jedem digitalen Objekt vier idente, verifizierte Kopien auf drei unterschiedlichen Speichermedien: Festplattenspeicher, einem Magnetbandspeicher (LTO-Tape-Library) und externe Offline-LTO-Magnetbändern. Diese Strategie folgt der „3-2-1-Backup-Regel“, die sich für die Datenspeicherung in dreifacher Form auf unterschiedlichen Speichertechnologien und an unterschiedlichen Orten (Katastrophenprävention) ausspricht. 

Räumliche Verteilung schützt die Datenbestände vor Schäden, die an Infrastruktur und Gebäude (Brand, Wassereinbruch, …) entstehen könnten. Zusätzlich zu den Standorten der Datenpools an unterschiedlichen Standorten in Wien wird ein Datensatz im Zentralen Ausweichsystem des Bundes (ZAS) in St. Johann im Pongau gelagert.

Ein wesentlicher Aspekt der Langzeitarchivierungsstrategie der Österreichische Mediathek ist es den kompletten Datensatz mehrfach in der Form von LTO-Bändern offline zu speichern. Das stellt eine – nicht nur ökologisch – effiziente Art dar, den Datenbestand vor Fremdeinwirkung (z.B. durch Schadsoftware) zu schützen.

Ewiger Speicher?

Wie schon oben dargestellt, setzt die Österreichische Mediathek in ihrer Langzeitarchivierung auf regelmäßige Trägermigration. Das bedeutet, dass alle paar Jahre der komplette Datenbestand der Österreichischen Mediathek auf ein anderes Trägermedium – de facto ein aktuelles Speichersystem mit neuer Hardware – kopiert wird. Immer wieder werden Trägermedien vorgestellt, die eine lange physische Haltbarkeit versprechen (z.B. optische Datenträger aus robusten Materialien wie Gold, analoger (Mikro-)Film als Träger digitaler Daten, Datenträger auf der Basis von Keramik, …). Die Speicherung auf derartigen Trägern ist nicht Teil des Archivierungskonzeptes der Österreichischen Mediathek. Hintergrund ist einerseits, dass bei der Speicherung von großen digitalen Datenmengen, wie es bei audiovisuellen Medien der Fall ist, ein Transfer auf solche Speichermedien sehr aufwendig wäre. Andererseits ist es bei solchen Speichermedien notwendig mitzudenken, dass neben der Haltbarkeit der Träger in gleicher Lebensdauer die Verfügbarkeit von Hardware mitgedacht werden müsste, um die Informationen auf den Trägern auszulesen. Insofern stellt sich auch hier die Frage von Formatobsoleszenz – gerade bei wenig verbreiteten Speichermedien.

Ein weiterer Aspekt ist, dass das digitale Langzeitarchiv der Österreichischen Mediathek ein lebendiges Archiv ist, in dem Daten laufend angepasst, ergänzt und aktualisiert werden, wodurch ein statischer Speicher, der auf 100 Jahre oder mehr ausgelegt ist, wenig sinnvoll erscheint.

Trägermigration - alle Jahre wieder...

Nachdem bei Festplattenspeicher nach einer gewissen Zeit mit Schäden an der Hardware zu rechnen ist, muss alle paar Jahre eine Migration der Daten eingeplant werden. Neben Erneuerung von Hardware gibt es einen weiteren Zyklus zu beachten: die Aktualisierung von LTO-Bändern. LTO steht für „Linear Tape Open“. Es handelt sich dabei um ½-Zoll Magnetbänder zur Sicherung von digitalen Daten. Alle zwei Jahre gibt es eine neue aktualisierte Generation von LTO-Tapes, die auch eine größere Datenmenge speichern können. Der Hauptgrund, um die Daten auf LTO aktuell zu halten, ist die Sicherstellung der Lesbarkeit der Daten mit aktuellen Bandlaufwerken. Jede Generation an LTO-Bandlaufwerken ist mit der vorigen Generation an Tapes kompatibel – d.h. diese können gelesen und beschrieben werden. Die vorvorige Generation an Tapes kann nicht beschrieben, aber gelesen werden. Um nicht in Gefahr zu laufen, dass die eigenen Datenbänder nur noch von Altgeräten gelesen werden können, ist es notwendig in einem entsprechenden Rhythmus auf die neueste Generation von LTO-Bändern und Laufwerke umzusteigen.

2. Integrität

Neben der Sicherstellung und regelmäßigen Erneuerung der Speicherung und ihrer Infrastruktur ist es Kernaufgabe der Langzeitarchivierung die Integrität der Daten zu gewährleisten. Hierbei geht es darum ab Eintritt ins digitale Archiv dauerhaft die Unversehrtheit der Daten zu verifizieren. Prüfsummen wie „MD5“ oder „SHA“ sind dafür geeignete Werkzeuge. Aus der Summe der Bits eines Files wird mittels eines Algorithmus eine Summe erzeugt. Nach jedem Kopiervorgang als auch in regelmäßigen Intervallen kann die Prüfsumme neu errechnet werden und mit der Eingangsprüfsumme verglichen werden. So kann exakt festgestellt werden, ob die Daten eines Files eine Veränderung erfahren haben und damit korrumpiert sind.

Falls eine Datenkorruption eingetreten ist, kann mit der Prüfsumme eine intakte Kopie des Files identifiziert werden, das die korrupte Datei ersetzen kann.

Datenintegrität Prüfen

Die Unversehrtheit der digitalen Objekte muss ab dem Eingang ins Archiv überprüft werden. Ideal ist es, wenn direkt bei Entstehung der Daten eine Prüfsumme mitgeliefert wird, die von Anfang zur Bestätigung der Datenintegrität dient. Häufig ist das bei der Übergabe von digitalen Objekten von externen Produzent*innen und Sammler*innen nicht der Fall. In solchen Fällen müssen Prüfsummen bei der Übernahme der Files – dem „Ingest“ – erstellt werden. Alle Dateien im digitalen Archiv müssen mit Prüfsummen versehen sein, damit automatisiert und regelmäßig der Zustand der Dateien geprüft werden kann. So kann zeitnah auf eventuelle Datenfehler wie „bit flip“ oder „bit rot“ reagiert werden.

Beim „Ingest“ verwendet die Österreichische Mediathek ein System aus mehreren sogenannten „Inboxen“. Diese Inboxen haben die Aufgabe digitale Objekte, die ins Archiv geschrieben werden sollen, in Hinblick auf Validität und Integrität der Daten zu prüfen.

Ab dem Eingang ins digitale Archiv gibt es an der Österreichischen Mediathek regelmäßige Kontrollen über den Datenbestand. 

Dazu gibt es an der Österreichischen Mediathek ein eigenes Archiv-Analyse- und Monitoring-System: MEDIAS. MEDIAS basiert auf der Software „Search-IT".

3. Konsistenz

Speicher und Datenintegrität sind das Rückgrat der Langzeitarchivierung und ermöglichen die exakte Erhaltung der Bits: „Bitstream Preservation“. Ein wesentlicher Punkt in der Langzeitarchivierung ist in der Praxis die Frage der Datenkonfektion: wie sollen digitale Daten benannt werden und in welchen Strukturen (Dateien und Ordner) sollen die Daten gespeichert werden?

Hilfreich ist hier als Denkstütze das bekannte Referenzmodell OAIS („Open Archival Information System“ – ISO 14721). In diesem Modell werden drei Informationspakete unterschieden: „Submission Information Package (SIP)“, „Archival Information Package (AIP)“ und „Dissemination Information Package (DIP)“. Die Kernfrage in der Langzeitarchivierung ist in diesem Bereich die Definition der AIPs für unterschiedliche Bestandsgruppen und der Abgleich und die Wahrung der Konsistenz der Daten in der Praxis – vor allem auch unter sich ändernden Bedingungen und Anforderungen in der digitalen Archivierung.

Für diese Fragestellungen werden mittels dem Programm MEDIAS systematische Abfragen über den digitalen Gesamtbestand gemacht, um zu überprüfen, ob alle AIPs im digitalen Archiv unserer aktuellen AIP-Definition entsprechen. Gerade bei einem sehr alten digitalen Archiv wie bei dem der Österreichischen Mediathek (Beginn im Jahr 2000), finden sich unterschiedliche Generationen an AIPs. Solche Unterschiede in der Beschaffenheit der Daten müssen dokumentiert werden, um entsprechende Maßnahmen setzen zu können und AIPs – wenn notwendig und sinnvoll – auf den aktuellen Stand zu heben.

4. Funktionalität

Die Frage nach der Funktionalität eines digitalen Objekts ist im Kern die Frage nach dem Erhalt der „Essenz“ eines Files: kann ich dieses Objekt in seiner vorliegenden Form in der vorgesehenen Nutzung verwenden bzw. kann ich in absehbarer Zukunft ein diesbezügliches Risiko identifizieren? Als Ton- und Videoarchiv ist die Österreichische Mediathek mit einer Fülle an Dateien in unterschiedlichen Formaten konfrontiert. Der erste Schritt, um dem Problem drohender Formatobsoleszenz zu begegnen, ist das Wissen darum, welche Formate sich im digitalen Archiv befinden. Bei der Analyse von AV-Dateien ist es wichtig, Container-Format als auch die Kodierung der einzelnen Streams (Audiostream, Videostream) zu beachten. Hilfreiche Tools hierfür sind ffprobe und MediaInfo. Anhand von solchen Analyseprogrammen können die jeweiligen Formate im digitalen Archiv analysiert und eine diesbezügliche Risikoabschätzung vorgenommen werden.

Während bei Born-Digital-Objekten in der Österreichischen Mediathek zunächst das digitale Original in seiner ursprünglichen Form archiviert wird, muss bei potenziell gefährdeten Formaten eine weitere langzeitarchivierungstaugliche Kopie (Archivkopie) verlustfrei angefertigt werden. Formate, die an der Österreichischen Mediathek zur Erstellung von verlustfreien Archivkopien angewendet werden, sind: FFV1/PCM/MKV für Video und PCM/BWF für Audio.

Digitale Langzeitarchivierung
Marion Jaks, Mag.a
+43 1 5973669-7162, E-Mail