Auf dieser Seite finden Sie

Dateiformate und LZV

Sicherstellung der Langzeitverfügbarkeit von Dateien: Semantic und Logical Preservation

Ziel der Langzeitverfügbarkeit ist die Semantic Preservation, d. h. der langfristige Erhalt der inhaltlichen Interpretierbarkeit von digitalen Ressourcen. Grundlage für die Semantic Preservation wiederum ist die Logical Preservation. Diese umfasst Maßnahmen, die darauf abzielen, Dateien langfristig (techno-)logisch interpretierbar zu erhalten. Nur wenn Dateien von Computersystemen und Programmen korrekt erkannt und dargestellt werden (Rendering), sind die in den Dateien abgespeicherten digitalen Informationen für Menschen verfügbar und nutzbar.


Darstellung der Preservation Levels als Pyramide


Aus diesem Grund sollten zur Langzeitverfügbarkeit vorgesehene Daten möglichst in einem Dateiformat gespeichert werden, das aktuell als langzeitstabil eingeschätzt werden kann. Eine akute Dateiformatobsoleszenz wird in diesem Fall als unwahrscheinlich betrachtet.


Screenshot_ Adobe Reader Fehlermeldung: Dateityp wird nicht unterstützt

Weiterführende Infos

Mehr Informationen zum Thema Dateiformate finden Sie in folgendem Video.

Video: Crashkurs Digitale Langzeitarchivierung - Dateiformate




Beurteilung von Dateiformaten hinsichtlich ihrer Langzeitstabilität

Die Auswahl eines für die Langzeitverfügbarkeit geeigneten Dateiformats sollte immer mit dem Ziel getroffen werden, die Daten auch in Zukunft fehlerfrei und authentisch darzustellen, sowie die signifikanten Eigenschaften der Ressource bestmöglich erhalten zu können.

Die Beurteilung von Dateiformaten hinsichtlich ihrer Langzeitstabilität basiert auf unterschiedlichen Kriterien.
Folgende Faktoren sollten neben einer adäquaten Funktionalität ebenfalls positive Berücksichtigung finden:

  • Die Dateien liegen in einem genormten Dateiformat vor, z. B. nach ISO.
  • Die Spezifikation des Dateiformats ist öffentlich einsehbar.
  • Die Dateiformate sind nicht proprietär.
    • kein kommerzielles Format eines bestimmten Softwareherstellers, z. B. Microsoft Word-Dokumente
  • beim verwendeten Dateiformat handelt es sich nicht:
    • um ein Containerformat (z. B. ZIP oder RAR)
    • um ein Dateiformat, bei dem eine Kompression einen Qualitätsverlust der Inhalte ausgelöst hat (z. B. JPEG)

Diese Beurteilung und damit die Auswahl des bestmöglich geeigneten Dateiformats ist keine einmalige Aufgabe, sondern muss im Laufe der Zeit, je nach technologischer Entwicklung, wiederkehrend vorgenommen werden.

Es stehen diverse Quellen frei zur Verfügung, die Dateiformate und deren spezifische Eigenschaften eingehend beschreiben.




Gut zu wissen

Eine Einschätzung, welche Dateiformate sich zur Langzeitverfügbarkeit eignen, hält die von uns erstellte Interaktiven Tafel gängiger Dateiformate bereit. Auch eine Auswahl relevanter Quellen zu Dateiformaten und ihren Eigenschaften findet sich dort.




Formatbezogene Herausforderungen im Kontext digitaler Langzeitverfügbarkeit

Für den Erhalt digitaler Information spielen Dateiformate eine maßgebliche Rolle, da sie bestimmen, wie digitale Information dargestellt wird.

Dateiformatbezogene Probleme können entstehen durch:

  • Fehlerhafte Identifizierung eines Dateiformats: Das Format einer Datei kann nicht korrekt von Programmen erkannt werden. Die Datei wird einem ungeeigneten Computerprogramm zugeordnet und ist nicht korrekt darstellbar. 
  • Dateiformatobsoleszenz: Eine Datei liegt in einem Dateiformat vor, das nicht (mehr) von aktuellen Systemumgebungen und Anwendungsprogrammen unterstützt wird. Die Datei kann dadurch entweder gar nicht oder nur fehlerhaft durch Programme dargestellt werden. 




Dateispezifische Herausforderungen im Kontext digitaler Langzeitverfügbarkeit

Nicht nur das Dateiformat, auch die Dateien selbst können mehr oder weniger geeignet für die Langzeitverfügbarkeit sein.

Dateien für die LZV sollten möglichst folgende Eigenschaften aufweisen:

  • Wohlgeformtheit
    • Die Dateien halten sich an die Regeln eines Standards und folgen dessen Syntax, z. B. XML oder PDF.
  • Validität
    • Die Dateien sind wohlgeformt, richten sich in ihrem Aufbau zusätzlich nach einer bestimmten Spezifikation und folgen dieser semantisch, z. B. METS XML. Invalide Dateien können unter Umständen nur fehlerhaft dargestellt werden. Auch kann es sein, dass eventuell notwendige Dateiformatmigrationen nicht richtig durchgeführt werden können.
  • Zugänglichkeit
    • Die Dateien sind frei zugänglich, also nicht durch ein Kennwort geschützt.

Ein besonderes Augenmerk sollte auf die Bezeichnungen von Dateien gelegt werden, da diese inhaltliche, aber auch technische Probleme hervorrufen können:

  • Dateinamen
    • Dateinamen müssen eineindeutig sein.
      • keine Doppelbelegung von Dateinamen
  • Sonderzeichen
    • Einige Sonderzeichen werden im vom LZV-System Rosetta verwendeten XML-Namespace genutzt und daher von Rosetta fälschlicherweise als zu verarbeitende Anweisungen verstanden.
    • Um dies zu vermeiden, sind diese Zeichen nicht zu verwenden.
    • Folgende Sonderzeichen dürfen für Dateibenennungen nicht verwendet werden:
      • “ / \ : * ? ‘ < > [ ] & $ = ; , | %
      • Umlaute wie Ä, Ü, Ö, usw.
      • Darüber hinaus können weitere, weniger gängige Sonderzeichen zu Problemen in der Verarbeitung führen, was im konkreten Anwendungsfall geklärt werden muss.
  • Länge von Dateinamen
    • Die maximale Länge des Dateinamens inkl. der Dateinamenserweiterung, wie z. B. „.tiff“, von 255 Zeichen darf nicht überschritten werden.
  • für Windows oder UNIX gilt
    • Punkte sind zu vermeiden, da diese zur Abgrenzung der Dateiendung dienen, z. B. „.pdf“.
    • Schrägstriche sind zu vermeiden, da sie Dateipfade anzeigen:
      • unter UNIX: Slash/Schrägstrich „/“
      • unter Windows: Backslash/umgekehrter Schrägstrich „\“
    • Groß- und Kleinschreibung wird in Dateinamen nicht unterschieden.




Gut zu wissen

Gemeinsam mit anderen LZV-Initiativen haben wir Empfehlungen zu Dateiformaten und Metadaten im Kontext LZV erarbeitet. Dieser im Rahmen der Arbeitsgemeinschaft KoopLZV entstandene Leitfaden ist veröffentlicht unter: https://zenodo.org/records/15464101




  • Keine Stichwörter