Auf dieser Seite finden Sie

Wiki-Seiten zu Validierung außerhalb von Rosetta:


Validierung vor dem Ingest


Was bedeutet Formatvalidierung?

Ziel der Formatvalidierung ist die Prüfung, ob eine Datei der Spezifikation des angenommenen Dateiformats entspricht. Die Formatvalidierung setzt eine vorhergehende Formatidentifizierung voraus. Die Spezifikation eines Dateiformates definiert benötigte und unerlaubte Elemente, um eine Datei für ein definiertes Format zu validieren.

Sobald ein Punkt der Spezifikation nicht erfüllt ist, ist die Datei nicht valide. Die Validität einer Datei bezieht sich immer auf eine bestimmte Spezifikation. 

Idealerweise sollte der Prozess der Validierung so früh wie möglich durchgeführt werden, bevor weitere Prozesse folgen. Die Überprüfung der Validität der eingelieferten Daten findet im Rahmen der Dateneinlieferung in Rosetta standardmäßig statt. Gleichwohl kann es ratsam sein, die Prüfung vorab durchzuführen, um ggf. nötige Operationen auf den Daten vor der Einlieferung durchführen zu können. Mehr zur Dateiformatvalidierung in Rosetta finden Sie hier

Weiterführende Infos

Weitere Informationen zu Dateiformatidentifizierung und -validierung finden Sie auch im unserem Glossar.

Glossar wichtiger Begriffe für die Langzeitverfügbarkeit



Gründe für Formatvalidierung (allgemein)

Obwohl offene Standards existieren und dabei helfen, die Vielzahl von Versionen und Eigenarten eines Dateiformats einzugrenzen, können Schwierigkeiten auftreten, da die bestehenden Standards von Entwickler*innen nicht immer gleich interpretiert und zum Teil nicht vollständig umgesetzt werden. 

Auch beim Übertragen von Dateien können Probleme wie Bitfehler auftreten, zum Beispiel durch temporär nicht verfügbare Ressourcen, bspw. beim Herunterladen einer Datei.




Gründe für Formatvalidierung vor Einlieferung 

Vorteile der Formatvalidierung bereits vor dem Ingest sind eine verbesserte, LZV-konforme Datenqualität auch im Quellsystem sowie weniger Validierungsfehler und somit Nacharbeiten im LZV-System. Eine Validierung bereits vor der eigentlichen Einlieferung in Rosetta ist daher empfehlenswert, insbesondere für Workflows, die nur wenige Arbeitsschritte im Rosetta-System selbst vorsehen.

Zunächst sollte daher geprüft werden, ob die Dateien in ihrer Beschaffenheit dem gewünschten Bearbeitungszweck entsprechen. In unserem Fall bedeutet dies zu prüfen, ob die Dateien in der vorliegenden Version tatsächlich für die LZV geeignet sind.




Formatvalidierung in Rosetta

Rosetta selbst führt beim Ingest der Dateien eine Validierung der einzuliefernden Dateien mittels JHOVE durch. Treten hier Probleme auf, landen die SIPs mit den identifizierten Dateien automatisch im Technical Analyst. Dort müssen die entsprechenden Dateien dann manuell geprüft werden.  Die zuständigen Personen sollten über entsprechende Kenntnisse der Bestände, die sie bearbeiten, verfügen. Gegebenenfalls müssen die als problematisch erkannten Dateien dann (als komplette IE) neu eingeliefert oder im Web Editor ausgetauscht werden. Im Idealfall werden die konvertierten Datensätze sogar im Quellsystem (z.B. Repositorien wie OPUS) ausgetauscht, um einen unterschiedlichen Stand in Quell- und Zielsystem (hier: Rosetta) zum Zeitpunkt der Einlieferung zu vermeiden. 

Da die Datenhoheit bei den Kooperationspartnern liegt, liegt die Verantwortung für die (Vor-)Validierung ebenfalls in der Hand der Kooperationspartner. 




Tools zur Formatvalidierung

Je nach Dateityp gibt es verschiedenste (Open-Source-)Tools zum Erkennen, Validieren und Migrieren von Dateien. Eine Übersicht einer Auswahl entsprechender Tools finden Sie hier.

Warnhinweis

Aufgrund der (ggf.) vorliegenden Vertraulichkeit der Daten sowie der Begrenzung der Dateigröße raten wir davon ab, Online-XML-Validierungstools zu nutzen.


Weiterführende Infos

Informationen zur Validierung mit dem Tool JHOVE:

Formatvalidierung mit JHOVE (externer Link)

Dateivalidierung mit JHOVE im Berufsalltag (Youtube-Video)

JHOVE - Ein Blick hinter die Fassade (externer Link)


  • Keine Stichwörter