Information


In diesem Glossar finden Sie Definitionen zu wichtigen Begriffen aus dem Arbeitsfeld der Langzeitverfügbarkeit. 

Das Glossar arbeitet mit Querverweisen. Mit einem Klick auf die Links können Sie zur Definition des entsprechenden Begriffs auf dieser Seite springen.

Begriffsübersicht


LZV-Glossar





Approver

(Info)   Begriff aus Rosetta 


Definition:

Approver ist eine Nutzerrolle in Rosetta. User mit der Rolle Approver arbeiten im Bereich Approve SIPs und evaluieren Submission Information Packages (SIPs), die technisch einwandfrei sind und die initialen Prüfungen (zum Beispiel auf Viren oder Dateiformatvalidität) beim Ingest erfolgreich durchlaufen haben. Der Schwerpunkt der Arbeit von Approvern liegt dabei auf dem finalen Absegnen (Approve) von SIPs, welche den Bereich Assessor bzw. Assess SIPs bereits durchlaufen haben. Approver nehmen eine intellektuelle Prüfung der SIPs und deren Inhalte vor und stoßen dann die Weiterverarbeitung der Pakete in den Permanentspeicher von Rosetta an, in dessen Verlauf die SIPs in Archival Information Packages (AIPs) umgewandelt und im Permanent Storage bzw. Archival Storage von Rosetta gespeichert werden. Damit haben die Intellectual Entities (IEs) den Ingestprozess vollständig durchlaufen.

Approver können nur komplette SIPs Absegnen (Approve), Ablehnen (Decline), zum Deposit-Bereich Zurücksenden (Return), nicht aber einzelne IEs, wie die Rollen Assessor und Arranger. Die Rolle Approver dient anders als Assessor oder Arranger also vor allem dazu, Einlieferungspakete in ihrer Gesamtheit zu beurteilen und zur Weiterverarbeitung freizugeben.

Assessor, Arranger, und Approver arbeiten in ihren jeweiligen Arbeitsbereichen unter Submissions → Approval.


(Warnung) Der Begriff Approver wird umgangssprachlich auch synonym für den Rosetta-Arbeitsbereich Approve SIPs verwendet. Dort können SIPs intellektuell evaluiert werden, bevor sie in den Permanentspeicher von Rosetta weitergeschoben werden. Welche Teilmenge eines Ingests zur Prüfung in den Assessor oder Approver abgelegt wird, ist von der Sampling Rate abhängig.


Synonyme:

Approve SIP

zurück




Archival Information Package (AIP)

(Info) Begriff aus dem Open Archival Information System (OAIS)


Definition:

Das Archival Information Package (AIP) ist ein Informationspaket. Dabei handelt es sich um den logischen Container für eine digitale Ressource in einem digitalen Langzeitarchiv. Ein AIP wird auf Grundlage des Submission Information Package (SIP) gebildet und beinhaltet Erhaltungsmetadaten, welche die Eigenschaften einer digitale Ressource sowie die Prozesse dokumentieren, die diese im Rahmen der Langzeitverfügbarkeit durchläuft.

In Rosetta repräsentiert ein AIP jeweils eine Intellectual Entity (IE), die im Permanent Storage von Rosetta gespeichert ist und über eine IE PID (z.B. IE7281) verfügt. Die Eigenschaften eines AIPs bzw. einer IE werden in einer Rosetta-METS-Datei als deskriptive, administrative, strukturelle und technische Metadaten beschrieben


(Info)  Weitere Informationen dazu im Service Wiki-Artikel: Metadaten und Langzeitverfügbarkeit


Synonyme:

AIP, Archivinformationspaket

zurück




Archiv- und Containerformate


Definition:

Das zentrale Charakteristikum aller Containerformate ist die Zusammenfassung von Datenströmen ggf. unterschiedlicher Dateiformate zu einem Datenstrom. Containerformate finden in unterschiedlichen Szenarien Anwendung. Diverse Audio-/Videoformate wie z. B. AVI, MKV, MP4, MPG, MOV und MXF aber auch Formate wie z. B. PDF und TIFF sind Containerformate. Eine Unterkategorie sind Archivdateien wie z. B. 7z, GZ, RAR, TAR, ZIP. Typischerweise dienen sie dazu, die enthaltenen Daten möglichst speicherplatzeffizient zu codieren. Im Gegensatz zu den erstgenannten Containerformaten bestehen seitens der Archivdateien keine Beschränkungen hinsichtlich des möglichen Inhalts, d. h. der enthaltenen Datenformate.

Archivdateien gelten als wenig geeignet für eine langfristige Verfügbarhaltung, da der Inhalt nicht ohne Weiteres auf drohende Obsoleszenz analysiert werden kann. In Rosetta repräsentiert ein eingelieferter Archivcontainer ein digitales Objekt. Die Dateien innerhalb des Containers sind Rosetta unbekannt. Es ist mit Rosetta nicht möglich, den Inhalt einer Containerdatei zu bearbeiten, wie es z. B. für eine Formatmigration erforderlich ist.


zurück




Archival Storage

(Info) Begriff aus dem Open Archival Information System (OAIS)


Definition:

Der Archival Storage beschreibt einen Funktionsbereich in einem digitalen Langzeitarchiv, der sich mit Fragen der langfristigen Speicherung und Wiederauffindbarkeit von digitalen Ressourcen auseinandersetzt, die als Archival Information Packages (AIP) langzeitarchiviert werden. Das Hauptaugenmerk in diesem Funktionsbereich liegt auf dem langfristigen Erhalt der Integrität von physischen Bitstreams (Bitstream Preservation).  Aufgaben, die in diesen Funktionsbereich fallen, sind unter anderem die Verwaltung der verschiedenen Speichersysteme, redundante Speicherung der AIPs, der regelmäßige Austausch von Datenträgern, um drohender Obsoleszenz von Speichermedien zu begegnen (Datenmigration) und Maßnahmen zur Überprüfung der Datenintegrität (z. B. mittels Checksummen).

Im Kontext der durch das hbz betriebenen zentralen Rosetta-Infrastruktur fallen in diesen Funktionsbereich unter anderem Betrieb und Wartung dieser Infrastruktur in einem abgesicherten Rechenzentrum, die Konfiguration und Backups angebundener Server und Speicher sowie die Überwachung der Hardwarefunktionalität. Die Speicherinfrastruktur des LZV-Systems Rosetta selbst ist aufgeteilt in die Bereiche Deposit, Operational Storage und Permanent Storage .


Synonyme:

Archival Storage Functional Entity, Funktionseinheit Archivspeicher

zurück



Archivgesetz NRW 


Definition:

Das Archivgesetz NRW ist ein Landesgesetz, das Aufbewahrungs- und Archivierungspflichten von Verwaltungsunterlagen und ähnlichen in Verwaltungen entstehenden Materialien festlegt, die in den allermeisten Fällen nicht dem Urheberrecht unterliegen. Nach bestimmten Fristen gehen die aufzubewahrenden Unterlagen in den Besitz des zuständigen Archivs über. Es wird zu Archivgut nach ArchivG NRW. Das Archiv entscheidet dann in der Folge eigenständig über die weitere Nutzung ihres Besitzes. D. h. im Gegensatz zu Bibliotheken ist das erste Interesse nicht die Bereitstellung, sondern die Archivierung. Ziel ist die angestrebte Erhaltung in der Entstehungsform (Identität), selbst wenn die einfache Lesbarkeit darunter leidet. 


Synonyme:

Landesarchivgesetz, ArchivG NRW

zurück



Archivierung vs. Langzeitverfügbarkeit


Definition:

  • Unter Archivierung wird die Aufbewahrung von Unterlagen für eine festgesetzte Dauer verstanden.
    • angestrebte Erhaltung in der Entstehungsform (Identität), selbst wenn die einfache Lesbarkeit darunter leidet
  • Unter dLZV (digitale Langzeitverfügbarkeit) wird keine archivarische Tätigkeit im eigentlichen Sinne verstanden, sondern die Umsetzung geeigneter konzeptioneller und technischer Maßnahmen zur Verfügbarhaltung des digitalen Wissens.
    • Erhalt der intendierten Aussage (Authentizität), unabhängig von der Entstehungsform

Archivierung und digitale Langzeitverfügbarkeit unterscheiden sich durch

  • Zielsetzung des zentralen Auftrags
  • nutzungs- und urheberrechtliche Belange
  • Erhalt bzw. Anpassung des jeweiligen digitalen Materials → begründet aus der jeweiligen Zielstellung


(Info)  Weitere Informationen dazu im Service Wiki-Artikel: Archivierung und LZV

zurück



Arranger

(Info)  Begriff aus Rosetta 


Definition:

Arranger ist eine Nutzerrolle in Rosetta. User mit der Rolle Arranger arbeiten im Bereich Arrange SIPs und evaluieren SIPs, die technisch einwandfrei sind und die initialen Prüfungen (zum Beispiel auf Viren oder Dateivalidität) beim Ingest erfolgreich durchlaufen haben. Der Schwerpunkt liegt dabei auf dem Bearbeiten und Anordnen (Arrange) oder neu Anordnen (Rearrange) der Inhalte von Intellectual Entities (IEs), zum Beispiel deren Representations, Files oder Struct-Maps.

Arranger-User haben volle Rechte zum Absegnen (Approve), Ablehnen (Decline), zum Deposit-Bereich Zurücksenden (Return) von SIPs und IEs, sowie dem inhaltlichen Bearbeiten von IEs (Arrange). Der wesentliche Unterschied zur Rolle Assessor besteht beim Zuweisen von IDs von (externen) Content Management Systemen (CMS). Ein Assessor kann eine CMS ID immer nur einer einzelnen IE auf einmal zuweisen, während ein Arranger dies bei mehreren IEs gleichzeitig kann.

Assessor, Arranger, und Approver arbeiten in ihren jeweiligen Arbeitsbereichen unter Submissions → Approval.


(Warnung) Der Begriff Arranger wird umgangssprachlich auch synonym für den Rosetta-Arbeitsbereich Arrange SIPs verwendet. Dort können SIPs intellektuell evaluiert werden, bevor sie in den Permanentspeicher von Rosetta weitergeschoben werden. Welche Teilmenge eines Ingests zur Prüfung in den Assessor oder Approver abgelegt wird, ist von der Sampling Rate abhängig.


Synonyme:

Arrange SIPs

zurück



Assessor

(Info)  Begriff aus Rosetta 


Definition:

Assessor ist eine Nutzerrolle in Rosetta. User mit der Rolle Assessor arbeiten im Bereich Manuel Assessment bzw. Assess SIPs und evaluieren SIPs, die technisch einwandfrei sind und die initialen Prüfungen (zum Beispiel auf Viren oder Dateivalidität) beim Ingest erfolgreich durchlaufen haben.

Assessor-User haben volle Rechte zum Absegnen (Approve), Ablehnen (Decline), zum Deposit-Bereich Zurücksenden (Return) von SIPs und Intellectual Entities (IEs), sowie dem inhatlichen Bearbeiten von IEs (Arrange). Der wesentliche Unterschied zur Rolle Arranger besteht beim Zuweisen von IDs von (externen) Content Management Systemen (CMS). Ein Assessor kann eine CMS ID immer nur einer einzelnen IE auf einmal zuweisen, während ein Arranger dies bei mehreren IEs gleichzeitig kann.

Assessor, Arranger, und Approver arbeiten in ihren jeweiligen Arbeitsbereichen unter Submissions → Approval.


(Warnung) Der Begriff Assessor wird umgangssprachlich auch synonym für den Rosetta-Arbeitsbereich Assess SIPs verwendet. Dort können SIPs intellektuell evaluiert werden, bevor sie in den Approver weitergeschoben werden. Welche Teilmenge eines Ingests zur Prüfung in den Assessor oder Approver abgelegt wird, ist von der Sampling Rate abhängig.


Synonyme:

Assess SIPs, Manual Assessment

zurück



BIRT Report


Definition:

In Rosetta werden Reports mithilfe des Business Intelligence Reporting Tools (BIRT) erzeugt, weshalb häufig von BIRT Reports gesprochen wird. Je nach Bereich (Dashboard, Deposits, Submissions, Data Management, Preservation) stehen unterschiedliche Reports zur Verfügung. Die Reports lassen sich direkt im Browser öffnen oder in verschiedenen Formaten exportieren. Es ist auch möglich, die Reports zu terminieren und an die Email-Adressen von Rosetta-Usern verschicken zu lassen.

Neben den standardmäßig in Rosetta mitgelieferten Reports können durch BIRT eigene Reports erzeugt werden, die auf die Datenbank von Rosetta zugreifen und sowohl inhaltlich als auch in der Darstellung anpassbar sind. Neue Reports können nur im Administrationsbereich von Rosetta hinzugefügt werden. Außerdem sind hier weitere Anpassungsmöglichkeiten verfügbar, z. B. der Menübereich, unter dem die Reports aufzurufen sind oder ob der Report terminierbar ist.


Synonyme:

Business Intelligence Reporting Tool

zurück



Bitstream


Definition:

Ein Bitstream besteht aus Daten, die als eine Abfolge von Bits (Einsen und Nullen) digital dargestellt werden. Ein Bitstream ist die physische Grundlage von Dateien. Im Kontext der Langzeitverfügbarkeit ist der Erhalt des Bitstreams (Bitstream Preservation) die physische Voraussetzung dafür, dass Dateien langfristig vor ungewollter Veränderung geschützt werden (Erhalt der Datenintegrität).

Im Rosetta-System werden Bitstreams als eine von insgesamt vier Ebenen einer digitalen Ressource abgebildet und beschrieben. Die anderen Ebenen sind Intellectual Entities (IE), Representations und Dateien.


Synonyme:

Bitstrom, physisches Objekt

zurück



Bitstream Preservation


Definition:

Bitstream Preservation bezeichnet die Sicherstellung der physischen Integrität langzeitarchivierter digitaler Ressourcen durch den Erhalt ihres individuellen Bitstreams. Im Kontext der Langzeitverfügbarkeit ist Bitstream Preservation die physische Voraussetzung dafür, dass Dateien langfristig erhalten bleiben und vor ungewollter Veränderung geschützt werden. Bitstream Preservation ist damit auch die Voraussetzung für Logical Preservation (Erhalt der logischen Interpretierbarkeit) und Semantic Preservation (Erhalt der semantischen Interpretierbarkeit).

Bitstream Preservation wird unter anderem gewährleistet durch den regelmäßigen Austausch von Datenträgern, auf denen Dateien gespeichert sind (Datenmigration) und über regelmäßig durchgeführte Integritätsprüfungen von Bitstreams (z. B. durch Checksummen).

In Rosetta werden im Rahmen der Bitstream Preservation sogenannte Fixity Checks in den Speicherbereichen Deposit, Operational und Permanent durchgeführt. Diese basieren auf den automatisiert vom Rosetta-System generierten Checksummen SHA1, SHA-256, MD5 und CRC32.

Test

 zurück




Consumer

(Info) Begriff aus dem Open Archival Information System (OAIS)


Definition:

Nutzer eines digitalen Langzeitarchivs, an den die digitalen Ressourcen in Form von Dissemination Information Packages (DIPs) ausgegeben werden. Ein Consumer kann eine Person, aber auch ein technisches System wie eine an ein LZV-System angebundene Präsentationsplattform sein.


Synonym:

Endnutzer

zurück




CSV (Comma-separated values)


Definition:

CSV (Comma-separated values) ist ein textbasiertes Austauschformat für strukturierte Daten. Dabei werden einzelne Felder und deren Werte durch Zeichen, wie zum Beispiel Kommas, voneinander getrennt abgebildet. Anhand dieser Trennzeichen können IT-Systeme erkennen, wann ein Wert beginnt und endet. Wie die Daten von Systemen interpretiert werden, hängt neben den Trennzeichen auch von der Reihenfolge der Werte ab. CSV-Dateien können unter anderem in einem Tabellenkalkulationsprogramm, wie MS Excel oder Libre Office, in Tabellenform erstellt und bearbeitet werden. Ein Feld in der Tabelle entspricht dabei einem CSV-Wert zwischen zwei Trennzeichen. Außerdem können schon vorhandene CSV-Dateien mit einem Texteditor wie Notepad++ bearbeitet werden. Die Dateiendung für CSV-Dateien ist .csv.

Ein Ingestverfahren in Rosetta nutzt CSV-Dateien für die Einlieferung und wird daher vereinfacht auch als CSV-Ingest bezeichnet. Dabei werden Metadaten in eine CSV-Datei geschrieben und dann eingeliefert. Die CSV-Datei kann neben deskriptiven Metadaten auch die Ressourcenstruktur von Objekten in Rosetta enthalten, in Form von Intellectual Entities (IEs), Representations (REPs), Files und Collections. Weitere Erhaltungsmetadaten können ebenfalls in CSV beschrieben werden. 

Eine ausführliche Erläuterung des CSV-Ingest ist in folgendem Service Wiki-Artikel beschrieben: CSV


Synonyme:

CSV, Character-separated values

zurück




Dark Archive


Definition:

Rosetta wird beim hbz als sogenanntes Dark Archive betrieben. Im Kontext der Langzeitverfügbarkeit wird ein Dark Archive als ein Archiv bezeichnet, das der Öffentlichkeit keinen Direkt-Zugriff auf die langzeitarchivierten digitalen Ressourcen gewährt. Das bedeutet allerdings nicht, dass die digitalen Ressourcen nicht über andere Wege (z. B. über ein angebundenes Delivery System wie ein Repositorium) der Öffentlichkeit als Dissemination Information Packages zur Verfügung gestellt werden. Direkt-Zugriff auf das Dark Archive erhalten jedoch nur autorisierte Rosetta-Nutzer*innen.   

Für die Rosetta-Infrastruktur des hbz bedeutet dies, dass nur autorisierte Mitarbeiter*innen des hbz und der Kooperationspartner direkt im Rosetta-System arbeiten und dort auf die archivierten digitalen Ressourcen zugreifen können. Bei Bedarf können die Mitarbeiter*innen der Kooperationspartner digitale Ressourcen aus dem Rosetta-System exportieren und diese (unter Wahrung der jeweiligen Urheber- und Nutzungsrechte) über andere Plattformen für die Öffentlichkeit zugänglich machen.


zurück




Datei


Definition:

Eine Datei ist eine Zusammenfassung von Daten (Bitstream), die auf einem Datenträger gespeichert ist und von Computerprogrammen interpretiert werden kann. Sie ist Bestandteil einer digitalen Ressource. Die in einer Datei gespeicherte Information liegt in einer bestimmten logischen Ordnung und Syntax vor, die von dem jeweiligen Dateiformat vorgegeben wird. Computerprogramme, die zur Darstellung und Interpretation von Dateien eines bestimmten Dateiformats vorgesehen sind, können diese logische Ordnung einer Datei entschlüsseln und die Information entsprechend darstellen (z. B. ein PDF-Reader für PDF-Dateien). Weicht eine Datei von den Ordnungsregeln der jeweiligen Dateiformatspezifikation ab, gilt sie als invalide. Dies stellt im Sinne der Langzeitverfügbarkeit ein Risiko für den langfristigen Erhalt der technischen Interpretierbarkeit (Logical Preservation) der Datei dar.

In Rosetta werden Dateien als Bestandteil von Intellectual Entities (IEs) und deren digitalen Repräsentationen (Representation) langzeitarchiviert. Eine Representation kann dabei aus 1-n Dateien bestehen.


Synonyme:

File, logisches Objekt

zurück




Dateiformat


Definition:

Ein Dateiformat beinhaltet die logischen Regeln für die Abbildung von Informationen innerhalb einer Datei, damit diese von Computerprogrammen auf eine bestimmte Art interpretiert und dargestellt werden können. Mit dem Dateiformat wird zum Beispiel festgelegt, auf welche Weise eine Bilddatei erstellt, gespeichert und abgerufen wird, beispielsweise als JPEG- oder PNG-Datei. Die einem Dateiformat zugrunde liegenden Regeln werden in Dateiformatspezifikationen beschrieben. Computerprogramme, die zur Erstellung und Darstellung bestimmter Dateiformate vorgesehen sind, haben diese Regeln implementiert.

Es wird grob zwischen offenen und proprietären (herstellergebundenen) Dateiformaten unterschieden. Bei offenen Dateiformaten sind die Dateiformatspezifikationen öffentlich bekannt und frei verfügbar. Sie können in unterschiedliche Software implementiert werden, um Dateien des entsprechenden Dateiformats interpretieren zu können. Die Spezifikationen von proprietären Dateiformaten unterliegen meist einer rechtlichen Einschränkung und sind oft nicht öffentlich zugänglich oder bekannt, sodass Dateien dieses Formats nur von proprietären Programmen interpretiert werden können. Oft handelt es sich dabei um Dateiformate von kommerzieller Software, deren Dateien nur mit dieser genutzt werden können.

Dateiformate können veralten, d. h. sie werden nicht mehr von aktueller Soft- und Hardware unterstützt. Man spricht in diesem Fall auch von obsoleten Dateiformaten. Dateiformatobsoleszenz birgt für die Langzeitverfügbarkeit das Risiko, dass Dateien unter Umständen langfristig nicht mehr technisch interpretiert werden können. Diesem Risiko kann entgegengewirkt werden, indem eine Datei im Rahmen einer Dateiformatmigration in ein aktuelles Dateiformat übertragen wird oder indem die ursprüngliche Systemumgebung der Datei durch Programme wiederhergestellt wird (Emulation). Beide Verfahren - Dateiformatmigration und Emulation - führen dazu, dass die Information innerhalb von Dateien eines obsoleten Dateiformats weiterhin verfügbar bleibt. Man spricht in diesem Zusammenhang auch von Logical Preservation.


Synonyme:

File Format, Format

zurück




Dateiformatidentifizierung


Definition:

Bei der Dateiformatidentifizierung wird im Rahmen der Logical Preservation Tool-basiert eine Datei hinsichtlich ihres Dateiformats untersucht. Da die Dateiformatendung einer Datei (zum Beispiel .jpeg oder .tiff) nicht als Kriterium zur eindeutigen Identifizierung des Dateiformats einer Datei ausreicht, müssen weitere Kriterien geprüft werden. Dazu zählt u. a. die Signatur (File Signature bzw. Magic Number) eines Dateiformats, die in der jeweiligen Dateiformatspezifikation definiert wird. Die Signatur besteht aus einem oder mehreren Byte-Mustern, die typisch für ein bestimmtes Dateiformat sind. 

In Rosetta erfolgt die Dateiformatidentifizierung in der Regel beim Ingest mittels der implementierten Software DROID. DROID durchsucht dabei bestimmte Bereiche einer Datei hinsichtlich Dateiformat-typischer Muster. Diese werden mit der Dateiformatdatenbank PRONOM abgeglichen, in der Dateiformate registriert, beschrieben und mit einem Identifier (PRONOM Unique Identifier, PUID) versehen werden. Rosetta dokumentiert das Ergebnis der Dateiformatidentifizierung in den Metadaten zur digitalen Ressource (s. administrative Metadaten in Rosetta), indem es u. a. den jeweiligen Identifier aus PRONOM hinzufügt. Kommt es zu Fehlermeldungen bei der Dateiformatidentifizierung innerhalb von Rosetta, werden die betreffenden SIPs in den Rosetta-Bereich Technical Issues verschoben, wo sie von einem Technical Analyst einer genaueren Prüfung unterzogen werden können.


Synonyme:

Dateiformatidentifikation, Formatidentifizierung von Dateien, File Format Identification

zurück




Dateiformatmigration


Definition:

Bei der Dateiformatmigration wird das ursprüngliche Format einer Datei in ein anderes umgewandelt. In der digitalen Langzeitverfügbarkeit eignet sich die Dateiformatmigration als Alternative zur Emulation, um Dateien mit veralteten oder obsolet gewordenen Dateiformaten weiterhin technisch interpretieren zu können (Logical Preservation).

Ein Vorteil von Dateiformatmigration ist, dass diese im Vergleich zur Emulation relativ geringen Aufwand erfordert. Bei der Dateiformatmigration werden allerdings Eigenschaften einer Datei verändert und gehen ggf. verloren, was im Sinne der Langzeitverfügbarkeit ein Risiko für die Authentizität der digitalen Ressource darstellen kann. Es ist daher wichtig, signifikante Eigenschaften von digitalen Ressourcen zu definieren. Diese dürfen bei der Dateiformatmigration nicht verändert werden, damit der authentische Erhalt der digitalen Objekte gewährleistet werden kann.


Nicht zu verwechseln mit Datenmigration.

Synonyme:

Formatmigration, Migration von Dateiformaten, File Format Migration

zurück




Dateiformatspezifikation


Definition:

Eine Dateiformatspezifikation ist die Beschreibung der Syntax und Semantik, die einem Dateiformat zugrunde liegen. Softwareprogramme, die zur Erstellung und Darstellung von Dateien eines bestimmten Dateiformats vorgesehen sind, müssen diese Codierungsregeln der jeweiligen Dateiformatspezifikation implementiert haben.

Weichen Dateien eines bestimmten Dateiformats von der jeweiligen Dateiformatspezifikation ab, spricht man von invaliden Dateien. Dies stellt im Sinne der Langzeitverfügbarkeit ein Risiko für den langfristigen Erhalt der technischen Interpretierbarkeit (Logical Preservation) der Datei dar. Durch Dateiformatidentifizierung und Dateiformatvalidierung kann diesem Risiko begegnet werden. Dabei wird das Dateiformat einer Datei festgestellt und darüber hinaus geprüft, ob die Datei den Regeln der jeweiligen Dateiformatspezifikation entspricht und damit valide ist. 

Dateiformatspezifikationen können offen verfügbar sein (wie z. B. die Spezifikation für das TIFF-Format 6.0), unter freier Lizenz stehen oder rechtlichen Einschränkungen unterliegen und damit nicht öffentlich zugänglich sein, sodass Dateien dieser Formate nur von proprietären Programmen interpretiert werden können. Oft handelt es sich dabei um Dateiformate von kommerzieller Software. 


Synonym:

File Format Specification

zurück




Dateiformatvalidierung


Definition:

Bei der Dateiformatvalidierung wird im Rahmen der Logical Preservation Tool-basiert eine Datei hinsichtlich ihrer Konformität zur jeweiligen Dateiformatspezifikation untersucht. Entspricht eine Datei der jeweiligen Spezifikation ihres Dateiformats, wird sie als wohlgeformt und valide bezeichnet. 

Die Dateiformatvalidierung baut in der Regel auf den Ergebnissen der Dateiformatidentifizierung auf, indem es die Datei gegen die konkrete Spezifikation des identifizierten Dateiformats analysiert. Dabei wird analysiert, ob die Datei den syntaktischen (wohlgeformt) und semantischen Regeln (valide) der jeweiligen Dateiformatspezifikation entspricht. Zum Beispiel wird geprüft, ob die Datei vollständig die in der Spezifikation beschriebenen Struktur-Elemente aufweist und ob diese regelkonform aufgebaut sind. Wenn eine Datei invalide und damit im Sinne der Langzeitverfügbarkeit gefährdet ist, können daraufhin entsprechende Maßnahmen eingeleitet werden, die diesem Problem entgegenwirken (z. B. Reparatur/Korrektur oder Austausch der Datei durch eine valide Kopie).

In Rosetta erfolgt die Dateiformatvalidierung in der Regel beim Ingest mittels der implementierten Software JHOVE. JHOVE durchsucht dabei mehrere Bereiche einer Datei und prüft, ob deren Struktur und Inhalt konform zur jeweiligen Dateiformatspezifikation sind. In JHOVE sind verschiedene Module implementiert, mit denen Dateien verschiedener Dateiformate validiert werden können. Kommt es zu Fehlermeldungen bei der Dateiformatvalidierung innerhalb von Rosetta, werden die betreffenden SIPs in den Rosetta-Bereich Technical Issues verschoben, wo sie von einem Technical Analyst einer genaueren Prüfung unterzogen werden können.


Synonyme:

File Format Validation, Validierung von Dateien, Formatvalidierung

zurück




Datenmigration


Definition:

Bei einer Datenmigration werden Dateien von einem Datenträger auf einen anderen übertragen, um sicherzustellen, dass die gespeicherten Dateien nicht verloren gehen, falls der ursprüngliche Datenträger beschädigt wird oder das Ende seines Lebenszyklus erreicht.  Im Kontext der Langzeitverfügbarkeit  wird Datenmigration zur Bitstream Preservation genutzt, um Ressourcen bzw. deren  Bitstream auch über die Lebensdauer von einzelnen Datenträgern hinaus zu erhalten.


Nicht zu verwechseln mit Dateiformatmigration.


Synonym:

Data Migration

zurück




Datenset


Definition:

Ein Datenset ist eine definierte Menge von Daten in einem bestimmten Zusammenhang.

In Rosetta werden Datensets in der Regel nach bestimmten Kriterien gebildet, um auf diese Datenmenge einen Prozess auszuführen. Beispiele können Sets aus bestimmten Intellectual Entities (IEs) sein, um deren Metadaten zu aktualisieren oder Sets von Dateien eines bestimmten Dateiformats, um diese mittels Dateiformatmigration in ein anderes Dateiformat umzuwandeln.
Auch beim OAI-PMH-Harvesting werden Datensets ausgewählt. Die Auswahl richtet sich danach, welche Datensets im Quellsystem angelegt sind, z. B. Hochschulschriften, Retrodigitalisate, Open Access, usw. Die einzelnen Bestandteile eines Datensets können als IEs oder Records bezeichnet werden.


Synonyme:

Set, Dataset, Datenbasis, Datenmenge

zurück




Deposit

(Info) Begriff aus Rosetta


Definition:

Der Deposit ist ein Speicherbereich und ein Modul in Rosetta, in dem die Submission Information Packages (SIPs) entgegengenommen werden, die von einem Producer Agent in das LZV-System Rosetta eingeliefert werden. Der Ingest von neuen SIPs erfolgt im Deposit als sogenannte Deposit Activity. Die SIPs erhalten hier einen eigenen Identifier (SIP-ID).

Nach der erfolgreichen Einlieferung der SIPs in Rosetta werden diese im Operational Storage von Rosetta weiterverarbeitet und schließlich als AIP im Permanent Storage langzeitarchiviert.


Synonym:

Deposit Storage

zurück




Deposit Activity

(Info) Begriff aus Rosetta 


Definition:

Der Begriff Deposit Activity beschreibt in Rosetta den Vorgang, bei dem Submission Information Packages in den Deposit Storage von Rosetta eingeliefert werden.

zurück




Derivative Copy

(Info)   Begriff aus Rosetta 


Definition:

Die Derivative Copy ist einer von drei Repräsentationstypen in Rosetta. Sie dient nur zur Anzeige des Objekts im Browser und wird daher nicht im Permanent Storage gespeichert, sondern im Operational Storage . In der AIP METS-Datei der IE ist die Derivative Copy ebenfalls nicht enthalten. Nur nach einem Export erscheinen Derivative Copies in der FileSec und StructMap der exportierten METS-Datei und werden ebenfalls exportiert. Anders als beim Preservation Master und Modified Master kann eine IE keine oder beliebig viele Derivative Copys enthalten. Liegen mehrere Derivative Copies vor, kann mithilfe des Representation Codes (High, Middle oder Low) zwischen ihnen unterschieden werden. Derivative Copies liegen in anderen, meist nicht langzeitstabilen, Dateiformaten vor als der Preservation Master. Auf Derivative Copies werden keinerlei Erhaltungsmaßnahmen angewandt.

Derivative Copies können entweder zusammen mit dem Preservation Master eingeliefert oder nachträglich hinzugefügt bzw. erstellt werden. Dafür gibt es verschiedene Möglichkeiten:

  • Manuelles Hinzufügen einer extern vorhandenen Derivative Copy zu einer einzelnen IE mittels der Action Add Representation im Web Editor
  • Hinzufügen von extern vorhandenen Derivative Copies zu einem Datenset aus mehreren IEs mittels eines Derivative Copy Jobs
  • Automatisches Generieren einer Derivative Copy im Web Editor einer einzelnen IE, indem der Service Create Derivative Copy Representation ausgeführt wird
  • Automatisches Generieren von Derivative Copies für mehrere IEs in einem Datenset mittels eines Prozesses

Weitere Services ermöglichen es außerdem, Derivative Copies zu löschen oder wiederherzustellen. 


Synonyme:

Derivative Copy Representation, Nutzungskopie

zurück




Designated Community

(Info) Begriff aus dem Open Archival Information System (OAIS)


Definition:

Der Begriff Designated Community beschreibt die Zielgruppe(n) eines Digitalen Langzeitarchivs. Damit gemeint sind nicht nur aktuell existierende Nutzer*innen (Consumer) eines Digitalen Langzeitarchivs, sondern auch Personen und technische Systeme, die in Zukunft Zugriff auf die digitalen Ressourcen erhalten sollen. 

Ein Digitales Langzeitarchiv muss die Bedürfnisse der Designated Community an den Erhalt digitaler Ressourcen stets im Blick haben (Community Watch) und seine Langzeitarchivierungsmaßnahmen danach ausrichten. Verändern sich im Laufe der Zeit die Bedürfnisse dieser Gruppe(n), muss das Digitale Langzeitarchiv darauf reagieren. Im Fokus stehen dabei die für die Zielgruppe(n) relevanten signifikanten Eigenschaften der digitalen Objekte.


Synonyme:

Zielgruppe, vorgesehene Zielgruppe

zurück




Digitales Langzeitarchiv


Definition:

Eine Organisation, die aus Personen und technischen Systemen besteht, die Verantwortung für die Langzeitverfügbarkeit von digitalen Informationen und deren Bereitstellung für eine vorgesehene Zielgruppe übernommen hat.


(Info) Vergleiche DIN-Norm 31644 - Kriterien für vertrauenswürdige digitale Langzeitarchive


Synonyme:

Digitales Archiv, Langzeitarchiv

zurück




Digitales Objekt


Definition:

Ein digitales Objekt ist ein Informationsobjekt in digitaler Form,  das Gegenstand der bibliothekarischen Bearbeitung und der Langzeitverfügbarkeit ist. Es repräsentiert ein in sich geschlossenes Werk (Intellectual Entity) und setzt sich zusammen aus Datei(en) sowie aus zugehörigen Metadaten.

Die verschiedenen Ebenen einer digitalen Ressource werden in Rosetta gemäß der Rosetta Ressourcenstruktur abgebildet. Digitale Ressourcen müssen für den Ingest und die weitere Verarbeitung in Rosetta in Informationspaketen, die dem Rosetta Datenmodell folgen, vorliegen.


Synonyme:

Digitales Informationsobjekt, Digital Object, Digitale Ressource, Objekt

zurück




Dissemination Information Package (DIP)

(Info) Begriff aus dem Open Archival Information System (OAIS)


Definition:

Das Dissemination Information Package (DIP) ist ein Informationspaket. Dabei handelt es sich um den logischen Container für eine digitale Ressource, die aus einem digitalen Langzeitarchiv an einen Consumer ausgegeben wird. Ein DIP wird auf Grundlage des Archival Information Packages gebildet. 

Das durch das hbz als Dark Archive betriebene Rosetta-System sieht aktuell keine Direktausgabe von DIPs an die Nutzenden der Kooperationspartner des hbz vor. Autorisierte Mitarbeiter*innen der Kooperationspartner können allerdings direkt auf die digitalen Ressourcen  und deren Metadaten zugreifen und sie im Rosetta-eigenen IE Viewer betrachten. Bei Bedarf können die Mitarbeiter*innen der Kooperationspartner digitale Ressourcen auch aus dem Rosetta-System exportieren und diese (unter Wahrung der jeweiligen Urheber- und Nutzungsrechte) über andere Plattformen für die Öffentlichkeit als Dissemination Information Packages zugänglich machen.


Synonyme:

DIP, Auslieferungsinformationspaket

zurück




DNX

(Info) Begriff aus Rosetta


Definition:

DNX (Domain-normalized XML) ist ein von ExLibris entwickeltes XML-Metadatenschema für Erhaltungsmetadaten, das auf dem abstrakten PREMIS-Modell basiert und die darin beschriebenen abstrakten Entitäten und deren Eigenschaften als XML-Elemente technisch spezifiziert.

In einem Rosetta-METS gibt DNX die Struktur und die Elemente innerhalb der Sektion für administrative Metadaten (mets:amdSec) vor. Mittels DNX werden digitale Ressourcen auf den Ebenen Intellectual Entity, Representation, File und Bitstream beschrieben. Das DNX-Profil beinhaltet dabei sowohl technische, als auch rechtliche Metadaten, Eventmetadaten und Source-Metadaten. Die DNX-Metadatenelemente sind in der Rosetta-Dokumentation im Rosetta AIP Data Model beschrieben.


(Info) Weitere Informationen dazu im Service Wiki-Artikel: Administrative Metadaten in Rosetta

zurück




DROID (Digital Record Object Identification)


Definition:

DROID ist eine von The National Archives UK entwickelte Software zur Dateiformatidentifizierung, die in Rosetta integriert ist.

DROID durchsucht bei der Dateiformatidentifizierung bestimmte Bereiche einer Datei hinsichtlich Dateiformat-typischer Eigenschaften. Diese gleicht DROID mit den Informationen der Dateiformatdatenbank PRONOM ab, in der Dateiformate registriert, beschrieben und mit einem Identifier (PRONOM Unique Identifier, PUID) versehen werden. 

DROID greift bei der Dateiformatidentifizierung auf drei verschiedene Methoden zurück:


  1. Extension: Identifizierung auf Grundlage der Dateiendung: Dies liefert nicht immer ein verlässliches Ergebnis, da die Dateiendung leicht manipulierbar ist. Außerdem geben Dateiendungen keinen Aufschluss über die Version eines Dateiformats.
  2. Signature: Identifizierung auf Grundlage der File Signature (z. B. Magic Number): Die Formatidentifizierung erfolgt auf Grundlage von erkannten format- und versionsspezifischen Byte-Mustern innerhalb der Datei.
  3. Container: Identifizierung auf Grundlage eines Containers. Beispiel: Word-Dateien, die mit Microsoft Office 2007 erstellt worden sind, sind Container-Dateien (ZIP-Dateien), die mehrere XML-Dateien, Bilder usw. beinhalten. Durch die Container-Identifizierung und die Untersuchung der in dem Container eingebetteten Dateien kann die Datei als Microsoft Office 2007-Datei identifiziert werden und wird nicht nur als ZIP-Datei identifiziert.


Rosetta dokumentiert das Ergebnis der Dateiformatidentifizierung mittels DROID in den DNX- Metadaten zur digitalen Ressource, indem es u. a. den jeweiligen Identifier aus PRONOM hinzufügt.  Kommt es zu Fehlermeldungen bei der Dateiformatidentifizierung mittels DROID innerhalb von Rosetta, werden die betreffenden SIPs in den Rosetta-Bereich Technical Issues verschoben, wo sie von einem Technical Analyst einer genaueren Prüfung unterzogen werden können.


(Info)  Siehe dazu auch den Artikel: administrative Metadaten in Rosetta

(Info)  Siehe auch: https://www.nationalarchives.gov.uk/information-management/manage-information/preserving-digital-records/droid/

zurück




Dublin Core


Definition

Dublin Core ist ein generischer Metadatenstandard zur inhaltlichen Beschreibung von analogen und digitalen Ressourcen, der von der Dublin Core Metadata Initiative (DCMI) entwickelt wird. Dublin Core existiert sowohl in einer einfachen Fassung mit allgemeinen Metadatenelementen (Simple Dublin Core) und in einer erweiterten Fassung (DCMI Metadata Terms), welche spezifische inhaltliche Beschreibungen von Ressourcen ermöglicht.

Simple Dublin Core bildet Eigenschaften digitaler Ressourcen über 15 Kern-Metadatenelemente (Properties) ab, darunter unter anderem dc:title, dc:creator, dc:identifier. DCMI Metadata Terms ergänzt einige dieser Kernelemente um sogenannte Unter-Eigenschaften (Sub-Properties), die zur differenzierten Beschreibung digitaler Ressourcen dienen. So lässt sich zum Beispiel das Kernelement Datum (dc:date) mittels DCMI Metadata Terms näher spezifizieren als Entstehungsdatum (dcterms:created) oder als Veröffentlichungsdatum (dcterms:issued). 

Rosetta hat sowohl Simple Dublin Core als auch DCMI Metadata Terms als primären Standard für deskriptive Metadaten zur Beschreibung von Intellectual Entities und Files implementiert. In einer Rosetta-METS-Datei werden Dublin-Core-Metadaten in der Sektion für deskriptive Metadaten (mets:dmdSec) abgebildet und feldbasiert indexiert, wodurch eine genaue Recherche innerhalb von Rosetta ermöglicht wird. Zusätzlich können Dublin-Core-Metadaten auch als sogenannte Source-Metadata (sourceMD) in den administrativen Metadaten einer METS-Datei abgebildet werden, wo sie allerdings lediglich volltextbasiert indexiert werden.


(Info)  Siehe dazu auch den Artikel: Deskriptive Metadaten in Rosetta

(Info)   Siehe auch: https://dublincore.org/specifications/dublin-core/


Synonym:

DC

zurück




Emulation


Definition:

Emulation ist das im Rahmen von Logical Preservation durchgeführte Simulieren der ursprünglichen (veralteten) Systemumgebung einer Datei, die aufgrund ihres obsolet gewordenen Dateiformats nicht in einer aktuellen Systemumgebung technisch dargestellt werden kann. In der digitalen Langzeitverfügbarkeit eignet sich die Emulation als Alternative zur Dateiformatmigration, um Dateien mit veralteten oder obsolet gewordenen Dateiformaten weiterhin technisch interpretierbar zu halten (Logical Preservation). 

Ein Vorteil von Emulation ist die Wahrung der Authentizität von Dateien, da diese bei der Emulation nicht verändert werden. Dadurch besteht kein Risiko des Datenverlusts wie zum Beispiel bei der Dateiformatmigration. Das Emulieren einer Systemumgebung ist allerdings meist aufwendiger und kostspieliger als eine Dateiformatmigration.


zurück


Erhaltungsmetadaten


Definition:

Bei Erhaltungsmetadaten handelt es sich um eine Teilmenge aus deskriptiven, administrativen, technischen und strukturellen Metadaten, die dazu benötigt werden, um digitale Ressourcen im Prozess der Langzeitverfügbarkeit vollständig zu beschreiben und um diesen Prozess nachvollziehbar zu dokumentieren.

Erhaltungsmetadaten gewährleisten unter anderem, dass Veränderungen an einer digitalen Ressource (wie z. B. Dateiformatmigrationen), die zum Zwecke der Langzeitverfügbarkeit durchgeführt worden sind, auf eine Weise protokolliert werden, dass diese Ressource auch weiterhin als authentisch gilt. Erhaltungsmetadaten bilden außerdem Informationen ab, die zur langfristigen inhaltlichen und technischen Interpretierbarkeit und zur langfristigen Rechtewahrung von digitalen Ressourcen benötigt werden. Im Kontext der Langzeitverfügbarkeit können Erhaltungsmetadaten daher als Mindestanforderung an die Metadaten zu einer digitalen Ressource betrachtet werden, um deren physischen (Bitstream Preservation), logischen (Logical Preservation) und semantischen Erhalt (Semantic Preservation) langfristig zu gewährleisten.

In Rosetta werden Erhaltungsmetadaten in dem auf PREMIS basierenden DNX-Metadatenschema abgebildet. Diese sind in der METS-Sektion für administrative Metadaten verortet.

(Info)  Siehe dazu auch die Artikel  Metadaten und Langzeitverfügbarkeit und Administrative Metadaten in Rosetta.


Synonym:

Preservation Metadata

zurück




Export


Definition:

Ein Export im Rahmen der digitalen Langzeitverfügbarkeit ist das Ausliefern von Daten aus einem technischen System eines digitalen Langzeitarchivs.


In Rosetta können Intellectual Entities (IEs), Representations, Dateien, oder Metadatensätze aus verschiedenen Arbeitsbereichen des LZV-Systems Rosetta exportiert werden. Bereiche mit Export-Funktion sind unter anderem der Technical Analyst, Assessor, Approver oder Arranger, sowie der Web Editor und Suchtrefferlisten. Es können entweder einzelne Objekte manuell oder Sets von Objekten mittels automatisierter Prozesse exportiert werden. Ein Export von einzelnen Dateien kann unter anderem sinnvoll sein, um sie im Rahmen einer Fehlerbehebung außerhalb von Rosetta zu bearbeiten. Ein Exportprozess von ganzen IE-Sets kann zum Beispiel im Rahmen einer Datenrückgabe stattfinden und gegebenenfalls den gesamten Inhalt einer Rosetta-Institution umfassen.

Exportiert wird grundsätzlich in das output-Verzeichnis auf dem I/O-Server des hbz. Von dort können die Daten dann z. B. auf einen Server eines Kooperationspartners transferiert werden.

Bei der Konfiguration von Exporten in Rosetta können dabei verschiedene Optionen ausgewählt werden, zum Beispiel welche Representations exportiert werden sollen oder ob die Daten beim Export in einem Archivcontainer (TAR) verpackt werden.


Synonyme:

Datenexport, Auslieferung

zurück




Fixity Check 


Definition:

Bei einem Fixity Check wird eine Datei auf ihre Integrität überprüft. So sollen unbemerkte Veränderungen an der Datei ausgeschlossen werden. Änderungen können sowohl durch absichtliche Manipulation als auch spontane Fehler hervorgerufen werden. Letztere können insbesondere bei der Übertragung von Dateien passieren, aber auch im Speicher auftreten.

In der Praxis werden für einen Fixity Check meist Prüfsummen miteinander verglichen, die auf einem bestimmten Prüfsummenalgorithmus basieren. und auf Abweichungen untersucht. Bei der Einlieferung in Rosetta ist der Fixity Check, in Form eines Prüfsummenvergleichs, Teil der Validation Stack-Task Chain, die alle Dateien durchlaufen.

Mögliche Prüfsummenalgorithmen in Rosetta sind SHA1, CRC32, SHA256, SHA512 und MD5. Hat eine Datei beim Ingest nach Rosetta noch keine Prüfsumme, wird automatisch eine von Rosetta erzeugt. Eine Datei kann mehrere Prüfsummen unterschiedlicher Algorithmen gleichzeitig haben, die auch von Rosetta beim Fixity Check überprüft werden können. Mehrere Prüfsummen erhöhen die Wahrscheinlichkeit, auftretende Fehler bei der Einlieferung zu identifizieren, aber auch die Verarbeitungszeit in Rosetta. Bei größeren Datenmengen wird daher empfohlen, nur eine Prüfsumme pro Datei zu verwenden.

Fixity Checks bilden die Basis für die Bitstream Preservation.


Synonyme:

Integritätsprüfung

zurück




Harvesting 


Definition:

Harvesting meint im LZV-Kontext das Einsammeln von Metadaten aus einem Quellsystem

In Rosetta findet dieser Prozess bspw. im Rahmen der Einlieferung von Objekten mit Hilfe eines OAI-PMH Harvesters statt. Dieser fragt dabei zunächst die Metadaten aus dem Quellsystem über die von den Quellsystemen bereitgestellte OAI-Schnittstelle ab.

Sobald die Metadaten eingesammelt wurden, werden sie mittels XSL-Transformation in ein Rosetta-konformes Metadatenformat überführt (z. B. METS, DC oder CSV). Dabei wird ggf. ein vorher festgelegtes Metadatenmapping angewendet. Der Rosetta-Harvester erzeugt daraufhin Submission Information Packages (SIPs) und legt die transformierten Metadaten in Form von XML-Dateien (ie.xmls) darin ab. In einem darauffolgenden Schritt werden die Nutz- und Metadaten durch Ausführen eines Submission Jobs nach Rosetta geingested.


Synonyme:

Harvest, OAI-Harvest, OAI-Harvesting

zurück




Ingest

(Info) Begriff aus dem Open Archival Information System (OAIS).


Definition:

Unter dem Begriff Ingest werden alle Prozesse zusammengefasst, die zur Einlieferung und zur Weiterverarbeitung von digitalen Ressourcen nötig sind. Die Daten werden in Form von Submission Information Packages (SIPs) in ein Digitales Langzeitarchiv eingeliefert. Die Verarbeitung erfolgt zunächst mittels Producer-seitiger Prozesse zur Übermittlung von digitalen Ressourcen an ein digitales Langzeitarchiv, wie zum Beispiel das Sammeln der zu archivierenden Dateien, deren strukturierte Ablage (z. B. in einem Ordner-Verzeichnis), die Sammlung und Aufbereitung von Metadaten (z. B. durch Mappings auf ein Metadatenschema) sowie die Rechteklärung (z. B. Nutzungsrechte). Darüber hinaus gehören zum Ingest alle Prozesse seitens eines digitalen Langzeitarchivs, die dazu nötig sind, um aus einem SIP ein AIP zu bilden. Diese werden in Rosetta als Task Chain zusammengefasst.

Im Rosetta-Kontext wird anstatt von Ingest von Deposit und Submissions gesprochen. Im Deposit-Modul von Rosetta erfolgt das Producer-seitige Einliefern von Submission Information Packages in Rosetta. Im Submissions-Modul in Rosetta werden diese SIPs im Operational Storage weiterverarbeitet.


Synonyme:

Übernahme, Ingest Functional Entity, Funktionseinheit Übernahme, Deposit (Begriff aus Rosetta), Submission (Begriff aus Rosetta)

zurück




Intellectual Entity (IE)

(Info) Begriff aus dem PREMIS-Modell/Begriff aus Rosetta


Definition:

Eine Intellectual Entity (IE) ist im PREMIS-Modell eine Unterkategorie der abstrakten Entität Objects, die im Fokus der Langzeitverfügbarkeit steht. Bei einer IE handelt es sich um eine konzeptuelle Einheit, die von Menschen als in sich geschlossenes Werk wahrgenommen wird, z. B. um einen Roman. Dieses Werk kann gemäß PREMIS digital auf verschiedene Weise als Representation abgebildet werden. So ist es zum Beispiel möglich, ein Buch in Form einer oder mehrerer PDF-Dateien abzubilden oder in Form von einer oder mehreren Bild-Dateien (z. B. gescannte Buchseiten im TIFF-Format). Die IE muss im Kontext der Langzeitverfügbarkeit ausreichend beschrieben sein, damit sie langfristig als in sich geschlossene Informationseinheit wahrgenommen werden kann und inhaltlich interpretierbar ist (Semantic Preservation).   

Im Rosetta-System wird eine Intellectual Entity als eine von vier Ebenen einer digitalen Ressource abgebildet: Die IE sowie die mit ihr verknüpften Representations, Files und Bitstreams werden mittels Metadaten in der Rosetta-METS-Datei als logisches AIP beschrieben. Mit der IE PID verfügen Intellectual Entities in Rosetta über einen eigenen Identifier (z. B. IE7281).


Synonyme:

IE, Intellektuelle Entität, Konzeptuelles Objekt, Intellektuelle Einheit, Conceptual Object

zurück




I/O-Server


Definition:

Der I/O-Server (Input/Output-Server) ist ein Server, der dem durch das hbz betriebenen Rosetta-System vorgeschaltet ist. Dieser ist dabei nicht Teil der Rosetta-Software an sich, sondern dient dem Datentransfer nach und von Rosetta. Auf dem I/O-Server können Daten bzw. Datensets vor einem Ingest abgelegt und Daten nach einem Export abgeholt werden.

Weitere Informationen zum genauen Aufbau des I/O-Servers sind für KoopPartner des hbz auf der FAQ-Seite im Service-Bereich der Hochschulen verfügbar.


Synonyme:

Input/Output-Server

zurück


JHOVE (JSTOR/Harvard Object Validation Environment)


Definition:

Eine unter dem Dach der Open Preservation Foundation entwickelte Software zur Dateiformatvalidierung, die in Rosetta implementiert ist. 

JHOVE durchsucht bei der Dateiformatvalidierung mehrere Bereiche einer Datei und prüft, ob deren Struktur und Inhalt konform zur jeweiligen Spezifikation des vorher bei der Dateiformatidentifizierung erkannten Dateiformats ist. In JHOVE sind verschiedene Module implementiert, mit denen Dateien verschiedener Dateiformate  wie zum Beispiel PDF, TIFF und JPEG validiert werden können.

Kommt es innerhalb von Rosetta zu Fehlermeldungen bei der Dateiformatvalidierung mittels JHOVE, werden die betreffenden SIPs in den Rosetta-Bereich Technical Issues verschoben, wo sie von einem Technical Analyst einer genaueren Prüfung unterzogen werden können.


(Info)  Siehe auch: https://jhove.openpreservation.org/

zurück




Langzeitstabilität 


Definition:

Mit dem Begriff Langzeitstabilität werden Dateiformate beschrieben. Als langzeitstabil gelten dabei solche Formate, die in Zukunft wahrscheinlich nicht obsolet werden, und in denen Daten auch in Zukunft voraussichtlich fehlerfrei und authentisch dargestellt werden können.

Zur Beurteilung der Langzeitstabilität eines Dateiformats werden verschiedene Kriterien herangezogen, z. B. ob die Formatspezifikation öffentlich ist oder das Dateiformat proprietär ist. Diese Beurteilung ist keine einmalige Aufgabe, sondern muss wiederkehrend vorgenommen werden. Außerdem ist die Beurteilung nicht objektiv und allgemeingültig, sondern kann je nach Institution und Person unterschiedlich ausfallen.


(Info) Weitere Informationen dazu im Service Wiki-Artikel: Dateiformate und Langzeitverfügbarkeit

(Info) Eine Einschätzung des hbz zu langzeitstabilen Dateiformaten enthält die Interaktive Tafel gängiger Dateiformate.


Synonyme:

langzeitstabil

zurück




Langzeitverfügbarkeit


Definition:

Eine kontinuierliche Tätigkeit, die im Zusammenspiel von Menschen und Maschinen in einem Digitalen Langzeitarchiv ausgeführt wird. Ziel ist der zeitlich unbegrenzte und authentische Erhalt von Information in digitaler Form (digitale Ressource) für eine vorgesehene Zielgruppe (zum Beispiel Sozialwissenschaftler*innen). Durch Langzeitverfügbarkeit bleibt digitale Information langfristig wiederauffindbar sowie inhaltlich und technisch interpretierbar.


Synonyme:

Langzeitarchivierung, LZV, LZA, Langzeiterhaltung, Digitale Erhaltung, Digitale Archivierung, Digital Preservation, Digital Archiving, Long-Term-Archiving

zurück




Levels of Digital Preservation


Definition:

Die Levels of Digital Preservation (LoP) sind ein 2013 unter Leitung der National Digital Stewardship Alliance (NDSA) entwickeltes Ebenen-Modell der Langzeitverfügbarkeit. Das Modell dient Institutionen, die im Bereich der Langzeitverfügbarkeit aktiv sind, als praktische Orientierungshilfe beim Auf- und Ausbau der eigenen LZV-Maßnahmen. Aufgrund seiner Praxisnähe findet das Modell breite Anwendung in der LZV-Community. Im Jahr 2020 wurden die Levels of Digital Preservation mit dem DPC Digital Preservation Award ausgezeichnet. 

Die LoP liegen seit 2019 in einer überarbeiteten Version 2 vor. Sie bestehen aus einer Matrix mit 20 Praxisempfehlungen zur Durchführung hauptsächlich technischer LZV-Maßnahmen wie zum Beispiel redundante Speicherung digitaler Ressourcen. Die LoP definieren folgende fünf Handlungsbereiche der LZV: Storage, Integrity, Control, Metadata und Content. In diesen Handlungsbereichen können wiederum gemäß LoP diese vier Entwicklungsstufen (Levels) erreicht werden:   

  • Level 1: Know your Content (Inhalte kennen)
  • Level 2: Protect your Content (Inhalte schützen)
  • Level 3: Monitor your Content (Inhalte prüfen)
  • Level 4: Sustain your Content (Inhalte pflegen)


Für seine Kooperationspartner hat das hbz die Services seines Rosetta-Angebots auf die Levels of Digital Preservation gemapped:



(Info)  Weiterführende Infos dazu auf der hbz-Website: https://www.hbz-nrw.de/produkte/langzeitverfuegbarkeit/langzeitverfuegbarkeit-fuer-hochschulen/lzv-services

(Info)  Weiterführende Infos (externer Link):  https://ndsa.org/publications/levels-of-digital-preservation/


Synonyme:

LoP, NDSA Ebenen der digitalen Langzeitarchivierung

zurück




Logical Preservation


Definition:

Logical Preservation bezeichnet im Kontext der Langzeitverfügbarkeit den Erhalt der logischen Interpretierbarkeit einer digitalen Ressource, damit diese langfristig durch Hard- und Software richtig dargestellt und verarbeitet werden kann. Im Fokus steht hier die Datei, die aufgrund ihres Dateiformats eine bestimmte logische Ordnung aufweist, welche die Grundlage für die Interpretation durch technische Systeme ist (z. B. Anwendungsprogramme). 

Zwei Maßnahmen zur Logical Preservation, die im Falle von veralteten oder obsolet gewordenen Dateiformaten durchgeführt werden, sind Dateiformatmigration und Emulation.  Bei der Dateiformatmigration wird das Dateiformat einer Ressource in ein anderes umgewandelt, damit die Datei von aktueller Software auf die vorgesehene Weise dargestellt werden kann. Bei der Emulation wird die ursprüngliche, nicht mehr verfügbare technische Umgebung (z. B. ein Betriebssystem) simuliert.

Die Grundvoraussetzung zur Durchführung von Logical Preservation ist der Erhalt der physischen Integrität digitaler Objekte (Bitstream Preservation). Logical Preservation ist wiederum die Grundvoraussetzung für den langfristigen Erhalt der inhaltlichen Interpretierbarkeit von digitalen Ressourcen (Semantic Preservation).

zurück




Material Flow

(Info) Begriff aus Rosetta


Definition:

Ein Material Flow ist eine Reihe von miteinander verknüpften Konfigurationen innerhalb von Rosetta. Darin wird festgelegt, auf welche Weise Ingest s von Submission Information Packages durch einen Producer Agent durchgeführt werden müssen. Der Material Flow setzt sich aus den fünf Konfigurations-Komponenten Metadata Form, Submission Format, Content Structure, Access Rights Policies und Retention Periods zusammen. Diese müssen je nach Anwendungsfall unterschiedlich konfiguriert werden. Dementsprechend ist ein Material Flow immer individuell auf den entsprechenden Anwendungsfall angepasst.  

In der zentralen Rosetta-Umgebung des hbz werden Material Flows zuerst in der Testumgebung (Sandbox) angelegt und dort erprobt. Nach erfolgreichen Test-Ingests werden die Konfigurations-Parameter des Material Flow manuell in die zentrale Rosetta-Produktionsumgebung des hbz übertragen.


(Info)  Weiterführende Infos: https://knowledge.exlibrisgroup.com/Rosetta/Training/Rosetta_Essentials/B_-_Deposit_Module/3.1_Managing_Material_Flows_-_Introduction

zurück




Metadaten


Definition:

Bei Metadaten handelt es sich um Daten, die andere Daten strukturiert beschreiben. Es gibt verschiedene Arten von Metadaten.

  • Deskriptive Metadaten beschreiben Daten inhaltlich, z. B. der Verfasser eines Werkes oder digitalen Objekts bzw. einer digitalen Ressource.
  • Administrative Metadaten dienen der Verwaltung von digitalen Ressourcen in technischen Systemen.
    Weiter gefasst können administrative Metadaten auch technische Metadaten zur digitalen Ressource (z. B. das Dateiformat), rechtliche Angaben (z. B. Nutzungsrechte) sowie Provenienz- und Event-Metadaten beinhalten. Diese beschreiben, woher eine digitale Ressource kommt, welche Prozesse sie im Laufe ihres Lebenszyklus durchlaufen hat und ob bzw. wie sie dabei verändert wurde.
    Zu den administrativen Metadaten gehören auch Quellmetadaten, welche die Metadaten einer digitalen Ressource so wie im ursprünglichen Quellsystem der Daten beschreiben.
  • Strukturelle Metadaten geben an, aus welchen Bestandteilen sich eine digitale Ressource zusammensetzt und in welcher Reihenfolge diese Bestandteile dargestellt werden müssen. Außerdem beinhalten sie die Unterteilung einer digitalen Ressource in einzelne Abschnitte oder Kapitel und die Anordnung der Seiten, sowie deren Beschriftung.
    • In einer Rosetta-METS-Datei werden zum Beispiel alle Dateien gelistet, aus denen eine Intellectual Entity besteht. Sie enthält außerdem die Information darüber, in welcher Reihenfolge diese angezeigt werden müssen, um ein Objekt richtig darzustellen und die Semantic Preservation zu gewährleisten.

Metadaten, die für die Langzeitverfügbarkeit verwendet werden, sind Erhaltungsmetadaten.


Synonyme:

Metadata, MD

zurück


Metadatenmapping


Definition:

Quellsysteme und Zielsysteme arbeiten oftmals mit unterschiedlichen Metadatenformaten. Kann ein bestimmtes Format des Quellsystems nicht vom Zielsystem verarbeitet werden, in das Metadaten aus dem Quellsystem eingeliefert werden sollen, ist es notwendig, ein Metadatenmapping vorzunehmen.

Dazu müssen im ersten Schritt Regeln für die Übersetzung des Metadatenaustauschformats des Quellsystems in ein Austauschformat des Zielsystems festgelegt werden, bspw. durch die/den Datenkurator*in. Dabei wird definiert, welche Feldinhalte des Ursprungs-Metadatenformats in welche Felder des Zielmetadatenformats übertragen werden sollen.

Beispiele: 

Feld des QuellsystemsFeld des Zielsystem

mods:identifier

dc:identifier

mods:recordIdentifier

dc:identifier
mods:genredc:type
mods:classificationdc:subject

Diese Regeln werden dann im Anschluss praktisch umgesetzt.

Das LZV-System Rosetta ermöglicht als Zielsystem bspw. die Einlieferung von Metadaten in den Austauschformaten METS, DC oder CSVFür die Umsetzung des Mappings in eines dieser Metadatenformate, kann ein spezifisches XSLT-Skript erstellt werden. Dieses kann dann im Rahmen des OAI-Harvest eingesetzt werden, um die Metadaten in einem Rosetta-konformen Metadatenaustauschformat einzuliefern. Darüber hinaus können auch BagIt-Strukturen eingeliefert werden. Das Mapping dazu erfolgt in Rosetta in der s.g. Content Structure.


Synonyme:

Mapping

zurück




METS (Metadata Encoding and Transmission Standard)


Definition:

METS (Metadata Encoding and Transmission Standard) ist ein auf XML basierender, weit verbreiteter Standard zum Austausch von Metadaten in Form einer XML-Datei, der von der Library of Congress verwaltet und weiterentwickelt wird.  Eine METS-Datei ist eine XML-Datei, in der in verschiedenen Sektionen sowohl deskriptive als auch administrative, technische und strukturelle Metadaten zu digitalen Ressourcen abgebildet werden können.  

In Rosetta wird der METS-Standard als Container für Metadaten zu den eingelieferten SIPs und den langzeitarchivierten AIPs genutzt. Die Bestandteile eines SIPs und eines AIPs (Intellectual Entity, Representations, Files und Bitstreams) werden vollständig innerhalb einer Rosetta-METS-Datei beschrieben und referenziert. Das vorgeschriebene Metadatenschema für deskriptive Metadaten innerhalb der Rosetta-METS-Datei ist Dublin Core. Administrative Metadaten werden in dem von ExLibris entwickelten Metadatenschema DNX  beschrieben.


(Info)  Siehe dazu auch den Artikel: Das METS-Metadatenaustauschformat in Rosetta

(Info)  Weiterführende Infos: http://www.loc.gov/standards/mets/


Synonyme:

Metadata Encoding and Transmission Standard, METS-Container

zurück




Modified Master 

(Info)   Begriff aus Rosetta 


Definition:

Der Modified Master ist einer von drei Repräsentationstypen in Rosetta und wird im Permanent Storage gespeichert. Er ist inhaltlich identisch mit dem Preservation Master, liegt aber in der Regel in einem anderen Dateiformat vor. Der Modified Master eines Retrodigitalisats kann zum Beispiel als eine einzige PDF-Datei vorliegen, während der Preservation Master jede Seite als einzelne TIFF-Datei enthält. Im Gegensatz zum Preservation Master muss eine IE keinen Modified Master enthalten. Die Anzahl der maximal möglichen Modified Master lässt sich nach Bedarf konfigurieren. Für alle am hbz betriebenen Rosetta-Institutionen ist eine maximale Anzahl von zwei Modified Mastern vorgesehen. Ein Modified Master kann zusammen mit dem Preservation Master eingeliefert oder nachträglich im Web Editor hinzugefügt, bearbeitet oder gelöscht werden. Außerdem können einzelne Dateien ergänzt, bearbeitet, ersetzt oder gelöscht werden.

Ein Modified Master liegt in der Regel in einem langzeitstabilen Dateiformat vor. Auf ihn können die gleichen regelmäßigen Erhaltungsmaßnahmen wie auf den Preservation Master angewandt werden, also z. B. Fixity Checks. Diese können für einzelne IEs im Web Editor durch Services angestoßen werden, oder für ein Set von IEs durch vorkonfigurierte Prozesse.


Synonyme:

Modified Master Representation




nestor


Definition:

Ein Kompetenznetzwerk zum Thema Langzeitarchivierung im deutschsprachigen Raum. Das hbz ist Kooperationspartner von nestor und als Mitglied im nestor-Steuerungsgremium und in der nestor-Koordinierungsrunde vertreten. Das hbz engagiert sich darüber hinaus in den nestor-Arbeitsgruppen "Personal Digital Archiving" und "Dokumentation der digitalen Langzeitarchivierung".


(Info)  Weiterführende Infos: https://www.langzeitarchivierung.de

zurück




OAI-PMH


Definition:

OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) ist ein webbasiertes Protokoll für das Harvesten von Metadaten aus Systemen, die über eine OAI-Schnittstelle verfügen. Eine OAI-Schnittstelle gilt als standardkonform, wenn sie frei zugänglich ist und mindestens Metadaten im Metadatenschema Dublin Core (oai_dc) bereitstellt. Zusätzlich können auch Metadaten in anderen Schemata wie z. B. METS, MODS oder MARC21 ausgegeben werden. Die Metadaten werden in einer XML-Struktur (Extensible Markup Language) bereitgestellt. Ein Metadatensatz wird als Record bezeichnet. Jeder Record im Quellsystem entspricht dem Metadatensatz eines Objekts. 1-n Records können in einem Set zusammengefasst sein.

In Rosetta ist das OAI-Harvesting ein gängiges Einlieferungsverfahren. Beim Ingest per OAI-Harvester stellt Rosetta HTTP-Anfragen (Hypertext Transfer Protocol) an die OAI-Schnittstelle eines Quellsystems und liest die dort ausgegebenen Metadaten aus. Diese werden anschließend durch eine OAI Harvester Transformation mittels XSLT (Extensible Stylesheet Language Transformation) in das Rosetta METS-Format umgewandelt. Die transformierten Metadaten werden als XML-Dateien in automatisch erstellten SIPs auf einem Einlieferungsserver gespeichert. Jede XML-Datei enthält einen Record. Für jeden Record wird in Rosetta eine Intellectual Entity (IE) angelegt. Die von Rosetta genutzte Namenskonvention ist dabei ie1.xml, ie2.xml, ie3.xml und so weiter. Rosetta erzeugt ein SIP für jede OAI-PMH-Antwort. Für jede Anfrage wird eine serverseitig definierte Menge an Records ausgegeben (typischerweise 100). Übersteigt die Gesamtzahl der Records diese Menge, ist mehr als eine Anfrage an den Server erforderlich. Diese Anfragen werden mittels serverseitig erzeugten Resumption Tokens verknüpft. Ein Beispiel: nach 100 Records folgt ein Resumption Token. Mit diesem Token teilt das anfragende System (Rosetta) dem Server mit, bis zu welchem Record die Metadaten bereits geharvestet wurden. Der Server antwortet darauf mit dem 101.-200. Record.

Konkretes Beispiel: es liegt ein Set mit 774 Records vor. Rosetta wird acht Anfragen stellen und entsprechend acht SIPs erzeugen. In den ersten sieben SIPs werden je 100 Records enthalten sein, das achte wird die übrigen 74 Records enthalten. Nach der Verarbeitung der Daten werden in Rosetta 774 IEs gespeichert sein.

Der OAI-PMH Harvester von Rosetta kann ein oder mehrere Datensets aus einem Quellsystem gleichzeitig harvesten. Der Harvester kann von Rosetta zu individuell definierten Zeitpunkten automatisch ausgeführt werden, z. B. einmal wöchentlich oder einmal monatlich zu einer bestimmten Uhrzeit. Rosetta erkennt bereits eingelieferte Objekte und harvestet standardmäßig nur neue Records.

Das Anlegen von SIPs und ie.xmls mittels OAI-Harvesting ist der erste Schritt des zweischrittigen Ingestprozesses via OAI-PMH. Nach dem OAI-Harvesting wird der zweite Schritt des Ingestverfahrens mit dem Anstoßen eines Submission Jobs in Rosetta ausgeführt.


Synonyme:

OAI-Harvesting, OAI Protocol, OAI, Open Archives Initiative Protocol for Metadata Harvesting

zurück




Object Summary

(Info)   Begriff aus Rosetta 


Definition:

Die Object Summary ist der erste Reiter im Web Editor von Rosetta und wird standardmäßig angezeigt, wenn auf Edit oder Editor geklickt wird, um ein Objekt in Rosetta anzusehen. Die Inhalte erscheinen in der Mitte des Bildschirms unterhalb der verschiedenen Reiter und zeigen eine kurze Zusammenfassung der jeweiligen Objektebene. Die Object Summary ist für alle Ebenen eines Objekts verfügbar, also für Intellectual Entity, Representation und File.

Die gezeigte Zusammenfassung enthält jeweils Daten wie Rosetta-Identifier (PID, REP ID, FILE ID, usw.), generelle Eigenschaften sowie je nach Objektebene auch spezifische Informationen, unter anderem Producer Agent, Anzahl der Representations auf IE-Ebene, Preservation Type auf REP-Ebene oder Dateiformat und Dateigröße auf File-Ebene.

Auf IE-Ebene befindet sich in der Object Summary außerdem der Button View Object, um sich die IE im Viewer anzusehen.


Synonyme:

Objektzusammenfassung

zurück




Objekte mit Überordnungen


Definition:

Objekte mit Überordnungen sind digitale Ressourcen, die eine hierarchisch übergeordnete Ebene haben.
Dazu gehören zum Beispiel Einzelbände von Reihen oder mehrteiligen Monographien, bei denen die Titelaufnahme der Reihe oder der mehrteiligen Monographie als Ganzes die übergeordnete Ebene darstellt.
Zeitschriftenartikel haben in der Regel zwei übergeordnete Ebenen: die Ausgabe und darüber die Zeitschrift ansich. Die Überordnung ist dabei ein leerer Eintrag in einem Repositorium oder Bibliotheksmanagementsystem, der keine Nutzdaten enthält, sondern auf die untergeordneten Ebenen verweist, die wiederum die entsprechenden Nutzdaten enthaten (zum Beispiel jeweils die Bände 1-3 in PDFs).

In Rosetta können Objekte mit Überordnungen als Structural IEs dargestellt werden.


Synonym:

Records mit Überordnungen

zurück




Obsoleszenz 


Definition:

Im Kontext der Langzeitverfügbarkeit werden Dateiformate als obsolet bezeichnet, die veraltet sind und nicht mehr unterstützt werden. Eine Dateiformatobsoleszenz tritt ein, wenn keine Applikationen mehr existieren oder betrieben werden, die ein bestimmtes Dateiformat erzeugen, verarbeiten oder darstellen können. Proprietäre Dateiformate sind besonders von Obsoleszenz bedroht, da die Dateiformatspezifikation dieser Formate nicht öffentlich bekannt ist. Auch kann der Fall eintreten, dass das Unternehmen, dem ein Dateiformat gehört, nicht mehr existiert oder das Format nicht mehr unterstützt.

Um Obsoleszenz frühzeitig erkennen zu können, werden Dateiformate in einem technischen LZV-System wie Rosetta mittels Preservation Watch gemonitored. Eine entsprechende Konfiguration der zu kontrollierenden signifikanten Eigenschaften muss zuvor im LZV-System vorgenommen werden. Wird ein Dateiformatobsoleszenzrisiko erkannt, können Erhaltungsmaßnahmen wie eine Dateiformatmigration in ein langzeitstabiles Format durchgeführt werden, um die Obsoleszenz zu behandeln. Das geeignetste Zielformat für eine Migration wird durch Preservation Planning ermittelt.


Synonyme:

Dateiformatobsoleszenz, Obsolescence, File Format Obsolescence

zurück




Open Archival Information System (OAIS)

(Info) Begriff aus dem Open Archival Information System (OAIS)


Definition:

OAIS steht für Open Archival Information System. Dabei handelt es sich um ein Referenzmodell zur allgemeinen Beschreibung eines digitalen Langzeitarchivs. Das Modell ist als ISO-Standard 14721 veröffentlicht und seine Terminologie im Kontext Langzeitverfügbarkeit weit verbreitet. 

OAIS definiert ein Langzeitarchiv als eine organisatorische Einheit, die sich aus Personen und technischen Systemen zusammensetzt und verschiedene Aufgaben erfüllt. Die verschiedenen Aufgabenbereiche eines digitalen Langzeitarchivs werden im OAIS-Modell beschrieben als: Ingest, Preservation Planning, Data Management, Archival Storage, Administration und Access.

Digitale Ressourcen beschreibt das OAIS-Modell als Informationspakete, die durch Producer in ein Langzeitarchiv eingeliefert (Submission Information Package), dort archiviert (Archival Information Package) und bei Bedarf an Consumer ausgegeben werden (Dissemination Information Package).  

Das OAIS-Modell ist agnostisch gegenüber verschiedenen Institutions- und Objekt-Typen sowie technischen Systemen. Es beschreibt keine rein technische Lösung für die Langzeitverfügbarkeit und ist in dem Sinne auch nicht technisch implementierbar. Allerdings orientieren sich LZV-Systeme wie Rosetta unter anderem an den im OAIS-Modell beschriebenen Aufgabenbereichen und nutzen seine Terminologie teilweise nach. 


Die OAIS-Terminologie wird in Rosetta wie folgt umgesetzt:



(Info)  Weiterführende Infos: https://www.dpconline.org/docs/dpc-technology-watch-publications/technology-watch-reports-1/1359-dpctw14-02/file sowie https://www.iso.org/standard/87471.html 


Synonyme:

Open Archival Information System, Digitales Langzeitarchiv, Referenzmodell für ein Offenes Archiv-Informations-System

zurück




Operational Storage

(Info) Begriff aus Rosetta 


Definition:

Der Operational Storage ist ein Speicherbereich in Rosetta, in dem  Submission Information Packages zu Archival Information Packages weiterverarbeitet werden, nachdem sie von einem Producer Agent beim Ingest in den Deposit-Speicher überführt worden sind. Im Operational Storage verfügen die SIPs über einen eigenen Identifier (SIP ID), werden dort evaluiert und zu Archival Information Packages weiterverarbeitet. Auch AIP-Updates erfolgen im Operational Storage von Rosetta. Nach Bearbeitung der AIPs im Operational Storage werden diese im Permanent Storage von Rosetta langzeitarchiviert.


Synonym:

Operational

zurück




Permanent Storage

(Info) Begriff aus Rosetta 


Definition:

Der Permanent Storage ist der Langzeit-Speicherbereich für logische Archival Information Packages in Rosetta, welche jeweils eine Intellectual Entity in Rosetta repräsentieren. Diese sind im Permanent-Speicher recherchier- und auffindbar. In Rosetta verfügen Intellectual Entities im Permanent Storage über einen eigenen Identifier (IE PID), z. B. IE7092. 

Da der Permanent Storage in Rosetta für die langfristige Speicherung  konzipiert ist, können darin befindliche AIPs bzw. IEs nicht verändert oder gelöscht werden. Soll ein Update von AIPs bzw. IEs in Rosetta erfolgen (z. B. durch Metadatenanreicherung), werden diese daher zuerst wieder in den Operational Storage verschoben und dort verarbeitet. Nachdem das Update durchgeführt worden ist, werden die entsprechenden IEs als neue Version wieder in den Permanent Storage überführt.


Synonyme:

Permanent, Permanent Repository, Permanentspeicher

zurück




Preservation Master

(Info)   Begriff aus Rosetta 


Definition:

Der Preservation Master ist einer von drei Repräsentationstypen in Rosetta. Die als Preservation Master eingelieferten Daten gelten als "Original" und somit per Definition erhaltungswürdig. Sie werden im Permanent Storage gespeichert. Der Preservation Master kann ein oder mehrere Files enthalten, die nicht das gleiche Dateiformat besitzen müssen: zum Beispiel einzelne Seiten eines Retrodigitalisats als Bilddateien und ein dazugehöriges Transkript als XML-Datei. Anders als beim Modified Master und der Derivative Copy muss und darf jede IE nur genau einen Preservation Master enthalten; dieser kann nicht gelöscht werden. Die einzelnen Dateien können aber im Web Editor bearbeitet, gelöscht, ersetzt oder ergänzt werden, wobei immer mindestens eine Datei vorhanden bleiben muss.

Das Dateiformat des Preservation Master muss nicht zwingend als langzeitstabil gelten. Regelmäßige Erhaltungsmaßnahmen wie zum Beispiel Fixity Checks können auf den Preservation Master angewandt werden. Diese können für einzelne IEs im Web Editor durch Services angestoßen werden oder für ein Set von IEs durch vorkonfigurierte Prozesse. Eventuell ist auch eine Dateiformatmigration notwendig, die mit Hilfe eines Preservation Plans durchgeführt wird.


Synonyme:

Preservation Master Representation, Master

zurück




Preservation Metadata Implementation Strategies (PREMIS)


Definition:

PREMIS ist ein Defacto-Standard im Bereich Erhaltungsmetadaten, der vom PREMIS Editorial Committee entwickelt wird. Das PREMIS Data Dictionary definiert die vier Entitäten Objects, Rights, Agents und Events. Die Beschreibung der Eigenschaften dieser Entitäten mittels Metadaten wird in PREMIS für den Kontext der Langzeitverfügbarkeit als maßgeblich angesehen. Diese Eigenschaften definiert PREMIS als abstrakte Konzepte (sogenannte semantische Einheiten), die auf unterschiedliche Weise in Metadaten abgebildet werden können. Das PREMIS Data Dictionary gilt daher nicht als ein Metadatenschema wie zum Beispiel Dublin Core oder als ein Metadatenformat wie METS, da PREMIS weder vorschreibt, wie einzelne Metadaten-Elemente benannt werden sollen, noch wie diese Metadaten technisch abgebildet werden sollen. Das PREMIS Data Dictionary ist daher technisch neutral und auf verschiedene Weise implementierbar.

Im Rosetta Datenmodell ist PREMIS als fester Bestandteil des Rosetta-METS technisch in XML implementiert. Unter anderem finden sich in Rosetta die vier Ebenen der PREMIS-Entität Object wieder, wodurch sich digitale Ressourcen und deren Bestandteile in Rosetta als Intellectual Entity, Representation, File und Bitstream beschreiben lassen. Darüber hinaus werden in Rosetta auch die PREMIS-Entitäten Agents (z. B. angebundene Tools wie DROID oder der Producer Agent), Events (z. B. AIP Update, abgebildet in der digiprovMD-Sektion des Rosetta-METS) und Rights (z. B. Access Rights, abgebildet in der rightsMD-Sektion des Rosetta-METS) mittels Metadaten in Rosetta abgebildet. 

 

(Info)  Weiterführende Infos: https://www.loc.gov/standards/premis/


Synonym:

PREMIS Data Dictionary for Preservation Metadata

zurück




Preservation Planning

(Info) Begriff aus dem Open Archival Information System (OAIS)


Definition:

Unter dem Begriff Preservation Planning werden alle Planungs- und Entscheidungsprozesse im Kontext der Langzeitverfügbarkeit zusammengefasst, die u. a. in Preservation Policies festgehalten werden. Darunter fallen zum Beispiel Absprachen mit den verschiedenen involvierten Akteur*innen (Producer, Consumer). Auch Planungen und Entscheidungen zur Übernahme und Verarbeitung von digitalen Ressourcen in ein digitales Langzeitarchiv sowie deren Ausgabe an Consumer fallen unter den Begriff Preservation Planning. Feste Bestandteile des Preservation Plannings sind ebenso das stetige Beobachten und die kontinuierliche Anpassung an die Ansprüche der Designated Community (Community Watch) und an aktuelle Entwicklungen in den Bereichen Hard- und Software sowie Dateiformate (Technology Watch). Auch signifikante Eigenschaften digitaler Ressourcen müssen beim Preservation Planning berücksichtigt werden. 

Innerhalb von Rosetta beschreibt Preservation Plans ein Modul, das zum Sammeln von Informationen über Erhaltungsmaßnahmen und zur Evaluation von Risiken dient. In Rosetta werden damit nur ausgewählte technische Aspekte von Preservation Planning berücksichtigt.


Synonym:

Erhaltungsplanung

zurück




Preservation Policy


Definition:

Institutionen formulieren in Preservation Policies die Richtlinien und Ziele für die Langzeitverfügbarkeit von digitalen Ressourcen, die in ihrem Verantwortungsbereich liegen. Policies stehen im Einklang mit der gesamtstrategischen Ausrichtung einer Institution und enthalten Angaben darüber, was, warum, wie und für wen (Designated Community) in einem Digitalen Langzeitarchiv langfristig erhalten werden soll. Auf diese Weise erfüllen Preservation Policies den Zweck, Orientierung zu bieten und verbindliches Vorgehen bei der Planung (Preservation Planning) und Durchführung von LZV-Maßnahmen zu ermöglichen.


zurück




Producer

(Info) Begriff aus dem Open Archival Information System (OAIS).


Definition:

Der Begriff beschreibt Produzenten digitaler Ressourcen, welche diese in Form von SIPs beim Ingest in das digitale Langzeitarchiv überführen. Producer können sowohl Personen als auch Institutionen oder technische Systeme sein, die mit dem Langzeitarchiv interagieren.

Im zentral durch das hbz betriebenen Rosetta-System werden Datenquellen als Producer bezeichnet, aus denen die zu archivierenden digitalen Objekte stammen, z. B. ein bestimmtes Repositorium. Personen, die als Rosetta-User u. a. Ingest-Prozesse steuern, heißen Producer Agents.


Synonym:

Produzent

zurück




Producer Agent

(Info) Begriff aus Rosetta


Definition:

Ein Producer Agent ist eine zugewiesene Rolle an einen Rosetta-Nutzer, der im Auftrag eines oder mehrerer Producer die Überführung von digitalen Objekten nach Rosetta (Ingest/Deposit) und deren Weiterverarbeitung in Rosetta steuert.


(Warnung) Kooperationspartner des hbz entscheiden, welche ihrer Mitarbeiter*innen diesen Prozess steuern sollen. Diese bekommen vom hbz die Rolle Producer Agent zugewiesen.

zurück




PRONOM


Definition:

PRONOM ist eine Datenbank von The National Archives UK, in der Dateiformate registriert, beschrieben und mit einem Identifier (PRONOM Unique Identifier, PUID) versehen werden. In Rosetta ist PRONOM Bestandteil der Format Library. PRONOM dient hier als Wissensbasis zu Dateiformaten und als Grundlage für die Definition von Dateiformat-bezogenen Risiken im Kontext der Langzeitverfügbarkeit. Auch das Dateiformatidentifizierungstool DROID greift auf die PRONOM-Datenbank zu.


(Info)  Weiterführende Infos: https://www.nationalarchives.gov.uk/PRONOM/Default.aspx

zurück




Proprietär


Definition:

Im Kontext der Langzeitverfügbarkeit können sowohl Softwareanwendungen als auch Dateiformate proprietär sein.

Proprietäre Anwendungen sind Eigentum kommerzieller Unternehmen. Ihre Nutzung ist daher in der Regel eingeschränkt. Es muss gegebenenfalls eine Nutzungslizenz erworben werden, der Quellcode ist nicht offen und die Anwendung darf nicht verändert werden. Somit sind proprietäre Anwendungen oft nicht Open Source. Ein verbreitetes Beispiel für proprietäre Software ist Microsoft Office.

Proprietäre Dateiformate sind Dateiformate, die (bzw. deren Spezifikation) eine Firma besitzt. Oft handelt es sich dabei um die Dateiformate, die von proprietärer Software genutzt werden und entsprechende Dateien erzeugen. Ein Beispiel dafür ist das Dateiformat DOCX, das von Microsoft Word verwendet wird. Die Spezifikationen solcher Dateiformate sind in der Regel nicht öffentlich zugänglich und/oder unbekannt.

Aufgrund ihrer unbekannten Eigenschaften und da proprietäre Software und Dateiformate jederzeit vom Hersteller eingestellt werden können, sind die Logical Preservation und Semantic Preservation möglicherweise eingeschränkt. Daher stellen solche Formate gegebenenfalls ein Risiko für die Langzeitverfügbarkeit dar. Insbesondere proprietäre Dateiformate gelten im allgemeinen als nicht langzeitstabil. Um diesem Erhaltungsrisiko entgegenzuwirken können Erhaltungsmaßnahmen durchgeführt werden, zum Beispiel das Überführen eines proprietären Dateiformats in ein langzeitstabileres Format mittels Dateiformatmigration.


Synonyme:

Proprietäres Dateiformat, Proprietäre Anwendung, Proprietary, Proprietary File Format, Proprietary Software

zurück




Prüfsumme


Definition:

Eine Prüfsumme oder Checksum, auch als "Fingerabdruck" einer Datei bezeichnet, ist ein eindeutiger Wert, mit dessen Hilfe die Integrität einer Datei überprüft werden kann. Eine Prüfsumme entsteht durch die Verarbeitung der Bits (des Bitstreams) einer Datei durch einen bestimmten Algorithmus. Eine einfache Methode, eine Prüfsumme zu errechnen, ist z. B. das Bilden einer Quersumme einer mehrstelligen Zahl (1234 → 10). Veränderte Eingabedaten können anhand eines solch einfachen Verfahrens jedoch nicht zuverlässig erkannt werden. Im Beispiel könnte ein Zahlendreher vorliegen und unentdeckt bleiben (2134 → 10). In der Datenverarbeitung werden daher üblicherweise Kryptographie-Algorithmen genutzt, die gleiche Prüfsummen bei unterschiedlichen Eingabedaten vermeiden sollen. Bereits die Änderung einer Stelle im Bitstream soll dazu führen, dass die Prüfsummen der Ausgangsdaten und der veränderten Daten nicht mehr übereinstimmen und die Dateiversionen somit als unterschiedlich erkannt werden. Zwei Beispiele für Kryptographie-Algorithmen sind die Merkle-Damgård-Konstruktion und der Secure Hash Algorithm. Die auf den verschiedenen Verfahren basierenden Algorithmen zur Berechnung von Prüfsummen unterscheiden sich hinsichtlich ihrer Komplexität und folglich auch ihrer Verlässlichkeit. Prüfsummen, die in Rosetta genutzt werden können, sind MD5, SHA-1, SHA-256, SHA-512 und CRC32.

Ein regelmäßig durchgeführter Prüfsummencheck ist eine der Grundlagen für die Bitstream Preservation. Zufällige Änderungen an den Daten, z. B. durch Übertragungsfehler oder andere technische Defekte ausgelöst, können damit zuverlässig erkannt werden. Für einige der bekannten Algorithmen existieren Angriffe, die auch bei veränderten Eingangsdaten die gleiche Prüfsumme erzeugen. SHA-256 und SHA-512 gelten nach wie vor als sicher.


(Info) Siehe auch: BSI - Was ist der Prüfsummencheck?


Synonyme:

Checksum

zurück





Quellsystem


Definition:

Als Quellsystem wird ein System bezeichnet, in dem die Daten gespeichert sind, die in ein LZV-System eingeliefert werden sollen. Oft handelt es sich hierbei bspw. um ein Repositorium einer Hochschule. 

Bei der Einlieferung in Rosetta werden in den meisten Fällen die Metadaten per OAI-PMH mit einem Harvester Job aus dem Quellsystem geharvestet und die zugehörigen Nutzdaten anschließend mit einem Submission Job eingeliefert. Rosetta stellt dann das Zielsystem dar.

Für die Einlieferung in Rosetta ist es nicht notwendig, dass ein Quellsystem vorhanden, da die Daten auch direkt auf dem I/O-Server des hbz abgelegt werden können. Der Harvest fällt dann weg.

zurück





Record


Definition:

Ein Record ist ein Datensatz. Im Rosetta-Kontext gibt es für den Begriff mehrere Verwendungen:

  • Beim Harvesting mit OAI-PMH werden nach der Auswahl eines Sets alle darin vorhandenen Objekte mit ihren Metadatensätzen gelistet. Jedes Objekt in der Liste wird dabei Record genannt.
    • In der Test Area des Harvester Jobs gibt es außerdem die Möglichkeit, sich den ersten Datensatz des Sets anzeigen zu lassen (First Record) oder einen zufällig ausgewählten (Random Record).
  • Objekte in Rosetta (Intellectual Entities/IEs) können ebenfalls als Records bezeichnet werden. In diesem Kontext ist ein Record eine IE mit ihren dazugehörigen Metadaten.
  • Der Begriff Records ist in Rosetta vor allem in Suchtrefferlisten, sowie in den aufgelisteten SIPs im Technical Analyst, Approver und Assessor zu finden. In diesen Listen wird die Gesamtheit aller Suchtreffer zusammengefasst.
    • beispielsweise "1 - 20 of 41 Records."
    • Außerdem kann ausgewählt werden, wie viele Records auf einer Seite angezeigt werden sollen.


Synonym:

Datensatz

zurück




Representation

(Info) Begriff aus dem PREMIS-Modell/Begriff aus Rosetta


Definition:

Eine Representation ist im PREMIS-Modell eine Unterkategorie der abstrakten Entität Objects. Sie stellt eine digitale Abbildung der Ebene Intellectual Entity dar. Eine IE kann dabei durch eine oder mehrere Representations abgebildet werden, die sich wiederum aus einer oder mehreren Dateien zusammensetzen. Wenn es sich bei der IE um ein in sich geschlossenes literarisches Werk wie einen Roman handelt, kann dieser zum Beispiel sowohl in Form von einer oder mehreren PDF-Dateien, als auch in Form von einer oder mehreren Bild-Dateien (z. B. gescannte Buchseiten im TIFF-Format) digital dargestellt werden. Die Intellectual Entity hat demnach zwei Representations.

Im Rosetta-System wird eine Representation als eine von vier Ebenen einer digitalen Ressource abgebildet: Representations werden in der Rosetta-METS-Datei mittels Metadaten beschrieben und mit der jeweiligen IE verknüpft, die sie darstellen. Ebenso wird in der Rosetta-METS-Datei angegeben, aus welchen Files und Bitstreams sich die jeweilige Representation zusammensetzt. Mit der Representation PID verfügen Representations in Rosetta über einen eigenen Identifier (z. B. REP9823).

Es gibt in Rosetta drei Repräsentationstypen: Preservation Master, Modified Master und Derivative Copy.


Synonyme:

Repräsentation, REP

zurück




Rosetta


Definition:

Rosetta ist ein technisches Langzeitverfügbarkeitssystem der Firma ExLibris, welches das hbz seinen Kooperationspartnern als zentrale technische Infrastruktur für Langzeitverfügbarkeit (LZV) bzw. digitale Langzeitarchivierung anbietet.

Rosetta orientiert sich an gängigen (Defacto-)Standards wie dem PREMIS Data Dictionary, dem OAIS-Referenzmodell, dem METS-Metadatenaustauschformat und dem generischen Metadatenschema Dublin Core. Außerdem verwendet Rosetta darin enthaltene Elemente und Begriffe.

In Anlehnung an das OAIS-Modell werden in Rosetta verschiedene Aufgabenbereiche eines Langzeitarchivs definiert und modular abgebildet, wie zum Beispiel Ingest (Deposit-Modul), Preservation Planning (Bereich Preservation auf der Rosetta-Oberfläche), Data Management, Archival Storage und Access (Delivery-Modul).

Darüber hinaus verfügt Rosetta über verschiedene Speicherbereiche wie dem Operational- und dem Permanentspeicher. Hier werden die eingelieferten digitalen Ressourcen in verschiedenen Stadien ihrer Verarbeitung gespeichert.

Gemäß OAIS definiert das Rosetta Datenmodell digitale Ressourcen als Informationspakete, die sowohl Nutzdateien als auch Metadaten enthalten. Beim Ingest werden digitale Ressourcen als Submission Information Packages (SIPs) in Rosetta und den Operational Storage eingeliefert. Dort werden sie zu Archival Information Packages (AIPs) weiterverarbeitet und im Permanent Storage gespeichert. Die verschiedenen Ebenen einer digitalen Ressource werden in Rosetta gemäß PREMIS als Intellectual Entity, Representation, File und Bitstream abgebildet, deren Eigenschaften als Metadaten in einer Rosetta-METS-Datei abgebildet werden.


zurück




Rosetta Datenmodell


Definition:

Das Datenmodell von Rosetta basiert auf dem OAIS-Referenzmodell. Daten, die in Rosetta eingeliefert werden, sind als Informationspakete strukturiert. Dabei handelt es sich um logische Container, die aus Nutzdateien und angehängten Metadatendateien bestehen. Die Informationspakete unterscheiden sich in Struktur und Inhalt je nach Verarbeitungsstand  im Prozess der Langzeiterhaltung. Zudem können strukturelle Unterschiede bestehen, beispielsweise hinsichtlich der Anzahl und Art der enthaltenen digitalen Ressourcen. Es gibt drei Arten von Informationspaketen: Submission Information Package (SIP), Archival Information Package (AIP) und Dissemination Information Package (DIP). Digitale Ressourcen werden beim Ingest als SIP eingeliefert und im Operational Storage zu AIPs weiterverarbeitet. Im OAIS-Modell gibt es zwei Arten von AIPs, die Archival Information Unit (AIU) und die Archival Information Collection (AIC). Letztere entspricht etwa einer Structural IE  in Rosetta. Anschließend können sie als DIPs an Consumer ausgegeben werden, also z. B. direkt an Bibliotheksnutzer*innen. Da Rosetta am hbz als Dark Archive betrieben wird und nur autorisierte Rosetta-User der Kooperationspartner Zugriff haben, werden DIPs hier nur für die Anzeige im Viewer und den Export genutzt.  Die Objekte innerhalb der Informationspakete sind gemäß der Rosetta Ressourcenstruktur aufgebaut.

Da Rosetta dateiformatagnostisch ist, können die Nutzdateien prinzipiell beliebige Dateiformate haben. Beim Ingest müssen die Metadaten nicht in METS  vorliegen, Rosetta-intern basieren aber alle Metadaten auf dem METS-Format. 


Synonyme:

Rosetta Data Model

zurück




Rosetta Ressourcenstruktur


Definition:

Daten, die in Rosetta eingeliefert werden, sind gemäß des Datenmodells in Informationspaketen strukturiert. Der Aufbau der Objekte innerhalb der Pakete folgt der Rosetta Ressourcenstruktur. Diese basiert auf PREMIS und den dort definierten vier Ebenen von Objekten, die hierarchisch aufeinander aufbauen:

  • Intellectual Entity (IE):
    • eine konzeptuelle, gedachte Einheit
    • von Menschen als in sich geschlossenes Werk wahrgenommen, z. B. ein Roman
    • eine IE kann mehrere Repräsentationen haben, z. B. derselbe Roman als .pdf oder in Form eingescannter Einzelseiten als .tiff
  • Representation (REP):
    • eine digitale Abbildung der Intellectual Entity
    • bildet ab, aus welchen konkreten Dateien die Repräsentation besteht
    • gibt die korrekte Reihenfolge der Dateien an
    • eine Repräsentation kann dabei aus 1-n Dateien bestehen
    • grundsätzlich drei Typen: Preservation Master, Modified Master, Derivative Copy
  • File:
    • die konkreten Dateien, aus denen sich eine Repräsentation zusammensetzt
  • Bitstream:
    • die physische Grundlage von Dateien in Form einer Abfolge von Bits (Einsen und Nullen)

Der Aufbau dieser Struktur am Beispiel einer IE mit zwei Repräsentationen. Jede Repräsentation besteht dabei aus zwei Dateien.

Aufbau einer Ressource in Rosetta


Darstellung der Struktur in Rosetta. Der Bitstream wird dabei nicht dargestellt.

Darstellung der Struktur einer IE in Rosetta

zurück




Sampling Rate

(Info)   Begriff aus Rosetta


Definition:

Die Sampling Rate (deutsch etwa Stichprobenanteil / Messintervall) definiert, welcher Anteil eines Ingests zur manuellen Überprüfung bereitgestellt werden soll, wenn die automatischen Prüfungen auf Viren, Validität und Prüfsummen von Rosetta abgeschlossen sind.

Die Sampling Rate wird im Material Flow in Prozent angegeben. Steht die Sampling Rate zum Beispiel auf 30%, dann wird eine Stichprobe von 30% der SIPs eines durchgeführten Ingests in die Arbeitsbereiche unter Submissions → Approval weitergeleitet, wo die SIPs und IEs von Nutzer*innen mit den Rollen Assessor und Arranger nochmal inhaltlich geprüft und gegebenenfalls neu strukturiert werden, bevor ein User mit der Rolle Approver die SIPs final absegnet. Rosetta sichert die enthaltenen Intellectual Entities anschließend im Permanentspeicher. Damit haben die IEs den Ingestprozess vollständig durchlaufen.

Wenn die Sampling Rate auf 0% steht, werden alle Datenpakete, die technisch einwandfrei sind, automatisch in den Permanentspeicher verschoben, ohne dass eine manuelle Evaluation stattfindet.


zurück




Semantic Preservation


Definition:

Semantic Preservation bezeichnet im Kontext der Langzeitverfügbarkeit den Erhalt der inhaltlichen Interpretierbarkeit einer digitalen Ressource. Im Fokus steht hier das jeweilige Werk (Intellectual Entity), das digital abgebildet wird und langfristig für die jeweiligen Zielgruppen (Designated Community) verständlich sein soll. 

Semantic Preservation wird durch ausreichend vorhandene Metadaten zur digitalen Ressource ermöglicht, die wichtige Kontext- und Strukturinformationen liefern. Die Metadaten stellen sicher, dass eine digitale Ressource (z. B. durch vergebene Schlagwörter) in ihrem inhaltlichen und zeitlichen Kontext verstanden werden kann sowie vollständig und sinnhaft dargestellt wird.

Die Grundvoraussetzungen zur Durchführung von Semantic Preservation sind der Erhalt der physischen Integrität (Bitstream Preservation) und der Erhalt der logischen Interpretierbarkeit digitaler Ressourcen (Logical Preservation). 

In Rosetta wird im Rahmen von Semantic Preservation vordergründig der Metadatenstandard Dublin Core verwendet. Mittels Dublin Core werden inhaltliche Kontextinformationen als deskriptive Metadaten im Rosetta-System abgebildet und recherchierbar gemacht. 

zurück




Signifikante Eigenschaften

(Info) Begriff aus dem PREMIS-Modell


Definition:

Signifikante Eigenschaften bezeichnen im PREMIS-Modell die Eigenschaften einer digitalen Ressource, die in einem digitalen Langzeitarchiv unbedingt erhalten werden sollen, um die Ressource so authentisch wie möglich bewahren zu können und sie langfristig technisch wie inhaltlich interpretierbar zu halten (Logical Preservation und Semantic Preservation). Signifikante Eigenschaften können dabei für die Ebenen Intellectual Entity, Representation, File und Bitstream festgelegt werden.

Alle Maßnahmen der Langzeitverfügbarkeit inklusive das Preservation Planning müssen deshalb danach ausgerichtet sein, die signifikanten Eigenschaften einer digitalen Ressource zu bewahren. Je nach den Bedürfnissen aktueller oder zukünftiger Zielgruppe (Designated Community), können sich die signifikanten Eigenschaften von Ressourcen unterscheiden. Demnach muss für jeden Anwendungsfall individuell evaluiert werden, welche signifikanten Eigenschaften im Kontext der Langzeitverfügbareit zu erhalten sind.

In Rosetta werden signifikante Eigenschaften auf File-Ebene in der Format Library festgelegt und automatisiert aus den Dateien extrahiert. Darüber hinaus können auch für die Ebenen Intellectual Entity, Representation und Bitstream signifikante Eigenschaften in den DNX-Metadaten von Rosetta abgebildet werden.


Synonym:

Significant Properties

zurück




Staging

(Info)   Begriff aus Rosetta 


Definition:

Staging ist der Bereich in Rosetta, in dem ein Submission Information Package (SIP) verschiedene Verarbeitungsschritte bzw. -stufen (Processing Stages) durchläuft. Der Begriff Staging kann dabei sowohl den entsprechenden Rosetta Bereich beschreiben, als auch die Verarbeitungsschritte, die darin durchgeführt werden.

Nach einem Ingest wird ein SIP vom Deposit Storage in die Staging Area verschoben und dort weiterverarbeitet, indem eine vorher definierte Task Chain angewendet wird. Die darin festgelegten Tasks (in Form eines Validation Stack) werden der Reihe nach abgearbeitet. Konnten alle Tasks ohne Fehler durchgeführt werden, wird das SIP nacheinander in einen oder mehrere der Approval-Bereiche (Assessor, Arranger und/oder Approver) verschoben. Sind technische Fehler aufgetreten, muss vorher eine Fehlerbehandlung im Technical Analyst erfolgen.

Je nach Konfiguration muss das Verschieben des SIP in die nächste Stage händisch angestoßen werden. Dies erfolgt über die Aktion Move to next stage. Im Technical Analyst gibt es dagegen die Aktion Move to next step, da Fehlerbehandlung nicht als Verarbeitungsschritt definiert ist, sondern eine Unterbrechnung des Staging darstellt, die solange besteht, bis alle Fehler behandelt sind, die den reibungslosen Durchlauf eines SIP durch die Staging Area verhindern.

Das Verschieben des SIP in die Staging Area, die zu nutzende Task Chain und die daraufhin angesteuerten Approval-Bereiche werden über die SIP Routing Rule und SIP Processing Configuration definiert. Nachdem ein SIP den Approval-Bereich durchlaufen hat, wird außerdem ggf. eine Enrichment Routine angewendet, sofern eine solche konfiguriert ist. 

Das Staging endet, wenn das SIP in den Permanentspeicher verschoben wird. Das Verschieben des SIP von der Staging Area in den Permanentspeicher stellt dabei die letzte Stufe (Stage) in der Verarbeitung nach dem Ingest dar.


Synonyme:

Staging Area, Staging Server

zurück




Structural IE

(Info)   Begriff aus Rosetta


Definition:

Structural IEs sind hierarchisch angeordnete Intellectual Entities. Sie dienen dazu, Überordnungen und Unterordnungen darzustellen. Structural IEs in Rosetta bestehen aus einer Structural-Ebene (Parent-IE) und untergeordneten Content-IEs (Child-IEs). Die Structural-Ebene erzeugt eine IE, die - wie z. B. in einem Bibliothekssystem - eine Reihe, Zeitschrift, usw. repräsentiert. Der Structural-Ebene sind keine Files zugeordnet, sondern untergeordnete Child-IEs. Die Child-IEs enthalten die Objekte (Ausgabe, Artikel usw.).

Der Ingest von Structural IEs ist sowohl mit METS als auch CSV möglich. Es stehen derzeit drei Wege zur Auswahl:

  1. eine leere Parent-IE erzeugen, indem Metadaten ohne Dateien eingeliefert werden
  2. eine Child-IE zu einem bestehenden Parent hinzufügen
  3. die Structural- und Content-Ebenen gleichzeitig als komplette Struktur einliefern

Außerdem können Collections in Rosetta in Structural IEs konvertiert werden.

Synonyme:

Nested IE

zurück




Submission Information Package (SIP)

(Info) Begriff aus dem Open Archival Information System (OAIS)


Definition:

Das Submission Information Package (SIP) ist ein Informationspaket. Dabei handelt es sich um den logischen Container, in dem digitale Ressourcen beim Ingest in ein digitales Langzeitarchiv eingeliefert werden. Die Container-Struktur eines SIP kann auf verschiedene Arten abgebildet werden. 

In Rosetta werden SIPs durch eine bestimmte Ordnerstruktur abgebildet, in der sich digitale Ressourcen und deren Metadaten befinden. Rosetta kann durch diese Ordnerstruktur die verschiedenen Ebenen einer digitalen Ressource (IE, Representation, File, Bitstream) identifizieren, zueinander in Beziehung setzen und sie im Rosetta-System entsprechend abbilden. Submission Information Packages erhalten im Deposit-Speicher von Rosetta einen eigenen Identifier (SIP ID) und werden im Operational Storage weiterverarbeitet. Intellectual Entities innerhalb eines SIPs werden in Rosetta zu einzelnen logischen Archival Information Packages (AIP) weiterverarbeitet und in den permanenten Speicher (Permanent Storage) überführt.


Synonyme:

SIP, Übergabeinformationspaket, Einlieferungspaket

zurück




Submission Job

(Info)   Begriff aus Rosetta 


Definition:

Ein Submission Job in Rosetta  ist ein Prozess, der zum halbautomatisierten und automatisierten Einliefern von Submission Information Packages (SIPs) dient. Der Submission Job ist das zentrale Verfahren für alle Ingests, unabhängig von dem gewählten Einlieferungsverfahren bzw. der Struktur der Metadaten (z. B. METS oder CSV).

Werden die einzuliefernden SIPs automatisch via OAI-Harvesting erstellt, ist der Submission Job der zweite Schritt dieses Einlieferungsverfahrens. Dabei greift der Submission Job auf das selbe Verzeichnis zu, in dem der Harvester zuvor die SIPs erzeugt hat. Dieser Speicherort wird im Material Flow im Submission Format festgelegt. Wird nicht via OAI-PMH geharvestet, müssen die SIPs anderweitig erzeugt und für Rosetta bereitgestellt werden. Hierfür stehen unterschiedliche Optionen zur Verfügung (wie z. B. der hbz I/O-Server).

zurück




Task Chain

(Info)   Begriff aus Rosetta


Definition:

Als Task Chain (etwa: Aufgaben-Kette) wird eine Abfolge von Tätigkeiten (Tasks) zur Verarbeitung von Daten bezeichnet, die von Rosetta oder einem Plugin automatisiert ausgeführt werden können. Dazu gehören Aufgaben wie die Überprüfung der Prüfsumme, der Virencheck, das Erstellen einer Representation, das Hinzufügen zu einer Collection, aber auch das Löschen einer Representation oder Intellectual Entity (IE).

Damit Task Chains von Rosetta-Usern genutzt werden können, müssen diese aus einem oder mehreren Tasks erstellt werden. In der Task Chain werden ausgewählte Tasks in einer bestimmten Reihenfolge angeordnet und mit Parametern versehen.

Beim Erstellen einer Task Chain wird diese einer Gruppe zugeordnet. Die Gruppe bestimmt, an welcher Stelle in Rosetta die Task Chain genutzt werden kann. Eine Task Chain, die nur der Gruppe Validation Stack zugeordnet ist, kann z. B. nur während der Einlieferung genutzt werden. Auch ob eine Task Chain als Prozess oder Service im Webeditor verfügbar ist, wird durch ihre Gruppe festgelegt.

Ein Beispiel für eine Task Chain ist der sogenannte Validation Stack. Dieser übernimmt bei einem Ingest folgende Aufgaben: Überprüfen von Prüfsummen, Virenprüfung, DateiformatidentifizierungDateiformatvalidierung, Extraktion technischer Metadaten sowie eine formatspezifische Risikoanalyse. Durch die Parameter wird bspw. bestimmt, welcher Prüfsummenalgorithmus und welches Virencheck-Plugin genutzt werden. Für jeden Prüfsummenalgorithmus muss also eine neue Task Chain angelegt werden.


(Warnung) Die Erstellung von Task Chains obliegt dem hbz und kann gerne bei uns via Ticket angefragt werden: https://support.hbz-nrw.de/


(Info) Weitere Informationen dazu im Service-Wiki-Artikel: Sets und Prozesse in Rosetta


zurück




Technical Analyst

(Info)  Begriff aus Rosetta 


Definition:

Technical Analyst ist eine Nutzerrolle in Rosetta. Technical Analysts arbeiten im Rosetta-Bereich Submissions →Technical Issues an SIPs, in denen bei den automatischen Prüfungen Fehler aufgetreten sind. Dabei gibt es verschiedene Fehlerkategorien in entsprechenden Reitern:

  • Deposit: Kann auftreten wenn Objekte vom IO-Server in den Deposit Storage von Rosetta geladen werden und kann Deposit Activities vollständig betreffen
  • Loading: Tritt auf, wenn Objekte vom Deposit Storage in das Staging-Modul von Rosetta geladen werden, wo das SIP weiterverarbeitet und in ein AIP umgewandelt wird. Loading Fehler können ganze SIPs betreffen
  • Validation: Der häufigste Fehlertyp. Tritt auf, wenn im Rahmen der Einlieferung Fehler bei der Validierung oder Metadaten-Extraktion von Dateien erkannt werden. Für die Analyse kommen JHOVE, DROID (ggf. Siegfried) und der Virenscanner von Rosetta zum Einsatz. Validation-Fehler sind unterteilt in Virus Check Errors, Fixity Check Errors, Format Identification Errors, Format Validation Errors und Technical MD Extract Errors. Diese Fehler werden immer dateispezifisch erkannt.
  • Bytestream: Fehler im Datenstrom von Dateien, Fehler betrifft einzelne Datei(en)
  • Enrichment: Tritt bei einer potentiellen Anreicherung mit (technischen) Metadaten auf und betrifft einzelne Datei(en)
  • To Permanent: Tritt auf wenn ein Objekt nicht von der Staging Area in den Permanentspeicher verschoben werden kann und betrifft individuelle Datei(en)
  • System Error: Tritt auf wenn der Ingest vollständig fehlschlägt, z. B. bei Verbindungsabbrüchen zum Quellsystem

Technical Analysts sichten, analysieren und beheben diese Fehler, um die SIPs fehlerfrei in den Permanentspeicher verschieben zu können.


(Warnung) Der Begriff Technical Analyst wird umgangssprachlich auch synonym für den Rosetta-Arbeitsbereich Technical Issues verwendet. Dort können von Fehlern betroffene SIPs, IEs oder Dateien bearbeitet werden, bevor sie mit Move to next Stage in den AssessorApprover oder Permanentspeicher weitergeschoben werden. Welcher Arbeitsbereich bzw. Speicher der nächste Schritt ist, hängt von der Sampling Rate ab.


(Info) Siehe dazu auch den Artikel: Fehler in Technical Issues/Technical Analyst


Synonyme:

TA, Technical Issues, Technical Analysis

zurück




Technology Watch


Definition:

Technology Watch ist Teil des Preservation Planning und beschreibt das kontinuierliche Beobachten von technischen Entwicklungen und Zukunftstrends, die im Kontext der Langzeitverfügbarkeit berücksichtigt werden müssen. Technology Watch ermöglicht es einem digitalen Langzeitarchiv, frühzeitig auf Veränderungen wie obsolet werdende Dateiformat e oder neue Speichermedien reagieren zu können. 


zurück




Validität


Definition:

Valide Dateien sind wohlgeformt und entsprechen zusätzlich den inhaltlichen Vorgaben einer Dateiformatspezifikation, z. B. PDF/A-2.

Bei einem Ingest nach Rosetta wird im Rahmen der Dateiformatvalidierung automatisch von JHOVE oder VeraPDF auf Validität geprüft. 

Während einer Dateifomatmigration in Rosetta wird in der Regel ebenfalls auf Validität geprüft.

Ist eine Datei nicht valide, kann sie oft trotzdem geöffnet und angezeigt werden. Der Grund dafür ist, dass Abweichungen einer Datei zur Spezifikation oft sehr gering und formal sind, sodass sie technisch erkannt werden, aber keinen Einfluss auf die Anzeige der Datei haben.

Beispiel: Für das Datumsformat ist in der Spezifikation die Form "Tag-Monat-Jahr" vorgeschrieben, es ist in der Datei aber als "Jahr-Monat-Tag" geschrieben. In solchen Fällen kann geprüft werden, ob der dadurch entstandene Validierungsfehler die signifikanten Eigenschaften der Datei nicht einschränkt und daher ignoriert werden kann. 


Synonyme:

Dateiformatvalidität, validity, valid

zurück




Vollabzug

(Info)   Begriff aus Rosetta 


Definition:

Ein Vollabzug ist das vollständige Harvesten ("Ernten") aller Metadatensätze eines kompletten Datensets aus einem technischen System (z. B. aus einem Repositorium) oder der Metadatensätze aller Sets eines solchen Systems. Auch das Ergebnis eines solchen Harvests, also die entsprechende Datenmenge, wird als Vollabzug bezeichnet.

Durch einen Vollabzug kann z. B. ein gesamter Bestand aus einem Quellsystem in ein Langzeitverfügbarkeitssystem wie Rosetta übernommen werden, beispielsweise alle Dissertationen eines bestimmten Fachgebiets.

Ein Vollabzug und die nachfolgende Einlieferung nach Rosetta kann beispielsweise als zweischrittiger Prozess aus OAI-PMH-Harvesting und Submission Job  strukturiert werden.

zurück


Web Editor

(Info) Begriff aus Rosetta


Definition:

Rosetta bietet unterschiedliche Möglichkeiten zur Interaktion mit den Daten (z. B. IEs). Neben APIs ist das insbesondere der browserbasierte Web Editor. Dieser kann beispielsweise über eine Objektsuche auf der Startseite im Reiter Preserved erreicht werden. Die Ergebnisliste dieser Suche enthält auf der rechten Seite zu jeder IE einen Link auf einen Editor. Aus dem Assessor ist der Editor per Edit IE erreichbar.

Der Web Editor bietet verschiedene Optionen zur Übersicht und Bearbeitung von Objekten, die auf verschiedene Reiter aufgeteilt sind. Dazu gehören die Object Summary, Metadata, Services zum Ausführen von vorkonfigurierten Prozessen, Collection und Versions. Wenn es sich bei einem Objekt um die Parent-Ebene einer Structural IE handelt, enthält der Web Editor zusätzlich das Tab Contents, in dem die Child-Objekte aufgelistet sind.


zurück




Wohlgeformtheit


Definition:

Dateien sind wohlgeformt, wenn sie der Syntax einer Dateiformatspezifikation entsprechen. Daher muss beispielsweise eine XML-Datei die Regeln des Formats XML befolgen. Das heißt unter anderem, öffnende und schließende Elemente (Tags) zu verwenden, die durch spitze Klammern gebildet werden (z B. <dc:title>Beispieltitel</dc:title>). Die Wohlgeformtheit von Dateien ist Voraussetzung für die Validität von Dateien.

Bei einem Ingest nach Rosetta wird automatisch von JHOVE auf Wohlgeformtheit geprüft. Diese Prüfung basiert auf der Dateiformatdatenbank PRONOM. Vorausetzung einer Prüfung auf Wohlgeformtheit ist eine vorherige Dateiformatidentifikation durch DROID oder Siegfried.

Bei einer Dateiformatmigration von in der Regel ebenfalls auf Wohlgeformtheit geprüft.


Synonyme:

Well formed, well-formed

zurück




XML 


Definition:

XML (Extensible Markup Language, auf Deutsch in etwa erweiterbare Auszeichnungssprache) ist ein textbasiertes Datenformat. Es ist für die Beschreibung, Speicherung und den Austausch strukturierter Informationen konzipiert. Es kann leicht von Menschen und Maschinen interpretiert werden und ist daher weit verbreitet. Eine XML-Datei ist aus Tags aufgebaut, die zwischen spitzen Klammern ("<", ">") stehen.


Beispiel
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<bookstore>
	<book>
		<title>A book about mondays</title>
		<author>John Doe</author>
		<year>2024</year>
	</book>
	<book>
		<title>Just another tuesday</title>
		<author>Jane Smith</author>
		<year>2010</year>
	</book>
</bookstore>



XML ist im LZV-Kontext relevant, da Dateien für das Metadatenaustauschformat METS in XML geschrieben werden. Daher enthalten alle SIPs (Submission Information Packages) für einen METS-Ingest immer eine ie.xml. Beim Harvesting mittels OAI-PMH werden ie.xml-Dateien mittels eines XSLT-Skriptes automatisch von Rosetta erzeugt. Auch bei einem Export von IEs oder Metadaten aus Rosetta werden die entsprechenden Metadaten-Dateien der AIPs als XML ausgeliefert.


(Info)  Weitere Informationen dazu unter https://www.w3.org/XML/

Synonyme:

Extensible Markup Language

zurück




XSLT


Definition:

XSLT steht für Extensible Stylesheet Language Transformation und ist ein Standard, um XML-Dokumente in ein anderes zu transformieren. Dabei ist es selbst eine auf XML basierende Programmiersprache. Die zur Transformation erstellte XSL-Datei enthält Anweisungen, wie XML-Elemente aus dem Originaldokument im transformierten Dokument dargestellt werden sollen.

In Rosetta werden XSL Transformationen an verschiedenen Stellen genutzt, z. B. um während des Harvests das Metadatenmapping umzusetzen. Die XSL-Datei muss hierfür unter OAI Harvester Transformation hochgeladen werden. Auch für das Aktualisieren von Metadaten im Permanent Storage mit einem Metadata Update Job wird XSLT verwendet. 


XML vorher (xMetaDissPlus)
<ddb:rights ddb:kind="free"/>


XSLT
<xsl:for-each select="//ddb:rights">
	<dc:rights>
		<xsl:value-of select="./@ddb:kind" />
	</dc:rights>
</xsl:for-each>


XML nachher (Dublin Core)
<dc:rights>free</dc:rights>


Synonyme:

Extensible Stylesheet Language Transformation, XSL Transformation, OAI Harvester Transformation

zurück




  • Keine Stichwörter