OAI-PMH allgemein

OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) ist ein webbasiertes Protokoll für das Harvesten von Metadaten aus Quellsystemen, die über eine OAI-Schnittstelle verfügen.

Eine OAI-Schnittstelle gilt als standardkonform, wenn sie frei zugänglich ist und mindestens Metadaten im Metadatenschema Dublin Core (oai_dc) bereitstellt. Zusätzlich können auch Metadaten in anderen Schemata wie z. B. METS, MODS oder MARC21 ausgegeben werden. Die Metadaten werden in einer XML-Struktur (Extensible Markup Language) bereitgestellt. Ein Metadatensatz wird als Record bezeichnet. Jeder Record im Quellsystem entspricht dem Metadatensatz eines Objekts. 1-n Records können in einem Set zusammengefasst sein.

Weiterführende Infos

Dokumentation zu OAI-PMH der Open Archives Initiative

Hintergrund: OAI-PMH in Rosetta

OAI-PMH ist eines der Verfahren zur Bereitstellung von Metadaten für die Überführung digitaler Ressourcen in das LZV-System Rosetta. Mit dem OAI Harvester in Rosetta lassen sich automatisierte Prozesse zur SIP-Erstellung und zu AIP-Updates konfigurieren.

Vor der Konfiguration des Harvester Jobs in Rosetta muss ein dazugehöriger Material Flow angelegt worden sein.

Beim Harvesting stellt Rosetta HTTP-Anfragen (Hypertext Transfer Protocol) an die OAI-Schnittstelle eines Quellsystems. Als Response an Rosetta übermittelt das Quellsystem OAI Records im XML-Format.

Die Metadaten werden anschließend durch eine OAI Harvester Transformation mittels XSLT (Extensible Stylesheet Language Transformation) in das Rosetta METS-Format umgewandelt. Das dafür nötige XSL-File wird unter Deposits → Advanced Tools → OAI Harvester Transformation hinterlegt und mit dem jeweiligen OAI Harvester Job verknüpft. Die transformierten Metadaten werden als XML-Dateien in automatisch erstellten SIPs auf dem I/O-Server gespeichert.

Warnhinweis

Einmal erstellte XSL-Files können nicht wieder gelöscht werden! Wenden Sie sich bei Fragen zum Anlegen von XSL-Files gerne an das LZV-Serviceteam.

Jede XML-Datei enthält einen oder mehrere Records. Für jeden Record wird in Rosetta eine Intellectual Entity (IE) angelegt. Die von Rosetta genutzte Namenskonvention ist dabei ie1.xml, ie2.xml, ie3.xml usw. Rosetta erzeugt ein SIP für jede OAI-PMH-Antwort. Für jede Anfrage wird eine im Quellsystem definierte Menge an Records ausgegeben (typischerweise 100). Übersteigt die Gesamtzahl der Records diese Menge, ist mehr als eine Anfrage an den Server erforderlich. Diese Anfragen werden automatisch gestellt und mittels serverseitig erzeugten Resumption Tokens verknüpft. Folgt nach 100 Records ein Resumption Token, teilt das anfragende System (Rosetta) dem Server mit diesem mit, bis zu welchem Record die Metadaten bereits geharvestet wurden. Der Server antwortet darauf mit den nächsten 100 Records.

Konkretes Beispiel: es liegt ein Set mit 774 Records vor, ein Resumption Token wird vom Quellsystem jeweils nach 100 Records gesendet. Rosetta wird acht Anfragen stellen und entsprechend acht SIPs erzeugen. In den ersten sieben SIPs werden je 100 Records enthalten sein, das achte wird die übrigen 74 Records enthalten. Nach der Verarbeitung der Daten werden in Rosetta 774 IEs gespeichert sein.

Die darin referenzierten Dateien werden anschließend durch einen Submission Job heruntergeladen und in Rosetta eingeliefert.

Weiterführende Infos

Dokumentation zu OAI-PMH im Ex Libris Developers' Network

Konfiguration: OAI Harvester Job

Die Konfiguration des OAI Harvester Jobs erfolgt über Deposits → Jobs → OAI Harvester Job und muss wie folgt ausgefüllt werden:

Name

(Name des Bestandes)-Harvester Job
Achtung! Beim Anlegen eines neuen Jobs erst unter Scheduling den gewünschten Zeitpunkt terminieren, sonst wird der eingegebene Name zurück gesetzt.

Warnhinweis

Die Namensgebung des Harvester Jobs erfolgt nach der aktuellen Namenskonvention, die auf den Onboarding-Seiten der Hochschulen und auf dieser Seite beschrieben ist.

Die hier gezeigten Beispielbilder folgen ggf. einer älteren Konvention, die nicht mehr verwendet wird. Die gezeigten Namen dienen lediglich als Beispiele.

Scheduling

hier den gewünschten, regelmäßigen Zeitpunkt, an dem der Harvester Job laufen soll, auswählen
alternativ: No Scheduling

Screenshot: Name und Scheduling des Harvester Jobs in Rosetta

Job Parameters

Base URL: Adresse der OAI-Schnittstelle
anschließend auf Connect and Edit klicken
danach die gewünschten Sets per Drag & Drop oder Klick auf das Plus hinzufügen
- wird kein Set ausgewählt, werden alle Sets geharvestet
Metadata Prefix: das gewünschte Metadatenformat auswählen
User Name und Password: nur nötig, wenn die OAI-Schnittstelle passwortgeschützt ist; hier sind nicht die Rosetta-Logindaten einzutragen
Ignore Last Run Time:
- ist standardmäßig deaktiviert und sollte i. d. R. nicht angeklickt werden, dann werden nur die seit dem letzten Harvest hinzugekommenen Metadaten geharvestet
  - dabei ist egal, ob die Daten nach Rosetta eingeliefert worden sind oder nicht, es geht nur um den Zeitpunkt des letzten Harvests
- ist die Option angeklickt, werden alle Metadaten in den gewählten Sets erneut geharvestet
- die Option gilt immer nur für den nächsten Harvester Job, danach wird sie automatisch wieder deaktiviert
Match:
- die Option gibt an, ob Rosetta die zu harvestenden Metadaten auf Duplikate zu den im Permanent Storage gespeicherten IEs überprüfen soll
- Empfehlung, um Duplikate zu vermeiden: OAI header id
- sollen bewusst Duplikate erzeugt werden, ist die Option Do not match (Duplicate) auszuwählen
XSL File: das passende XSL File auswählen
Material Flow: den passenden Material Flow auswählen
Update Metadata Job:
- Option erscheint nur, wenn unter Match eine andere Option als Do not match (Duplicate) ausgewählt wurde
- im Regelfall sollte hier Do not update ausgewählt werden

Screenshot: Job Parameters des Harvester Jobs in Rosetta

Test Area

hier kann die XSL Transformation getestet werden
Set: das gewünschte Set auswählen
Record:
- First Record: der erste Record im Set
- Random Record: ein zufälliger Record
- By Identifier: den OAI Identifier aus dem OAI Header des gewünschten Records eingeben
Source Record: zeigt die Metadaten in der ursprünglichen Form des Quellsystems an
Transformed Record: zeigt die Metadaten nach der XSL-Transformation an
Match: gibt an, ob der Record bereits im Permanent Storage vorhanden ist oder nicht

Screenshot: Test Area des Harvester Jobs in Rosetta ohne Match

zu beachten ist, dass die unter Job Parameters vorgenommenen Konfigurationen hier ebenfalls greifen
- es können nur die hinzugefügten Sets ausgewählt werden (ggf. ein Set hinzufügen und noch einmal auf Apply klicken)
- die ausgewählten Match-Optionen greifen hier ebenfalls
  - Wenn ein Match bereits vorhanden ist, wird zwar Success angezeigt, das Feld Transformed Record bleibt aber leer.
  - Zusätzlich werden darunter die IE PIDs der Matches angegeben.
  - Die Option Ignore Last Runtime kann an dieser Stelle ebenfalls genutzt werden.

Screenshot: Test Area des Harvester Jobs in Rosetta mit Match

Warnhinweis

Bei mehrmaligem Nutzen der Test Area kann es vorkommen, dass eine Fehlermeldung erscheint. Dies ist ein bekannter Fehler, an dessen Behebung seitens Ex Libris gearbeitet wird.

Email Notification

hier kann ausgewählt werden, ob eine Email Benachrichtigung verschickt werden soll und ggf. eine Email-Adresse angegeben werden
die Optionen sind
- ja
- nein
- On failure only (nur bei Fehlschlag)

Weiterführende Infos

Weitere Informationen zur Konfiguration des OAI Harvester Jobs finden Sie in der Rosetta Dokumentation

OAI-PMH Harvester

Seitenhierarchie

OAI-PMH allgemein

Hintergrund: OAI-PMH in Rosetta

Konfiguration: OAI Harvester Job

Name

Scheduling

Job Parameters

Test Area

Email Notification

Nach dem Ausführen des OAI Harvester Jobs

Seitenhierarchie

Metadatenbereitstellung via OAI-PMH

OAI-PMH allgemein

Hintergrund: OAI-PMH in Rosetta

Konfiguration: OAI Harvester Job

Name

Scheduling

Job Parameters

Test Area

Email Notification

Nach dem Ausführen des OAI Harvester Jobs