Auf dieser Seite finden Sie


Metadaten-bereitstellung via OAI-PMH



OAI-PMH allgemein 

OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) ist ein webbasiertes Protokoll für das Harvesten von Metadaten aus Quellsystemen, die über eine OAI-Schnittstelle verfügen.

Eine OAI-Schnittstelle gilt als standardkonform, wenn sie frei zugänglich ist und mindestens Metadaten im Metadatenschema Dublin Core (oai_dc) bereitstellt. Zusätzlich können auch Metadaten in anderen Schemata wie z. B. METS, MODS oder MARC21 ausgegeben werden. Die Metadaten werden in einer XML-Struktur (Extensible Markup Language) bereitgestellt. Ein Metadatensatz wird als Record bezeichnet. Jeder Record im Quellsystem entspricht dem Metadatensatz eines Objekts. 1-n Records können in einem Set zusammengefasst sein.



Hintergrund: OAI-PMH in Rosetta

OAI-PMH ist eines der Verfahren zur Bereitstellung von Metadaten für die Überführung digitaler Ressourcen in das LZV-System Rosetta. Mit dem OAI Harvester in Rosetta lassen sich automatisierte Prozesse zur SIP-Erstellung und zu AIP-Updates konfigurieren. 

Vor der Konfiguration des Harvester Jobs in Rosetta muss ein dazugehöriger Material Flow angelegt worden sein. 

Beim Harvesting stellt Rosetta HTTP-Anfragen (Hypertext Transfer Protocol) an die OAI-Schnittstelle eines Quellsystems. Als Response an Rosetta übermittelt das Quellsystem OAI Records im XML-Format.


Die Metadaten werden anschließend durch eine OAI Harvester Transformation mittels XSLT (Extensible Stylesheet Language Transformation) in das Rosetta METS-Format umgewandelt. Das dafür nötige XSL-File wird unter DepositsAdvanced ToolsOAI Harvester Transformation hinterlegt und mit dem jeweiligen OAI Harvester Job verknüpft. Die transformierten Metadaten werden als XML-Dateien in automatisch erstellten SIPs auf dem I/O-Server gespeichert.


Warnhinweis

Einmal erstellte XSL-Files können nicht wieder gelöscht werden! Wenden Sie sich bei Fragen zum Anlegen von XSL-Files gerne an das LZV-Serviceteam.

Jede XML-Datei enthält einen oder mehrere Records. Für jeden Record wird in Rosetta eine Intellectual Entity (IE) angelegt. Die von Rosetta genutzte Namenskonvention ist dabei ie1.xml, ie2.xml, ie3.xml usw. Rosetta erzeugt ein SIP für jede OAI-PMH-Antwort. Für jede Anfrage wird eine im Quellsystem definierte Menge an Records ausgegeben (typischerweise 100). Übersteigt die Gesamtzahl der Records diese Menge, ist mehr als eine Anfrage an den Server erforderlich. Diese Anfragen werden automatisch gestellt und mittels serverseitig erzeugten Resumption Tokens verknüpft. Folgt nach 100 Records ein Resumption Token, teilt das anfragende System (Rosetta) dem Server mit diesem mit, bis zu welchem Record die Metadaten bereits geharvestet wurden. Der Server antwortet darauf mit den nächsten 100 Records.

Konkretes Beispiel: es liegt ein Set mit 774 Records vor, ein Resumption Token wird vom Quellsystem jeweils nach 100 Records gesendet. Rosetta wird acht Anfragen stellen und entsprechend acht SIPs erzeugen. In den ersten sieben SIPs werden je 100 Records enthalten sein, das achte wird die übrigen 74 Records enthalten. Nach der Verarbeitung der Daten werden in Rosetta 774 IEs gespeichert sein.

Die darin referenzierten Dateien werden anschließend durch einen Submission Job heruntergeladen und in Rosetta eingeliefert.



Konfiguration: OAI Harvester Job

Die Konfiguration des OAI Harvester Jobs erfolgt über DepositsJobsOAI Harvester Job und muss wie folgt ausgefüllt werden: 

Name

  • (Name des Bestandes)-Harvester Job
  • (Warnung) Achtung! Beim Anlegen eines neuen Jobs erst unter Scheduling den gewünschten Zeitpunkt terminieren, sonst wird der eingegebene Name zurück gesetzt.


Warnhinweis

Die Namensgebung des Harvester Jobs erfolgt nach der aktuellen Namenskonvention, die auf den Onboarding-Seiten der Hochschulen und auf dieser Seite beschrieben ist.

Die hier gezeigten Beispielbilder folgen ggf. einer älteren Konvention, die nicht mehr verwendet wird. Die gezeigten Namen dienen lediglich als Beispiele.

Scheduling

  • hier den gewünschten, regelmäßigen Zeitpunkt, an dem der Harvester Job laufen soll, auswählen
  • alternativ: No Scheduling 


Screenshot: Name und Scheduling des Harvester Jobs in Rosetta


Job Parameters

  • Base URL: Adresse der OAI-Schnittstelle
  • anschließend auf Connect and Edit klicken
  • danach die gewünschten Sets per Drag & Drop oder Klick auf das Plus hinzufügen
    • wird kein Set ausgewählt, werden alle Sets geharvestet
  • Metadata Prefix: das gewünschte Metadatenformat auswählen
  • User Name und Password: nur nötig, wenn die OAI-Schnittstelle passwortgeschützt ist; hier sind nicht die Rosetta-Logindaten einzutragen
  • Ignore Last Run Time: 
    • ist standardmäßig deaktiviert und sollte i. d. R. nicht angeklickt werden, dann werden nur die seit dem letzten Harvest hinzugekommenen Metadaten geharvestet
      • dabei ist egal, ob die Daten nach Rosetta eingeliefert worden sind oder nicht, es geht nur um den Zeitpunkt des letzten Harvests
    • ist die Option angeklickt, werden alle Metadaten in den gewählten Sets erneut geharvestet
    • die Option gilt immer nur für den nächsten Harvester Job, danach wird sie automatisch wieder deaktiviert
  • Match:
    • die Option gibt an, ob Rosetta die zu harvestenden Metadaten auf Duplikate zu den im Permanent Storage gespeicherten IEs überprüfen soll
    • Empfehlung, um Duplikate zu vermeiden: OAI header id
    • sollen bewusst Duplikate erzeugt werden, ist die Option Do not match (Duplicate) auszuwählen
  • XSL File: das passende XSL File auswählen
  • Material Flow: den passenden Material Flow auswählen
  • Update Metadata Job: 
    • Option erscheint nur, wenn unter Match eine andere Option als Do not match (Duplicate) ausgewählt wurde
    • im Regelfall sollte hier Do not update ausgewählt werden


Screenshot: Job Parameters des Harvester Jobs in Rosetta


Test Area

  • hier kann die XSL Transformation getestet werden
  • Set: das gewünschte Set auswählen
  • Record:
    • First Record: der erste Record im Set
    • Random Record: ein zufälliger Record
    • By Identifier: den OAI Identifier aus dem OAI Header des gewünschten Records eingeben
  • Source Record: zeigt die Metadaten in der ursprünglichen Form des Quellsystems an
  • Transformed Record: zeigt die Metadaten nach der XSL-Transformation an
  • Match: gibt an, ob der Record bereits im Permanent Storage vorhanden ist oder nicht


Screenshot: Test Area des Harvester Jobs in Rosetta ohne Match


  • zu beachten ist, dass die unter Job Parameters vorgenommenen Konfigurationen hier ebenfalls greifen
    • es können nur die hinzugefügten Sets ausgewählt werden (ggf. ein Set hinzufügen und noch einmal auf Apply klicken)
    • die ausgewählten Match-Optionen greifen hier ebenfalls
      • Wenn ein Match bereits vorhanden ist, wird zwar Success angezeigt, das Feld Transformed Record bleibt aber leer.
      • Zusätzlich werden darunter die IE PIDs der Matches angegeben.
      • Die Option Ignore Last Runtime kann an dieser Stelle ebenfalls genutzt werden.


Screenshot: Test Area des Harvester Jobs in Rosetta mit Match


Warnhinweis

Bei mehrmaligem Nutzen der Test Area kann es vorkommen, dass eine Fehlermeldung erscheint. Dies ist ein bekannter Fehler, an dessen Behebung seitens Ex Libris gearbeitet wird.

Email Notification

  • hier kann ausgewählt werden, ob eine Email Benachrichtigung verschickt werden soll und ggf. eine Email-Adresse angegeben werden
  • die Optionen sind
    • ja
    • nein
    • On failure only (nur bei Fehlschlag)

Weiterführende Infos

Weitere Informationen zur Konfiguration des OAI Harvester Jobs finden Sie in der Rosetta Dokumentation

OAI-PMH Harvester





Nach dem Ausführen des OAI Harvester Jobs

Nach erfolgreichem Ausführen des Harvester Jobs müssen die Daten nach Rosetta übertragen werden, z. B. mittels eines Submission Jobs. Weitere Informationen dazu finden Sie auf der Seite Datenübertragung nach Rosetta.




  • Keine Stichwörter