Allgemeiner Hintergrund
Der Resolving- und Lookupdienst in culturegraph.org dient dem Zweck die Koreferenz verschiedener Titelsätze in den Verbundkatalogen und dem DNB-Katalog auszuweisen. Das zugrundeliegende Problem ist also: Wir haben mehrere Datensätze in verschiedenen Katalogen, die auf dieselbe FRBR-Manifestation bezugnehmen. Traditionellerweise werden solche Koreferenzen auch als Dubletten - in diesem Fall über mehrere Katalog verteilt - bezeichnet.
Auf der Seite Koreferenzen im Semantic Web werden eine allgemeine Darstellung des Problems und verschiedene Lösungsansätze im Semantic Web dargestellt. Hier soll es nun um das konkrete Problem der Koreferenz von Titeldatensätzen in verschiedenen Katalogen gehen.
Anwendungsfall: Koreferenz zwischen Titeleinträgen
Wir haben es beim vorliegenden Projekt mit Koreferenzen von Einträgen (Titelsätzen) in verschiedenen Verbundkatalogen zu tun, d.h. die verschiedenen Titelsätze nehmen auf dieselbe FRBR-Manifestation bezug. Diese Titelsätze werden in der Regel durch Nicht-URIs, nämlich durch lokale Identifikatoren wie z.B. "HT016136948" identifiziert. Man könnte also versuchen, Aussagen in RDF über Nicht-URIs machen, um Koreferenzen auszudrücken. Das Problem ist, dass RDF nicht erlaubt, Literale an Subjektposition eines Tripels zu setzen, um über sie Aussagen zu treffen.
Welche Möglichkeiten gibt es, um URIs für Titeldatensätze zu erhalten?
- HTTP-URIs oder Nicht-HTTP-URIs in einem beliebigen Namensraum prägen.
- HTTP-URIs im Namensraum culturegraph.org prägen.
- Eine mehr oder weniger permanente URL des Titeldatensatzes im Verbund-OPAC verwenden wie z.B. http://193.30.112.134/F?func=find-c&ccl_term=IDN%3DHT016136948 Frage: Gibt es für jeden Verbundkatalog die Möglichkeit, eine URL auf einzelne Datensätze bei Kenntnis der lokalen ID zu generieren? - Antwort: Ja, es sieht ganz danach aus.
Koreferenz & wdrs:describedby
Der Versuch, die Bundle-Ontologie auf das vorliegende Problem anzuwenden, hat sich als nicht zielführend erwiesen. Ein sinnvollerer und einfacherer Ansatz sieht so aus:
Wir nehmen möglichst persistente Links in die Verbund-OPACs, im Falle der Pica-Systeme sind dies etwa die im SWB- und GBV-Katalog implementierten "Zitierlinks" und verknüpfen die EKI-URI mit diesen Titeldatensätzen durch das Prädikat wdrs:describedby.
Durch eine einfache SPARQL-Abfrage lassen sich so zu einer EKI-URI alle Titelsätze aus den Verbundkatalogen zurückgeben, die die durch die EKI-URI identifizierte Ressource beschreiben:
PREFIX wdrs: <http://www.w3.org/2007/05/powder-s#>
SELECT ?x
WHERE { urn:nbn:de:eki/GBVNLM003525147 wdrs:describedby ?x . }
Das Problem der nicht garantierten Persistenz der OPAC-URLs ist nicht besonders schwerwiegend:
- Es geht uns ja in erster Linie darum, dass die EKI-URIs persistent sind.
- Die OPAC-URLs werden als Platzhalter genommen, um den Datensatz des Verbundkataloges zu identifizieren. Dies ist vielleicht nicht 100%ig korrekt aber pragmatisch, weil diese URIs dereferenzierbar sind, ohne dass in CG dafür Daten gespeichert werden müssen.
- Wir können im Triplestore beliebige Aussagen über die OPAC-URIs machen, um ihre Referenz auch bei Änderung der OPAC-URI klar zu machen, z.B. über seine Provenienz, den lokalen IDentifier etc. Das folgende - nicht ganz korrekte - Beispiel illustriert dies (siehe auch Vokabular fuer Identifikatoren):
@prefix dct: <http://purl.org/dc/terms/> . @prefix cg: <http://culturegraph.org/vocab/> . http://gso.gbv.de/DB=2.1/PPNSET?PPN=086051288 a cg:Titelsatz ; dct:source <http://lobid.org/organisation/DE-601> ; cg:localIdentifier "086051288" .
Nichtsdestotrotz könnte es in Zukunft sinnvoll sein, andere Bündelungen von Titelsätzen (auf Basis von Matchingalgorithmen) unter Nutzung der Bundle-Ontologie zu repräsentieren.

2 Kommentare
Daniel Schäfer sagt:
31.05.2011Hallo,
nachdem wir uns in CG-URIs and what they identify auf einige Punkte geeinigt haben wäre es hilfreich, diese Informationen auf diese Seite anzuwenden.
Wenn ich das richtig verstanden habe, haben wir jetzt eine Möglichkeit, HTTP URIs im Namensraum von culturegraph zu verwenden. (Siehe Abschnitt: "Welche Möglichkeiten gibt es, um URIs für Titeldatensätze zu erhalten?") Somit braucht man die URLs zu lokalen Katalogen an dieser Stelle nicht mehr.
Grüße,
Daniel
Adrian Pohl sagt:
02.08.2011Die HTTP-URIs in culturegraph.org identifizieren einen "Metadatensatz" (wie auch die EKI dies tut), der über verschiedene Kataloge verteilt vorliegt. Es geht aber hier darum URIs für Titeldatensätze in einem bestimmten Verbundkatalog zu prägen. So, wie der derzeitige culturegraph-Prototyp aussieht, ist aber eventuell angedacht in culturegraph.org einen URI für jeden Titeldatensatz in allen Verbundkatalogen zu prägen.