Page tree
Skip to end of metadata
Go to start of metadata

Hier finden sich Überlegungen zum Matching und Bündelung von Titeldaten und bibliographischen Ressourcen sowie zur Vergabe von CG-URIs.

1. Grundbegriffe

  • Eine bibliographische Ressource bezeichnet die Klasse jener Entitäten, in Bibliotheks- und Verbundkatalogen und anderen Recherchedatenbanken, in Bibliographien usw. beschrieben wird. Der Begriff der bibliographischen Ressource ist bewusst weit gewählt. Es kann sich um ein Exemplar, um eine Auflage, eine FRBR-Manifestation oder andere Entitäten handeln, um Monographien, Aufsätze, Blogbeiträge, Gedichte und andere Gattungstypen, um gebundene Print-Werke oder elektronische Dokumente, DRM-geschützt oder frei über HTTP abrufbar.
  • Eine bibliographische Beschreibung ist die Beschreibung einer bibliographischen Ressource. Eine bibliographische Beschreibung wird in der Bibliothekswelt auch als "Titeldatensatz" (engl. "record") bezeichnet.

2. Identifikation bibliographischer Ressourcen

Es gibt unzählige unterschiedliche Möglichkeiten eine bibliographische Ressource in der Menge sämtlicher bibliographischer Ressourcen zu identifizieren. Nicht immer spielen dabei Identifikatoren eine Rolle.

Beispiele:

  1. "Wittgensteins Tractatus"
  2. "das erste Hauptwerk des österreichischen Philosophen Ludwig Wittgenstein"
  3. "Das Buch, in dem Wittgenstein alle wesentlichen Probleme der Philosophie gelöst hat."
  4. "Wittgenstein, Ludwig (21; 89) Logisch-philosophische Abhandlung. Tractatus logico-philosophicus. Krit. Ed. Hrsg. v. B. McGuinness/ J. Schulte. Ffm." (siehe hier)
  5. Ludwig Wittgenstein: Tractatus logico-philosophicus, Logisch-philosophische Abhandlung. Suhrkamp, Frankfurt am Main 2003. ISBN 3-518-10012-2
  6. "ISBN 3-518-10012-2"
  7. "Das Buch, dessen Katalogeintrag folgende OCLC-Nummer hat: 174202788,."
  8. "Das hier beschriebene Buch."
  9. "Das hier beschrieben Buch." (Dies und die beiden vorherigen haben dieselbe ISBN)
  10. "Das Buch das an fünfter Stelle von links im Handapparat steht."
  11. "http://kug.ub.uni-koeln.de/portal/connector/permalink/inst001/145091/1/kug/index.html"
  12. http://lobid.org/resource/HT013351941
  13. "http://openlibrary.org/works/OL15680951W"
  14. "http://openlibrary.org/books/OL9050634M"
  15. "Tractatus logico-philosophicus with an introduction by Bertrand Russell. Published 1922 by Routledge & Kegan Paul in London ."
  16. http://www.amazon.de/dp/3518100122
  17. http://www.gutenberg.org/files/5740/5740-pdf.pdf
  18. http://people.umass.edu/klement/tlp/tlp.pdf
  19. Das Buch dessen bibliographische Beschreibung den BibSonomy-Interhash c39a1b93744c957f9098b1826bb2c2a9 hat.
  20. "Das dunkelblaue Buch dort auf dem Tisch."
  21. ...

Wird mit all diesen Aussagen dieselbe bibliographische Ressource identifiziert? Sicher wird jeweils in irgendeiner Form Wittgensteins Werk "Tractatus logico-philosophicus"/"Philosophische Abhandlung" identifiziert, allerdings handelt es sich manchmal

  • um ein Exemplar (10., 11. und 20.),
  • um mehrere Druckauflagen eines Suhrkamp-Taschenbuchs (6.),
  • um eine konkrete Druckauflage (4., 5., 8., 9., 12., 14., 15.) oder auch
  • um eine Menge verschiedener Auflagen unterschiedlicher Verlage und evtl. sogar in verschiedenen Übersetzungen (13.),
  • eine Übersetzung inklusive Vorwort als E-Book (17.),
  • den Originaltext und zwei verschiedene englische Übersetzungen in einem E-Book (18.).
  • Schließlich gibt es noch den unkonkreten Verweis auf so etwas wie ein "Werk" (1., 2., 3.).
  • Der 16. Fall ist etwas unklar, da eine Aussage wie "Auflage: 33 (7. Mai 1963)" ein Widerspruch in sich zu sein scheint.

Fakt ist: Es gibt nicht die Art, auf bibliographische Ressourcen Bezug zu nehmen, sie zu identifizieren. Manchmal identifiziert eine solche Bezugnahme eine konkrete Ressource (ein Exemplar), oft (in Bibliothekskatalogen und Bibliographien) aber eine Menge von Exemplaren. (Dies hängt mit der industriellen Produktion von Büchern zusammen, durch die echte Kopien von Büchern existieren und nicht nur Unikate, siehe auch Was wird katalogisiert?.) Und diese referenzierten Mengen können disjunkt sein, sich gegenseitig beinhalten oder überschneiden.

Die Standardfälle in Bibliothekskatalogen scheinen aber (in Bezug auf Printressourcen) zu sein (abgesehen von mehrbändigen Werken, Serien und Reihen, die hier behandelt werden):

  • Die Identifikation einer bestimmten Druckauflage.
  • Die Identifikation eines Exemplars.

3. Grundlage von Gleichheitsaussagen ist eine Praxis der Identifikation

Wenn ich Gleichheitsaussagen über irgendwelche Ressourcen mache, sollten diese Ressourcen zur selben Kategorie gehören, das heißt derselben Identifikationspraxis folgen. Ansonsten begehe ich einen Kategorienfehler.

So kann ich etwa korrekterweise sagen:

  • Die Extensionen von "das erste Hauptwerk des österreichischen Philosophen Ludwig Wittgenstein" und "Das Buch, in dem Wittgenstein alle wesentlichen Probleme der Philosophie gelöst hat." sind gleich.
  • Die Extensionen von "Das Buch mit der Signatur 11A687 der USB Köln" und "das im mittleren Regalfach ganz links stehende Buch" sind gleich.
  • ...

Allerdings ist es falsch zu sagen:

  • Die Extensionen von "das erste Hauptwerk des österreichischen Philosophen Ludwig Wittgenstein" und "Das Buch mit der Signatur 11A687 der USB Köln" sind gleich.
  • Die Extensionen von "ISBN 3-518-10012-2" und "Ludwig Wittgenstein: Tractatus logico-philosophicus, Logisch-philosophische Abhandlung. Suhrkamp, Frankfurt am Main 2003. ISBN 3-518-10012-2" sind gleich.
  • ...

4. Bibliographische Identifier

Wie hier beschrieben gibt es eine Vielzahl von Identifikatoren für bibliographische Ressourcen und deren Beschreibungen. Diese unterscheiden sich nicht nur darin, dass die einen (wie z.B. die ISBN oder die EKI-URI) eine bibliographische Ressource selbst identifizieren und die anderen (wie die DNB- oder OCLC-Nummer) nicht (siehe Abbildung), sondern auch darin, dass ihnen unterschiedliche Auffassungen/Definitionen bibliographischer Entitäten zugrundeliegen. Mit anderen Worten: Die Vergabepraxis bibliographischer Identifier ist uneinheitlich.

Während etwa dieselbe ISBN für mehrere Auflagen eines Buches in verschiedenen Jahren benutzt wird, falls es sich um eine unveränderte Neuauflage handelt, werden in der Katalogisierungspraxis der Bibliothekswelt diese Auflagen unterschieden, weshalb sie unterschiedliche Beschreibungen und diese wiederum unterschiedliche Identifikatoren bekommen. Auf der anderen Seite erhalten Hardcover und Taschenbuch mit demselben gedruckten Inhalten zwar unterschiedliche ISBNs aber nur einen Titeldatensatz.
Inwiefern sich andere Identifier unterscheiden und ob womöglich die angelsächsische und deutschsprachige Katalogisierungspraxis in dieser Hinsicht unterscheiden, ist mir (AP) allerdings unklar.

5. Der Culturegraph-Identifier

Innerhalb des Culturegraph-Projekts sollen "gemeinsame, globale Identifikatoren" (auch CG-URIs genannt) für bibliographische Ressourcen geprägt werden. Die grundlegende vorher zu beantwortende Frage lautet:

Welche Praxis der Identifikation bibliographischer Entitäten soll bei der Prägung von CG-URIs ihre Anwendung finden?

Da die Prägung von CG-URIs angelehnt ist an die Vergabe der sogenannten Erstkatalogisierungs-ID (EKI) zu Titeldatensätzen innerhalb deutscher Verbundkataloge, kann die Identifikation bibliographischer Entitäten in Culturegraph und damit die Vergabepraxis der CG-URIs nur die traditionelle deutsche (deutschsprachige?) Katalogisierungspraxis widerspiegeln und nicht etwa die ISBN-Vergabepraxis.

Das führt etwa dazu, dass die Extension der Menge, die durch einen CG-URI identifiziert werden, sich von der Extension der Menge unterscheidet, die durch eine ISBN identifiziert ist, wenn sich diese Mengen auch überschneiden mögen:

Frage: Sollen CG-URIs auch für Äquivalenzklassen verwendet werden, die nicht nur eine Dublettenzusammenführung darstellen, sondern die Zusammenführung nicht-dubletter Datensätze bspw. allein auf Basis der Autor- und Titelgleichheit?

6. Schlussfolgerung: Selbigkeit, Ähnlichkeit, Matching vs. Bündelung

Culturegraph basiert auf den Daten aus den Katalogen von Bibliotheksverbünden. Das heißt die dientifizierten bibliographischen Entitäten sind alle Produkt einer traditionellen Praxis der Identifizierung bibliographischer Ressourcen. Diese Identifikationspraxis bildet die Grundlage des gesamten Dienstes. Somit gehen alle weiteren Aktivitäten wie Dublettenbereinigung und Bündelung von dieser Form der Identifikation aus.

Es gibt zwei unterschiedliche Anwendungsfälle, die man als Matching- und Bündelungs-Anwendungsfall unterscheiden könnte, wobei ich unter Matching die Aussage der Identität der beschriebenen Ressource verstehe (also eine Art Dublettenbereinigung), während die Bündelung zurückhaltender ist und nur eine mehr oder weniger große Ähnlichkeit oder Verwandtschaft ausdrückt.

6.1. Der Matching-Anwendungsfall

So wie es ursprünglich konzipiert war, sollten ja zunächst Datensätze auf Basis der EKI-Äquivalenz gematcht werden. Ich halte EKI-Matches für zuverlässig im Sinne eine 100%igen Matches weil EKIs nicht-ambig sind. Zwar gibt es mehrere EKIs für verschiedene Beschreibungen derselben Resource, d.h. Ko-Referenz, EKI-Gleichheit heißt aber immer auch, dass es sich um Beschreibungen der identischen Resource im Sinne der üblichen Katalogisierungspraxis handelt.

Aufgrund dieser Nicht-Ambiguität und der Tatsache, dass die CG-URIs in Anlehnung an die EKI vergeben werden sollen, denke ich (AP), dass man über die Ressourcen, die durch Datensätze mit gleichen EKIs beschrieben werden, sagen kann: Sie sind dieselben, also owl:sameAs. Da wir für die bibliographischen Ressourcen aber momentan in der Regel keine URIs haben, müssen wir nicht owl:sameAs benutzen, sondern einfach die jeweilige CG-/EKI-URI durch wdrs:describedby mit den verschiedenen Titeldatensätzen verknüpfen. Das ist m.E. genug Bündelung für diesen Anwendungsfall. Siehe dazu Rdf-Repraesentation von Titelsatz-Matches.

6.2. Der Bündelungs-Anwendungsfall

Die Bündelung und damit die Bundle-Ontologie kommen erst ins Spiel, sobald wir aufgrund fehlender EKI-Gleichheit nicht behaupten können, dass etwas ein 100%iger Match im Sinne der traditionellen Katalogisierungspraxis ist. Hier kommen andere Gruppierungen ins Spiel, die deshalb - in Abhebung vom grundlegenden Fall einer EKI-Gleichheit - markiert werden müssen. Und zu diesem Zweck eignet sich die Bundle-Ontologie gut.

  • No labels