- Erstellt von Silke Tölle , zuletzt aktualisiert am 28.11.2025 Lesedauer: 4 Minute(n)
Datenqualität bei maschinellen Einspielungen
Generell kommen bei der Einspielung von Metadaten zu E-Book-Paketen zwei Qualitätsstandards zum Einsatz:
- Der Qualitätsstand "Q1" orientiert sich an den "Anforderungen der deutschsprachigen Verbundsysteme und der Deutschen Nationalbibliothek an Metadatenlieferungen zu E-Books und E-Book-Paketen".
- Verlage werden vor einer Lieferung generell gebeten, Daten möglichst umfassend zu liefern.
- Unter Umständen fehlen bestimmte, gewünschte Felder. Dies wird jeweils in der entsprechenden Umfrage vor der maschinellen Einspielung vermerkt.
Eine Hochkatalogisierung wird nach derzeitigem Stand der Geschäftsgangsregelungen generell nicht vorgenommen, eine Ausnahme ist nach Absprache in besonders relevanten Fällen (z.B. fehlenden Personennamen) möglich (z.B. aktuell bei DOAB-Titeln).
- Der Qualitätsstandard Q2 umfasst mindestens die absolut notwendigen Felder (IDs, ISBN, Titel, URL)
- Sollten Metadaten nicht dem Standard Q1 entsprechen, wird geprüft, ob die Metadaten zumindest dem abgesenkten Mindeststandard Q2 entsprechen
- Sollten die Metadaten dem Mindeststandard Q2 entsprechen, werden die Daten eingespielt und Nachbesserungen vom Lieferanten angefordert
- Wenn dies keinen Erfolg hat, kann ggf. eine manuelle Datenverbesserung in Absprache mit dem hbz durch Hochkatalogisierung erfolgen (Anfrage an ebooks@hbz-nrw.de)
Feldbegrenzungen
Die maximale Länge der Felder beträgt 32.000 Zeichen/Bytes.
Standards Datenqualität
Q1-Standard
In den "Anforderungen der deutschsprachigen Verbundsysteme und der Deutschen Nationalbibliothek an Metadatenlieferungen zu E-Books und E-Book-Paketen" wird ein Kernset von Metadaten-Elementen in den Formaten MARC21 und ONIX definiert und Modalitäten zur Datenlieferung beschrieben. Verlage werden vor einer Lieferung generell gebeten, Daten entsprechend diesem Kernset zu liefern.
Für von den Verlagen gelieferte Daten gilt aber grundsätzlich, wie auch für die Dateneinspielungen zu Nationallizenzen, dass die Daten i.d.R. 1:1 übernommen werden, falls die Daten mindestens dem Mindesstandard Q2 (s.u.) entsprechen.
Soweit dies maschinell möglich und nicht zu aufwändig ist, werden dabei in bestimmten Feldern die hbz-Standards (welche dem o.g. Kernset weitestgehend entsprechen) generiert.
Q2-Standard
008# | MARC21 | Feldbenennung | o = obligatorisch wz = falls vorhanden, soll es in den Daten enthalten sein | Bemerkungen | |
|---|---|---|---|---|---|
| 1 | 001 (NR) | Control Number | o | Identifikationsnummern (ID) werden i.d.R. in MARC21-Feld 001 geliefert. Die ID darf 255 Zeichen/Bytes nicht überschreiten. Dies gilt unabhängig davon, in welchem Feld sie geliefert wird, also auch dann, wenn sie abweichend in MARC21-Feld 035 geliefert wird. | |
| 2 | 007 (W) | Codierung für elektronische Ressourcen | o | nur Pos. 0 + 1 werden besetzt bei "normalen" ebooks: 007, Pos. 0-1 = cr bei Videos: 007, Pos. 0-1 = cr | |
| 3 | 008 (NR) | Pos. 00-05 Datum der Ersterfassung Pos. 07-10 Erscheinungsjahr Pos. 18-20 Sprachencode | o | 008 sollte dem u.g. Beispiel entsprechen, wobei die Pos. 0-5 und 7-10 (|||| kann geduldet werden) und 35-37 mit den jeweils für den Satz gültigen Daten belegt sein müssen und Pos. 23 immer "o" lauten muss
bei Videos: 008, Pos. 29 = o | |
| 4 | 020 (R) $a - ISBN ohne Bindestriche (NR) $9 - ISBN mit Bindestriche (NR) $c - Einbandart, Preis, ... (NR) | International Standard Book Number | o |
| |
| 5 | 245 (NR) $a - Titel (NR) | Title Statement | o | alle anderen Unterfelder wie z.B. $b - Zusatz zum Titel (NR) können geliefert werden, sind aber nicht obligatorisch | |
| 6 | 264 (R) (bzw. früher 260) Unterfelder: $c - Date of production, publication, distribution, manufacture, or copyright notice (R) | Production, Publication, Distribution, Manufacture, and Copyright Notice | o (für $c) | ||
| 7 | 856 (R) Erster Indikator - Zugriffsart # - nicht definiert 0 - Email 1 - FTP 2 - Remote login, Fernzugriff 3 - Dial-up 4 - HTTP 7 - In $2 spezifizierte Zugriffsmethode (von DNB nicht verwendet?) Zweiter Indikator - Beziehung # - nicht definiert 0 - Ressource / Dokument 1 - Version der Ressource / des Dokuments (wir nicht von DNB genutzt) 2 - Hinweis auf eine andere Ressource / ein anderes Dokument 8 - No display constant generated (wird nicht von DNB genutzt) Unterfelder: $2 - Zugriffsmethode (NR) $3 - Bezugswerk (NR) $6 - Verknüpfung (NR) (wird nicht von DNB genutzt) $8 - Link und Sequenznummer (R) (wird nicht von DNB genutzt) $a - Hostname (R) $b - Zugriffsnummer (R) $c - Art der Komprimierung (R) $d - Zugriffspfad für eine Datei (R) $f - Elektronischer Name der Datei im Verzeichnis des Host (R) $h Durchführende Stelle einer Anfrage (NR) $i - Anweisung für die Ausführung einer Anfrage (R) $j - Datenübertragungsrate (NR) $k - Passwort (NR) $l - Logon/Login-Angabe (NR) $m - Kontaktperson/Quelle (R) $n - Standort des Hosts (NR) $o - Betriebssystem des Host (NR) $p - Port (NR) $q - Elektronischer Dateiformattyp (NR) $r - Einstellungen für die Dateiübertragung (NR) $s - Dateigröße (R) $t - Unterstützte Termina- Emulation / Zugriffsmethode (R) $u - Uniform Resource Identifier (R) $v - Zugriffszeiten (R) $w - Identifikationsnummer des verknüpften Datensatzes (R) $x - Interne Anmerkungen /URL-Herkunftszeichen (R) $y - Link-Text (R) $z - Allgemeine Anmerkungen/Kennzeichnung kostenfreier Online-Ressourcen (R) | Electronic Location and Access | o | Es muss sich um eine bibliografische URL handeln. | |
| 8 | 912 | Produktsigel | wz | Das Feld ist für die Einspielung obligatorisch, wird aber i.d.R. für eine Kollektion durch das hbz ergänzt. |
Standardmäßige Ergänzungen seitens des hbz
MARC | Beschreibung | Inhalt | Anmerkungen |
|---|---|---|---|
| 008, Pos. 0-5 | Erstellungsdatum Verlag | nur, falls notwendig, dann standardmäßige Belegung der Positionen, d.h. nicht zum jeweiligen Titel passend | |
| 300 __ $a | Physical Description | Standardwert falls nicht vh.: 1 Online-Ressource | |
| 336 __ $b | Inhaltstyp | txt | Preprocessing |
| 337 __ $b | Medientyp | c | Preprocessing |
| 338 __ $b | Datenträgertyp | cr | Preprocessing |
| 962__ $a | Produktsigel + andere Kennzeichen: |
|
|
Übersicht über Formate, Ablageort etc.
Eine Übersicht über unterstützte Formate, Zeichensätze etc. sowie die Möglichkeit Daten zu übermitteln, finden Sie auf der Seite "Formate, Ablageort etc. bei Datenlieferung - Übersicht".
Verfahren
Sobald die Daten vorliegen, werden die üblichen Plausibiltätsprüfungen gemacht. Anhand dieser Angaben wird geprüft, ob die technisch notwendigen Felder (korrekt) enthalten sind.
Es folgt die Analyse entsprechend dem bisher üblichen Qualitätsstandard (= Q1).
Sollten es problemlos innerhalb von 2-3 Tagen möglich sein, dass mit einfachen Pre- und Postprecessings (die es idealerweise bereits gibt), die Daten so aufbereitet werden können, dass sie Q1 entsprechen, wird dies entsprechend umgesetzt.
Sollten die Daten nicht dem Q1-Standard entsprechen und auch nicht problemlos darauf angehoben werden, bleiben sie im Q2-Standard.
Sofern sie auch nicht dem Q2-Standard entsprechen, müssen sie manuell erfasst werden.
- Keine Stichwörter