Diese Seite beschreibt die verschiedenen Standards der ebook-Metadaten und den Umgang damit.
Verbunddienste
E-Books

Datenqualität bei maschinellen Einspielungen

Generell kommen bei der Einspielung von Metadaten zu E-Book-Paketen zwei Qualitätsstandards zum Einsatz:

  • Der Qualitätsstand "Q1" orientiert sich an den "Anforderungen der deutschsprachigen Verbundsysteme und der Deutschen Nationalbibliothek an Metadatenlieferungen zu E-Books und E-Book-Paketen".
    • Verlage werden vor einer Lieferung generell gebeten, Daten möglichst umfassend zu liefern.
    • Unter Umständen fehlen bestimmte, gewünschte Felder. Dies wird jeweils in der entsprechenden Umfrage vor der maschinellen Einspielung vermerkt.
      Eine Hochkatalogisierung wird nach derzeitigem Stand der Geschäftsgangsregelungen generell nicht vorgenommen, eine Ausnahme ist nach Absprache in besonders relevanten Fällen (z.B. fehlenden Personennamen) möglich (z.B. aktuell bei DOAB-Titeln).
  • Der Qualitätsstandard Q2 umfasst mindestens die absolut notwendigen Felder (IDs, ISBN, Titel, URL)
    • Sollten Metadaten nicht dem Standard Q1 entsprechen, wird geprüft, ob die Metadaten zumindest dem abgesenkten Mindeststandard Q2 entsprechen
    • Sollten die Metadaten dem Mindeststandard Q2 entsprechen, werden die Daten eingespielt und Nachbesserungen vom Lieferanten angefordert
    • Wenn dies keinen Erfolg hat, kann ggf. eine manuelle Datenverbesserung in Absprache mit dem hbz durch Hochkatalogisierung erfolgen (Anfrage an ebooks@hbz-nrw.de)


Feldbegrenzungen

Die maximale Länge der Felder beträgt 32.000 Zeichen/Bytes. 


Standards Datenqualität

Q1-Standard

In den "Anforderungen der deutschsprachigen Verbundsysteme und der Deutschen Nationalbibliothek an Metadatenlieferungen zu E-Books und E-Book-Paketen" wird ein Kernset von Metadaten-Elementen in den Formaten MARC21 und ONIX definiert und Modalitäten zur Datenlieferung beschrieben. Verlage werden vor einer Lieferung generell gebeten, Daten entsprechend diesem Kernset zu liefern.

Für von den Verlagen gelieferte Daten gilt aber grundsätzlich, wie auch für die Dateneinspielungen zu Nationallizenzen, dass die Daten i.d.R. 1:1 übernommen werden, falls die Daten mindestens dem Mindesstandard Q2 (s.u.) entsprechen. 

Soweit dies maschinell möglich und nicht zu aufwändig ist, werden dabei in bestimmten Feldern die hbz-Standards (welche dem o.g. Kernset weitestgehend entsprechen) generiert. 

 Q2-Standard

008

#

MARC21

Feldbenennung

o = obligatorisch

wz = falls vorhanden, soll es in den Daten enthalten sein

Bemerkungen

1001 (NR)Control NumberoIdentifikationsnummern (ID) werden i.d.R. in MARC21-Feld 001 geliefert. Die ID darf 255 Zeichen/Bytes nicht überschreiten. Dies gilt unabhängig davon, in welchem Feld  sie geliefert wird, also auch dann, wenn sie abweichend in MARC21-Feld 035 geliefert wird.
2007 (W)

Codierung für elektronische Ressourcen

o

nur Pos. 0 + 1 werden besetzt

bei "normalen" ebooks:

007, Pos. 0-1 = cr

bei Videos:

007, Pos. 0-1 = cr
007, Pos. 0-1 = vd oder vz

3008 (NR)

Pos. 00-05 Datum der Ersterfassung

Pos. 07-10 Erscheinungsjahr

Pos. 18-20 Sprachencode

o

008 sollte dem u.g. Beispiel entsprechen, wobei die Pos. 0-5 und 7-10 (|||| kann geduldet werden) und  35-37 mit den jeweils für den Satz gültigen Daten belegt sein müssen und Pos. 23 immer "o" lauten muss

230515s2022####gw#|####o####||||#0|ger#c

 bei Videos: 

008, Pos. 29 = o

4020 (R)
$a - ISBN ohne Bindestriche (NR)
$9 - ISBN mit Bindestriche (NR)
$c - Einbandart, Preis,
... (NR)
International Standard Book Number  o


- Datensätze, deren Felder die Längenbegrenzung überschreiten, werden entfernt.


5

245 (NR)

$a - Titel (NR)

Title Statementoalle anderen Unterfelder wie z.B. $b - Zusatz zum Titel (NR) können geliefert werden, sind aber nicht obligatorisch
6

264 (R) (bzw. früher 260)
First Indicator - Sequence of statements
# - Not applicable/No information provided/Earliest
2 - Intervening
3 - Current/Latest
Second Indicator- Function of entity
0 - Production
1 - Publication
2 - Vertrieb
3 - Herstellung
4 - Copyright-Datum

Unterfelder:

$c - Date of production, publication, distribution, manufacture, or copyright notice (R)

Production, Publication, Distribution, Manufacture, and Copyright Noticeo (für $c)
7856  (R)

Erster Indikator - Zugriffsart
# - nicht definiert
0 - Email
1 - FTP
2 - Remote login, Fernzugriff
3 - Dial-up
4 - HTTP
7 - In $2 spezifizierte Zugriffsmethode (von DNB nicht verwendet?)

Zweiter Indikator - Beziehung
# - nicht definiert
0 - Ressource / Dokument
1 - Version der Ressource / des Dokuments (wir nicht von DNB genutzt)
2 - Hinweis auf eine andere Ressource / ein anderes Dokument
8 -   No display constant generated (wird nicht von DNB genutzt)

Unterfelder:
$2 - Zugriffsmethode (NR)
$3 - Bezugswerk (NR)
$6 - Verknüpfung (NR) (wird nicht von DNB genutzt)
$8 - Link und Sequenznummer (R) (wird nicht von DNB genutzt)
$a - Hostname (R)
$b - Zugriffsnummer (R)
$c - Art der Komprimierung (R)
$d - Zugriffspfad für eine
Datei (R)
$f - Elektronischer Name
der Datei im
Verzeichnis des Host (R)
$h Durchführende Stelle
einer Anfrage (NR)
$i - Anweisung für die
Ausführung einer
Anfrage (R)
$j - Datenübertragungsrate (NR)
$k - Passwort (NR)
$l - Logon/Login-Angabe (NR)
$m - Kontaktperson/Quelle (R)
$n - Standort des Hosts (NR)
$o - Betriebssystem des
Host (NR)
$p - Port (NR)
$q - Elektronischer
Dateiformattyp (NR)
$r - Einstellungen für die
Dateiübertragung (NR)
$s - Dateigröße (R)
$t - Unterstützte Termina-
Emulation / Zugriffsmethode (R)
$u - Uniform Resource
Identifier (R)
$v - Zugriffszeiten (R)
$w - Identifikationsnummer
des verknüpften
Datensatzes (R)
$x - Interne Anmerkungen /URL-Herkunftszeichen (R)
$y - Link-Text (R)
$z - Allgemeine
Anmerkungen/Kennzeichnung kostenfreier Online-Ressourcen (R)
Electronic Location and AccessoEs muss sich um eine bibliografische URL handeln.
8912ProduktsigelwzDas Feld ist für die Einspielung obligatorisch, wird aber i.d.R. für eine Kollektion durch das hbz ergänzt.

Standardmäßige Ergänzungen seitens des hbz

MARC

Beschreibung

Inhalt

Anmerkungen

008, Pos. 0-5Erstellungsdatum Verlag nur, falls notwendig, dann standardmäßige Belegung der Positionen, d.h. nicht zum jeweiligen Titel passend
300    __ $aPhysical Description 

Standardwert falls nicht vh.:

1 Online-Ressource   

 
336 __ $bInhaltstyptxtPreprocessing
337 __ $b

Medientyp

c

Preprocessing

338 __ $bDatenträgertypcr

Preprocessing

962__ $a

Produktsigel + andere Kennzeichen:
alle Kennzeichen aus E-Book-Verfahren + Digitalisate

 

 


Übersicht über Formate, Ablageort etc.

Eine Übersicht über unterstützte Formate, Zeichensätze etc. sowie die Möglichkeit Daten zu übermitteln, finden Sie auf der Seite "Formate, Ablageort etc. bei Datenlieferung - Übersicht".


Verfahren 

Sobald die Daten vorliegen, werden die üblichen Plausibiltätsprüfungen gemacht. Anhand dieser Angaben wird geprüft, ob die technisch notwendigen Felder (korrekt) enthalten sind.

Es folgt die Analyse entsprechend dem bisher üblichen Qualitätsstandard (= Q1).

Sollten es problemlos innerhalb von 2-3 Tagen möglich sein, dass mit einfachen Pre- und Postprecessings (die es idealerweise bereits gibt), die Daten so aufbereitet werden können, dass sie Q1 entsprechen, wird dies entsprechend umgesetzt.

Sollten die Daten nicht dem Q1-Standard entsprechen und auch nicht problemlos darauf angehoben werden, bleiben sie im Q2-Standard.

Sofern sie auch nicht dem Q2-Standard entsprechen, müssen sie manuell erfasst werden.


  • Keine Stichwörter