Auf dieser Seite finden Sie

Kuratierung von Daten für die LZV

Datenkuratierung in der digitalen Langzeitverfügbarkeit

Um Daten bzw. Bestände langzeitverfügbar erhalten zu können, ist ihre Kuratierung hinsichtlich der digitalen Langzeitverfügbarkeit notwendig.
Die Daten müssen bezüglich ihrer LZV-Relevanz ausgewählt werden. Die Datenbeschaffenheit und -qualität muss unter dem Aspekt der LZV ebenso bedacht werden, wie die Kontextualisierung der Daten.
Diese Aufgaben sind Teil des LZV-Datenmanagements auf Seiten der bestandshaltenden Institution, bspw. einer Hochschulbibliothek, und sollten in den hochschuleigenen Systemen umgesetzt werden.

Datenauswahl für die digitale LZV

Die digitale Langzeitverfügbarkeit stellt die heute wahrscheinlichste Lösung dar, Daten trotz des technologischen Wandels auch zukünftig noch interpretieren und nachnutzen zu können. Sie ist daher eine dauerhafte Aufgabe, die weit in die Zukunft reicht. Daten, die in einem LZV-System liegen, bedürfen eines steten Risiko-Monitorings und entsprechender Erhaltungsmaßnahmen, sobald ein Risiko, bspw. Dateiformatobsoleszenz, eintritt. Zur Analyse und Auswahl der bestmöglichen Erhaltungsmaßnahmen ist die inhaltlich-fachliche Beurteilung der Daten notwendig, sinnvollerweise durch eine*n Kurator*in der bestandshaltenden Institution. Somit muss diese auch in der Zukunft Mitarbeitende für die Arbeit in der digitalen Langzeitverfügbarkeit einplanen und vorhalten, was mit Aufwand und Kosten verbunden ist.

Nicht alle digitalen Bestände sollten daher auch in einem LZV-System überwacht und geschützt werden. Vielmehr müssen die bestandshaltenden Institutionen gemeinsam mit den Datenersteller*innen Aufwand und Nutzen der Langzeitverfügbarkeit eines Datenbestands abwägen. Dazu ist es sinnvoll, zu fragen, wie einzigartig die jeweiligen Daten sind und wie aufwendig deren Erhebung/Erstellung ist bzw. war. Für die Einschätzung, welche Bestände langzeitverfügbar erhalten werden sollten, können verschiedene Fragestellungen herangezogen werden:

  • Sind die Daten von besonderem Interesse?
    • ja → hohe LZV-Relevanz
  • Für welche Zielgruppe(n) sollen Informationen langzeitverfügbar gehalten werden?
    • besonders vielfältige oder spezialisierte Zielgruppen → Indiz für hohe LZV-Relevanz
    • zukünftige Zielgruppe(n) (Designated Communities) mitdenken, nicht nur die aktuelle Primärzielgruppe
  • Können die Daten ohne Weiteres reproduziert werden?
    • nein → hohe LZV-Relevanz
  • Liegen die Daten unverschlüsselt vor?
    • nein → LZV nicht möglich

Datenbeschaffenheit und -qualität in der digitalen LZV

Um Nutzdaten langzeitverfügbar zu erhalten, ist die Beschaffenheit und Qualität der Objekte von entscheidender Bedeutung. Grundsätzlich gilt, dass die Beschaffenheit von Daten möglichst früh in ihrem Entstehungsprozess optimiert werden sollte, um die Objekte sauber in weitere Zielsysteme überführen und langfristig erhalten zu können.

Folgende Fragestellungen helfen, vorhandene und sich in Entstehung befindende Datenbestände bezüglich ihrer Datenqualität einzuschätzen:

  • Sind die Daten wohlgeformt und valide?
  • In welchen Dateiformaten liegen die Nutzdaten vor, z. B. in langzeitstabilen Formaten?
  • Sind formal notwendige Vorgaben der Dateibezeichnung eingehalten?
  • Wie und durch wen wird die Datenbeschaffenheit und -qualität ggfs. kontrolliert?

Auf einer der folgenden Seiten sind weiterführende Erläuterungen und Empfehlungen unsererseits zusammengefasst, die dabei helfen sollen, Antworten auf diese Fragestellungen zu ermitteln.




Gut zu wissen

Eine Einschätzung, welche Dateiformate sich zur Langzeitverfügbarkeit eignen, hält die von uns erstellte Interaktive Tafel gängiger Dateiformate bereit. Auch eine Auswahl relevanter Quellen zu Dateiformaten und ihren Eigenschaften findet sich dort.




Datenkontextualisierung für die digitale LZV

Nutzdaten benötigen Kontextinformationen, also erklärende, einordnende Metadaten. Oftmals werden Nutzdaten, also Datenobjekte bzw. -bestände, erst mit Hilfe der Metadaten für andere Personen(kreise) interpretier- und nachnutzbar. Datenersteller*innen sollten sowohl den Hintergrund, Sinn und Zweck ihrer Datenerhebung und Auswertung beschreiben, als auch die einzelnen Datenobjekte mit erklärenden Metadaten versehen. 

Bereits zu Beginn des Daten-Lebenszyklus sollte die Frage der Nachnutzung und Langzeitverfügbarkeit mitgedacht werden. Dazu ist es notwendig die zukünftigen Zielgruppen, die sog. Designated Communities, und mögliche Nutzungsszenarien in den Blick zu nehmen. In der Zukunft können sich weitere Nutzungsszenarien ergeben, die bei der Entstehung der Daten noch nicht im Fokus waren. Daher ist es notwendig, über den Tellerrand hinaus zu schauen und zu fragen, welche anderen wissenschaftlichen Disziplinen zukünftig noch mit diesen Daten arbeiten und welche Kontextinformationen dann eventuell benötigt werden könnten.

Vor diesem Hintergrund ist auch das grundsätzliche Bestreben zu verstehen, die Daten so ausführlich wie möglich zu beschreiben. Die Frage nach der Metadatenqualität kann somit folgendermaßen konkretisiert werden:

  • Werden vorhandene Metadaten- bzw. Dokumentationsstandards verwendet und falls ja, welche?
  • Sind die Daten durch ausreichende Beschreibung sinnvoll nachnutzbar?
  • Müssen weitere Metadaten ergänzt werden - auch zwecks Kontextualisierung?
  • Sind die notwendigen Rechteinformationen enthalten, um eine Nachnutzung und zukünftige Kuratierung zu gewährleisten?
  • Wie und durch wen wird die Metadatenqualität ggfs. kontrolliert?

Auf einer der folgenden Seiten sind weiterführende Erläuterungen und Empfehlungen unsererseits zusammengefasst, die dabei helfen sollen, Antworten auf diese Fragestellungen zu ermitteln.




Gut zu wissen

Gemeinsam mit anderen LZV-Initiativen haben wir Empfehlungen zu Dateiformaten und Metadaten im Kontext LZV erarbeitet. Dieser im Rahmen der Arbeitsgemeinschaft KoopLZV entstandene Leitfaden ist veröffentlicht unter: https://zenodo.org/records/15464101




  • Keine Stichwörter