Die Qualität der Daten zu Kulturgütern ist entscheidend für deren Zugänglichkeit und spätere Nutzung. Dies gilt für alle Datenanbieter, insbesondere aber für gemeinsame Plattformen wie die Deutsche Digitale Bibliothek (DDB) und das Graphikportal sowie für die wachsenden Datensammlungen der NFDI-Konsortien, wie beispielsweise NFDI4Culture und Text+. Oftmals entsprechen die zu integrierenden Daten nicht den Qualitätsanforderungen der Zielsysteme. Vor der Integration müssen die Daten analysiert und gegebenenfalls angepasst werden. Die Definition der Datenqualität (DQ) erfordert jedoch fundierte Fachkenntnisse, technisches Know-how (z. B. Abfragesprachen) und die Koordination zwischen Fachexperten, Dateningenieuren und Datenmodellspezialisten. Infolgedessen sind Fachexperten oft nicht in der Lage, die Qualitätssicherung selbstständig zu definieren und umzusetzen.

Das Ziel dieses Projekts ist die Entwicklung eines Workflows, mit dem Fachexperten unabhängig von ihren technischen Kenntnissen die DQ bewerten können. Das Herzstück bildet Constrainify, eine Open-Source-Webanwendung, die einen agilen, eigenständigen QA-Prozess unterstützt. Sie kann in bestehende Pipelines integriert oder unabhängig verwendet werden. Constrainify ermöglicht es Fachexperten, Qualitätsanforderungen in kontrollierter natürlicher Sprache zu spezifizieren, wodurch der Bedarf an technischem Wissen minimiert wird. Der Ansatz zur Qualitätsanalyse baut auf den Ergebnissen von KONDA und MQAF (verwendet von Europeana und DDB) auf und wandelt Beschränkungen in natürlicher Sprache in maschinenlesbare Abfragen um.

Anwendungsfälle umfassen die Qualitätssicherung von LIDO-Daten für die Integration in die DDB und das Graphikportal sowie TEI-Header-Daten im TextGrid-Repository. Die Evaluierung des Ansatzes ist in die NFDI-Konsortien NFDI4Culture und Text+ eingebettet. Da der Ansatz unabhängig von spezifischen Datenformaten und Technologien ist und somit generisch ist, kann er auf die Datenqualitätssicherung in anderen Domänen angewendet werden.

Projektziele

  1. Entwicklung eines Prozesses zur agilen Qualitätssicherung von Daten des kulturellen Erbes im Kontext von Datenintegrationsprozessen.
  2. Entwicklung einer Software für eine benutzerfreundliche, domänenspezifische Qualitätssicherung auf Basis der im KONDA-Projekt und MQAF entwickelten Software. Dadurch können Fachexperten domänenspezifische Qualitätssicherung unabhängig definieren und durchführen.
  3. Evaluierung des Prozesses und der unterstützenden Software für die Qualitätssicherung unter Verwendung von (1) LIDO-Daten für die Integration in die Deutsche Digitale Bibliothek (DDB), (2) LIDO-Daten für die Integration in das Graphikportal und (3) TEI-Header-Daten im TextGrid-Repository.

Die Rolle der GWDG

Die GWDG und die Philipps-Universität Marburg entwickeln gemeinsam den Prozess und die Software für die fachspezifische Qualitätssicherung. Darüber hinaus stellt die GWDG die technische Infrastruktur für die Softwareentwicklung bereit.

Projekt Partner

Staats- und Universitätsbibliothek Göttingen (bis 2024) Philipps-Universität Marburg Verbundzentrale des GBV (VZG) (seit 2025)

Projektlogo

Kontakt

E-Mail

Laufzeit

01.11.2025 - 30.10.2025

Webseite

Constrainify Code Repository Constrainify Demo