Teil 1: Schlagworte

Es ist nun schon knapp 4 Jahre her, seit wir begonnen haben, den KUG mit Schlagworten anzureichern. Damals war die Motivation eine Homogenität in der Sacherschließung der Kataloge untereinander sowie eine einheitlichere Auffindbarkeit von Titeln zu erreichen, die bis dato nicht existierte. Wir haben daher aus dem Bestand des USB-Katalogs und der knapp 140 Instituts-Kataloge alle vorhandenen Schlagworte in unsere Anreicherungsdatenbank eingespielt und dann jeden Titel in allen Katalogen mit den dort jeweils noch nicht vorkommenden Schlagworten angereichert – sowohl für die Anzeige, wie auch für die Recherche.

Während der Weiterentwicklung des KUG zu einer Ressourcen-orientierten Rechercheinfrastrukturlösung, die mit der Einführung von OpenBib 3 im Februar 2013 ihren Abschluss fand, fehlte uns leider die Zeit, um nennenswerte Erweiterungen im Bereich Kataloganreicherungen mit Sacherschließungsinformationen vorzunehmen.

Parallel zu unseren Umbauarbeiten haben sich aber gerade hier viele neue Möglickeiten durch die Veröffentlichung offener bibliographischer Daten ergeben. Nachdem das hbz im März 2010 u.a. mit uns den Anfang machte und inzwischen fast der gesamte Verbundkatalog – bis auf die wenigen Exklusiv-Bestände der gallischen Dörfer Paderborn und Düsseldorf – veröffentlicht wurde, haben BVB/KOBV, SWBDNB, ZDB und HeBIS mit ihren (Verbund-)Katalogen nachgezogen. Lediglich der GBV mit seinen Bibliotheken hat sich noch nicht zu einer Freigabe der Daten durchringen können.

Dennoch steht mit hbz, BVB/KOBV, SWB, DNB, ZDB und HeBIS ein riesiger Fundus an Informationen bereit, in dem es sich zu schürfen lohnt. Ein Beispiel ist die Extraktion von Links zu digitalisierten Inhaltsvezeichnissen oder zu Rezensionen, mit denen Katalogdaten angereichert werden können – wie es Thomas Berger mit http://beacon.findbuch.de/ in Form von SeeAlso-Diensten vormacht.

Für die Auffindbarkeit von Titel ist vor allem die Sacherschließung wichtig, so dass wir uns im KUG nun speziell diesem Bereich zugewandt haben. Als Basis haben wir uns die offenen bibliographischen Daten von BVB/KOBV genommen und dort mit unserem Programm  bvb_subjects2enrich.pl nach Schlagworten und ISBN’s gesucht. Die gefundenen Schlagworte werden zusammen mit der ISBN des Titels unmittelbar in unsere Anreicherungsdatenbank eingespielt. Zusätzlich werden die gefundenen Informationen auch noch in Form von JSON-Dateien abgespeichert, die wir bei Interesse ggf. für andere Projekte als Open Data bereitstellen können.

Die JSON-Daten sehen so aus:

{„content“:“Child“,“origin“:“24″,“subfield“:“a“,“isbn“:“9780521331630″,“field“:“4300″}
{„content“:“Cognition“,“origin“:“24″,“subfield“:“a“,“isbn“:“9780521331630″,“field“:“4300″}
{„content“:“Cognition in children“,“origin“:“24″,“subfield“:“a“,“isbn“:“9780521331630″,“field“:“4300″}
{„content“:“Infant“,“origin“:“24″,“subfield“:“a“,“isbn“:“9780521331630″,“field“:“4300″}
{„content“:“Psychologie du développement“,“origin“:“24″,“subfield“:“a“,“isbn“:“9780521331630″,“field“:“4300″}
{„content“:“Entwicklungspsychologie“,“origin“:“24″,“subfield“:“a“,“isbn“:“9780521331630″,“field“:“4300″}

Hierbei werden die ISBNs auf ISBN13 normiert. origin und field bezeichnen die Herkunft der Daten sowie die Feldnummer für angereicherte Schlagworte entsprechend des Wiki-Artikels Zentrale Kataloganreicherung. In subfield schließlich wird das MARC-Subfield aus den Ursprungsdaten konserviert, wobei wir nur die Subfelder a, x, y und z auswerten.

Sehr schön an den BVB-Schlagworten ist, dass sie mehrsprachig sind, was bei unseren selbst erfassten Schlagworten normalerweise nicht der Fall ist.

Der zu den o.g. JSON-Daten zugehörige Titel im USB-Katalog hat lediglich die Schlagworte  Piaget, Jean sowie Kognitive Entwicklung und kann so von der Schlagwort-Anreicherung profitieren.

Ein weiteres Beispiel ist der Titel Die Region als publizistische Aufgabe, der überhaupt keine Schlagworte enthält und einen noch höheren Nutzen aus der Anreicherung ziehen kann. Alle über die offenen Daten von BVB/KOBV angereicherten Schlagworte sind automatisch auch über unseren isbn2subjects SeeAlso-Dienst über die ISBN abrufbar, wie dieses Beispiel zeigt.

Schlagwortanreicherung mit offenen BVB-Daten

Schlagwortanreicherung mit offenen BVB-Daten

Insgesamt ergab die Analyse der 26 BVB-Dumps zusammen knapp 23 Millionen Informations-Tupel für die Anreicherung mit Schlagworten. Als nächstes wollen wir die offenen Daten anderer Verbünde analysieren. Da die Schlagworte des hbz durch die Versorgungsschnittstelle ohnehin bereits im USB-Katalog vorhanden sind und dessen Bestand sich mit dem der Institutskataloge in vielen Teilen überschneidet, wird eine Auswertung des hbz-Bestands nicht sonderlich ergiebig sein. Daher sind SWB und HeBIS sicherlich die lohnendsten nächsten Ziele für eine Anreicherung.

Mit diesen vielen neuen Schlagworten im Suchindex des KUG wird für den recherchierenden Endnutzer die Wahrscheinlichkeit deutlich erhöht, dass er mit seinen Suchbegriffen auch tatsächlich die thematisch zugehörigen Titel finden kann – die Öffnung der Daten in den Verbundkatalogen hat so einen unmittelbaren praktischen Nutzen gezeigt.

Andere Anreicherungen können folgen, wie die digitalisierten Inhaltsverzeichnisse, Rezensionen oder auch weitere klassische Sacherschließungsmittel wie Klassifikationen. Allerdings gilt es hier noch zu überlegen, wie sich BK, RVK und ggf. DDC für den Endnutzer thematisch homogenisieren lassen, so dass dieser am Ende mit unzähligen Klassifikationssystemen nicht vollständig überfordert wird. Hier wäre die Festlegung auf ein System und eine Anreicherung anhand von Konkordanzen zu den anderen Systemen ein möglicher Weg.

Update 26.9.2013:

Die aus den BVB-Dumps gewonnenen Informations-Tupel für eine Schlagwortanreicherung anhand der ISBN13 werden jetzt auf dem Open Data-Portal der USB Köln als Datei b3kat_subjects_20130508.json.gz für andere Interessierte zur Nachnutzung bereitgestellt.