Teil 2: URLs zu digitalen Inhaltsverzeichnissen und Recherche-Eingrenzung nach Themengebieten

Seit knapp zwei Monaten können unsere Nutzer nun schon durch die Schlagworte aus den offenen Katalogdaten des BVB/KOBV (b3kat) unsere eigenen Medien besser finden. Bereits damals waren weitere Inhalte des b3kat in unseren Fokus gerückt:

Andere Anreicherungen können folgen, wie die digitalisierten Inhaltsverzeichnisse, Rezensionen oder auch weitere klassische Sacherschließungsmittel wie Klassifikationen. Allerdings gilt es hier noch zu überlegen, wie sich BK, RVK und ggf. DDC für den Endnutzer thematisch homogenisieren lassen, so dass dieser am Ende mit unzähligen Klassifikationssystemen nicht vollständig überfordert wird. Hier wäre die Festlegung auf ein System und eine Anreicherung anhand von Konkordanzen zu den anderen Systemen ein möglicher Weg.

Die Anreicherung mit den URLs zu digitalisierten Inhaltsverzeichnissen war schnell integriert und mit URLs zu insgesamt 1.095.499 verschiedenen ISBNs auch sehr reichhaltig. Die Homogenisierung verschiedener Sacherschließungs-Systeme (BK, RVK, usw.) war hingegen mit weitergehenden konzeptionellen Überlegungen verbunden. Als Zielsetzung für den Endnutzer sollte die neue Möglichkeit einer  Recherche-Eingrenzung auf wenige prägnante Fachgebiete entstehen.

Die Leit-Fragestellung für uns war:

Welche Titel einer Recherche nach dem Begriff „Java“ fallen z.B. in das Fachgebiet „Informatik“, welche in „Geographie (Naturwissenschaften)“, welche in „Ethnologie“, welche in „Sprachwissenschaften“ usw.?

Folgende Möglichkeiten zur Definition grober  Fachgebietesgruppen für die Titel haben sich angeboten:

Die Hauptgruppen der Basis-Klassifikation

In der ersten Ebene der BK sind das insgesamt immerhin 48 Fachgebiete mit einem entsprechenden Zuordnungsaufwand zu RVK, DDC usw.

vgl. http://kug.ub.uni-koeln.de/portal/kug/browse/bks.html?l=de

Eine vollständige Konkordanz mit allen Gruppen würde vom Aufwand her deutlich den angestrebten Nutzen übersteigen. Einen Vorgeschmack gibt Irene Rauners Masterarbeit „Erstellung einer Konkordanz zwischen BK (Basisklassifikation) und RVK (Regensburger Verbundklassifikation) für das Fachgebiet Germanistik“ aus dem Jahr 2010 bei der – nur für das Fachgebiet Germanistik – insgesamt 2397 Seiten mit Tabellen für die Konkordanz resultierten.

Die Hauptgruppen der Regensburger Verbundklassifikation RVK

Diese sind mit 33 Fachgebieten zwar deutlich weniger als die Hauptgruppen der BK, aber auch hier ist mit einem gewissen Aufwand zu rechnen, um Konkordanzen zu anderen Sacherschließungssystemen zu erarbeiten.

vgl. http://rvk.uni-regensburg.de/index.php?option=com_rvko&view=show&Itemid=53

Die Hauptklassen der Dewey-Dezimalklassifikation DDC

Diese 10 Klassen sind verglichen mit BK und RVK wiederum zu grob.

vgl. http://www.ddc-deutsch.de/Subsites/ddcdeutsch/DE/DDCprodukte/DDCuebersichten/ersteUebersicht.html

Die Themengebiete des KUG

Diese sind gröber als RVK und BK, aber genauer als die DDC und wurden von uns vor etlichen Jahren nach einer Analyse unserer sowie anderer Lesesaal-Aufstellungssystematiken erschaffen. Hier haben wir es lediglich mit 20 Fachgebieten zu tun. Das war auch ein zentrales „Design-Kriterium“ bei der Definition: Die Themengebiete sollten für die Endnutzer bewusst überschaubar sein – u.a. auch, da sie mit genau diesen Themengebieten selbst ihre Literaturlisten verknüpfen und somit fachlich einordnen können. Eine BK wäre hier für den Endnutzer zu komplex und würde von ihm damit effektiv nicht genutzt.

vgl. http://kug.ub.uni-koeln.de/portal/kug/browse/topics.html?l=de

Diese Suche nach einer geeigneten Ziel-Systematik für eine Vereinheitlichung betrifft alle Katalogbestände mit heterogener Sacherschließung,wie sie u.a. auch vom KOBV in seinem K2Blog thematisiert wird.

Nach verschiedenen Überlegungen und Gesprächen sowie technischen Erwägungen haben wir uns schließlich für die Themengebiete des KUG entschieden. Neben den schon angeführten Gründen (s.o.) haben diese insbesondere den nicht zu unterschätzenden Vorteil bei den Nutzern seit etlichen Jahren bekannt zu sein – die Nutzer werden also nicht mit etwas gänzlich neuem konfrontiert. Dazu kommt in der KUG-Administration die ebensolang vorhandene Funktion, beliebige dort hinterlegte Klassifikationssystem „unseren“ KUG-Themengebieten zuzuordnen und so einfach und schnell Konkordanzen zu erstellen. Konkordanzen zur BK, zu den EZB-Notationen (=RVK-Hauptgruppen) und DBIS-Fachnummern wurden damit bereits angelegt.

Konkordanzerstellung in der KUG-Administration

Der Weg von der RVK zu den KUG Themengebieten

Grundlage für eine fachliche Einordnung unserer Titel ist zunächst die RVK, die aus den b3kat-Daten mit dem Programm bvb_rvk2enrich.pl extrahiert wurde. Insgesamt kommen auf diese Weise  5.686.066  Informations-Tupel aus RVK und ISBN zusammen. Danach habe ich die RVK für die Integration in die KUG-Admistration thematisch auf ihre ersten beiden Buchstaben „eingeebnet“, vgl.

http://code.google.com/p/openbib/source/browse/trunk/portal/perl/conf/rvk.yml

Die Konkordanz selbst zu unseren KUG-Themengebieten war danach schnell in der KUG-Administration zusammengeklickt und umfasst nun insgesamt 488 Zuordnungen.

Dann wurden aus den RVK-Anreicherungsdaten durch Anpassung der internen Feldnummer sowie Austausch der RVK mit unserem jeweiligen KUG Themengebiet (mit der neuen Konkordanz im KUG und dem Programm rvk2topic.pl) neue Anreicherungsdaten, die in unsere Zentrale Anreicherungsdatenbank eingeladen werden konnten. Wesentlich war auch hier wieder das Konzept Zentrale Kataloganreicherung, da wir gleichzeitig alle unsere mehr als 150 einzelnen Kataloge automatisch und vor allem einheitlich mit den Informationen anreichern wollen.

Nach der turnusmäßigen nächtlichen Aktualisierung aller Kataloge und kleinen Anpassungen an den Ausgabetemplates zeigen alle Kataloge nun die von uns angestrebten Eingrenzungsmöglichkeiten für den Nutzer.

Dazu gehört eine neue Facette „nach Themengebiet“ – die namentlich den direkten Bezug zum Link Themengebiete neben dem Suchfeld herstellt – sowie eine direkte Eingrenzung auf die Themengebiete direkt in der erweiterten Suchmaske.

Ein gutes Beispiel ist die Recherche nach dem Begriff ‚Information‘ im Katalog des Instituts für Informatik:

http://kug.ub.uni-koeln.de/portal/inst526/search.html?l=de&num=20&page=1&srt=relevance_desc&st=1&fs=information&profile=386

Suche nach "Information" im Katalog der Informatik

Als wir mit der Umsetzung unserer Recherche-Eingrenzung fast fertig waren, stießen wir auf die Bachelor-Arbeit von Julian Frick, der sich bereits im Jahr 2011 mit der Konzeption einer fachlichen Facette für die UB Mannheim auseinandersetzte. Auch er hat – nach einer Analyse des Bestandsaufbaus der UB Mannheim – eigene Fachgebiete definiert, denen er dann RVK, SWD-Systematik und DNB Sachgruppen zuordnete. Mit den offenen Daten von SWB und DNB wären SWD-Systematik sowie DNB Sachgruppen auch noch eine Idee für uns bei Fremddatenanalysen. Insgesamt ist Fricks Bachelor-Arbeit eine ausführliche und sehr lohnenswerte Lektüre zu diesem Themenkomplex.

Neben der Verwendung offener Daten für die Zuordnung zu Themengebieten für eine Recherche-Eingrenzung gilt es auch die bereits in den einzelnen Katalogen des KUG vorhandenen Sacherschließungsinformationen heranzuziehen. Dazu gehören die wenigen Institutskataloge, die überhaupt eine klassifikatorische Sacherschließung machen (z.B. mit RVK und DDC) und  der Katalog der USB Köln, bei dem ein Nebeneinander aus der Basis-Klassifikation und Alt-Notationen besteht. Anhand dieser Informationen kann nun auch katalogweise eine Anreicherung mit KUG Themengebieten erfolgen.

Wie viele Titel konnten auf diese Weise nun aber konkret fachlich zugeordnet werden? Insgesamt sind die Anreicherungsquoten sehenswert. Wir haben diese exemplarisch für den Katalog der Informatik bestimmt, der vergleichsweise viele Titel neuerem Datums mit ISBN enthält. Bezogen auf alle ISBNs haben wir eine Anreicherungsquote mit KUG Themengebietsinformationen von knapp 86 Prozent erreichen können. Bezogen auf alle Titel des Katalogs kommen wir auf eine Anreicherungsquote von 71,5 Prozent, d.h. dieser Prozentsatz an Titeln konnte mit KUG Themengebieten angereichert werden. Bei Katalogen mit deutlich mehr Altbestand und daher ohne ISBN wird die Quote niedriger sein. Hier besteht jedoch die Möglichkeit in unserer Anreicherungsdatenbank anstelle der ISBN – Dank offener Katalogdaten – als Anreicherungs-Matchkey auf die BibKey-Basis (das ist die Zeichenkette vor der Hash-Bildung beim Bibkey) umzustellen.

Mit Schlagworten, URLs zu Inhaltsverzeichnissen und den Sacherschließungsinformationen in der RVK haben wir viele Informationen aus den offenen bibliographischen Daten des b3kat von BVB und KOBV nutzbringend im KUG verwenden können. Die Auswertung weiterer Daten steht an. Beginnend mit den extrahierten Daten des b3kat stellen wir die Einlade-Daten für unsere Anreicherungsdatenbank im JSON-Format für andere Interessierte auf dem Open Data Portal der USB Köln bereit. So bleibt ihnen die Wartezeit von knapp einer Woche für die eigene Analyse der b3kat-Daten erspart…

http://opendata.ub.uni-koeln.de/enrichment/

Update 3.10.2013:

Zusätzlich zur Anreicherung mit KUG Themengebieten durch die RVK des b3kat werden nun auch die in den Katalogen lokal vorhandenen Sacherschließungsinformationen herangezogen. Dazu werden zunächst die Klassifikationsdaten analysiert und dann die Titeldaten mit den dazugehörigen KUG Themengebieten erweitert. Im Falle des Katalogs der USB Köln umfasst das BK und Alt-Notationen, beim Katalog des Biozentrums wird die lokal vergebene RVK ausgewertet.