OpenBibBlog

Das Blog zu OpenBib und OPAC 2.0
Optionen:

Nachdem vor knapp 2 Wochen Rudolf Mumenthaler im Bibliotheksdienst das Fehlen von offenen E-Books in vielen Bibliothekskatalogen monierte und den möglichen Ursachen nachging, haben wir uns einem Bereich zugewandt, bei dem es noch viel düsterer aussieht – der Integration von offenen Lern- und Lehrmaterialien, den Open Educational Resources (OER). Ähnlich wie bei den offenen E-Books existieren zwar inzwischen verschiedene Aggregationsplattformen wie z.B. OERCommons, aber leider stellen diese ihre Metadaten meist nicht offen ins Netz, so dass diese auch nicht geharvestet und in eigene Recherche-Infrastrukturen der Bibliotheken integriert werden können.

Gerade die Bereitstellung der Metadaten ist aber eine wesentliche Voraussetzung dafür, dass die unzähligen über den Globus verteilten Vorlesungs-Materialien auch überall gefunden werden. Hier müssen die OER-Plattformen mit dem Fehlen von Synchronisierungsmechanismen wie OAI-Schnittstellen oder bibliothekarischen Standard-Datenformaten im Vergleich zu den klassischen OpenAccess-Materialen (Hochschulschriften, Institutional Repositories, Pre-Print-Server) noch massiv aufholen. Die Dezentralität von Resourcen wurde im klassischen OA-Bereich bereits vor vielen Jahren gemeistert. So ist eine Aggregation aller vorhandenen OERs in dem Umfang wie es BASE bei klassischen OpenAccess-Materialien macht, im Moment geradezu utopisch.

Der Weg der OERs in die lokalen Recherche-Infrastrukturen ist derzeit also noch etwas steinig. Dennoch gibt es auch bereits jetzt pragmatische Lösungen, um einzelne ausgewählten OER-Bestände zu integrieren – vorausgesetzt, die Metadaten sind verfügbar.

Einzelne Plattformen

Als Aggregator stellt das OpenCourseWare Consortium seine Daten sowohl über eine eigenes API wie auch über eine Excel-Tabelle bereit. Diese Daten sind grundsätzlich brauchbar, auch wenn im Bereich der Personenerfassung klassische Fehler ausgemacht werden können (keine einheitliche Ansetzungsform, Ansetzungsformen verschiedener Personen mit Komma getrennt).

Alternativ steht auch ein RDF-Abzug im Turtle-Format samt SPARQL-Endpoint auf datahub.io bereit - dort sind Personen aber z.T. ins Nichts verlinkt, so dass die regelmäßig aktualisierte Excel-Tabelle hier ganz klar vorzuzuiehen ist. Für den KUG wurde die Excel-Tabelle zunächst mit LibreOffice in eine CSV-Datei umgewandelt und dann mit einer geeigneten Parametrisierung für das Programm simplecsv2meta.pl in einen eigenen KUG-Katalog geladen.

Eine weitere Plattform mit API ist die Khan Academy. Für die Erkundung des API’s wird neben einer Dokumentation eigens ein API-Explorer bereitgestellt. Für eine Integration bietet sich hier insbesondere der topictree-Call an, mit dem sämtliche Inhalte in einer hierarchischen Struktur heruntergeladen werden können. Für die JSON-Inhalten des topictree-Calls haben wir ein eigenes Konvertierungsprogramm und eine Parametrisierung erstellt.

YouTube

Auch wenn viele OER-Plattformen selbst kein API oder Dumps ihrer Metadaten anbieten, so nutzen viele von ihnen aber YouTube als zentralen Dienstleister für die Bereitstellung ihrer Kurs-Videos. YouTube selbst hat die dem Bereich Bildung zugeordneten Videos zentral unter http://youtube.com/edu virtuell zusammengefasst.

YouTube selbst bietet ein API in verschiedenen Versionen an. Version 3 gilt offiziell noch als experimentell, Version 2 des Google Data API für YouTube wird aber  von verschiedenen Programmiersprachen durch entsprechende Programm-Module unterstützt. Die Programmiersprache Perl wird zwar offiziell nicht unterstützt, mit dem Modul WebService-GData steht aber eine gute Umsetzung bereit, die lediglich in Kombination mit der encode_json-Methode aus JSON::XS mit doppeltem UTF8-Encoding patzt. Mit to_json aus dem JSON-Modul wird aber auch UTF8 korrekt umgesetzt.

Wichtig war uns bei einer Integration von OER aus YouTube, dass wir selbst festlegen können, welche Channels wir in den KUG integrieren, denn nicht alle unter youtube.com/edu angebotenen Videos scheinen uns hierfür geeignet. Und selbst bei einzelnen Channels, wie z.B. bei der Stanford University müssen die Kurse erst noch ausgefiltert werden.

Darüberhinaus ermöglicht uns die Übertragung einzelner Channels in einzelne KUG-Recherche-Kataloge das Mischen von OERs aus verschiedenen Quellsystemen. Ein gutes Beispiel hierfür ist die Khan Academy, die zwar ein API und die Daten bereitstellt, aber nur für die englischsprachigen Kurse. Die deutschsprachigen Kurse der Khan Academy sind in diesen Daten gerade nicht enthalten, aber stattdessen im YouTube-Channel KhanAcademyDeutsch. So können wir die Original API Daten der englischen Khan Academy dem zugehörigen YouTube-Channel vorziehen, uns zusätzlich aber des deutschen Channels bedienen und so beide Sektionen der Khan Academy abdecken.

Im Vergleich mit den dedizierten Plattformen wie OCW Consortium oder der Khan Academy stellt YouTube weniger Daten bereit, die zum Set der klassischen bibliographischen Daten gehören. Insbesondere fehlen idR Personeninformationen – einziger author-Name im YouTube-API ist der Username des Channelerstellers. Dennoch sind die Daten selbst gut strukturiert.

Normalerweise wird ein ganzer Kurs als Playlist organisiert, in der die einzelnen Video-Lektionen enthalten sind. Dadurch erst lässt sich die kursspezifische Zusammenfassung der Videos auch 1:1 in den zugeordneten KUG-Katalog übertragen. Dennoch ziehen wir ganz allgemein die potentiell reichhaltigeren originalen Daten ala OCW oder Khan Academy denen von YouTube vor. Bis solche Daten aber irgendwann einmal für alle OER-Quellen bereitgestellt werden, ist YouTube die bestmögliche Lösung, um diese Materialien überhaupt im lokalen Bibliotheksumfeld sichtbar zu machen.

Gestartet sind wir in dem neuen Bereich der OER mit folgenden Katalogen im KUG:

Das sind insgesamt 43.389 Nachweise. Weitere OER-Quellen lassen sich – speziell im Bereich der YouTube-Channels – einfach durch Nennung des Channel-Namens in entsprechenden Parametrisierungsdateien für das generelle Harvesting-Programm youtube2meta.pl festlegen.

Die Sichtung weiterer geeigneter Quellen und Aggregationsplattformen mit vorhandenen Metadaten ist nach wie vor das gravierendste Problem bei der Integration von OERs in die lokalen Recherche-Infrastrukturen. Die allgemeine Zugänglichmachung von Informationen zu solchen OER-Quellen von jedweder Seite würden wir daher sehr begrüßen. Die nächste neue OER-Plattform, die wir uns genauer anschauen werden, ist sicherlich learningregistry.org mit eigenem API.

Seit heute haben wir im Kölner UniversitätsGesamtkatalog KUG die Zahl von 200 gemeinsam recherchierbaren Datenquellen erreicht. Davon entfallen knapp 150 auf klassische Bibliothekskataloge der Universität zu Köln und die restlichen 50 auf Sonderbestände und freie E-Books bzw. sonstige elektronische Materialien. Gerade die freien Inhalte tragen massgeblich zu der stattlichen Zahl von 19.5 Millionen Nachweisen bei, denn die klassischen Bibliothekskataloge machen hiervon lediglich knapp 7 Millionen Titel aus.

Insgesamt schlüsselt sich der Bestand im KUG von 19.539.367 Nachweisen aktuell auf in

  • 414.092 Zeitschriften bzw. Serien,
  • 450.813 Artikel/Aufsätze sowie
  • 10.823.009 digital verfügbare Medien.

Bereits seit vielen Jahren haben wir in den KUG freie digital verfügbare Inhalte aufgenommen, wie z.B.

  • KUPS, den Kölner UnversitätsPublikationsServer
  • GDEA, das Graph Drawing E-Prints Archive
  • DFG Nationallizenzen
  • Digitalisierte Bücher der Open Library
  • RePEc, Research Papers in Economics
  • DRIVER Forschungsdaten
  • Digitalis-Projekt des Seminars der Wirtschafts- und Unternehmensgeschichte der Universität zu Köln
  • Volltexte des ehem. SSG BWL
  • Texte von de.wikisource.org
  • Internationales Projekt Gutenberg
  • Directory of Open Access Books

von denen viele, aber leider nicht alle, in ihren Metadaten frei verfügbar sind.

Durch die Vereinheitlichung des Harvesting von OAI-Quellen mit REPOX vor einigen Wochen konnten wir sehr schnell weitere Quellen integrieren, wie z.B.

  • Gallica (1.198.908 Objekte)
  • Göttinger Digitalisierungszentrum (85.064 Titel)
  • HathiTrust (1.182.308 Titel)
  • LoC (242.394 Objekte)
  • Münchener Digitalisierungszentrum (924.580 Titel)
  • National Libray of Australia (233.148 Objekte)
  • National Science Digital Library (122.928 Titel)
  • ZVDD (296.830 Tite, via OAI leider ohne MDZ und einige andere)
  • E-Lis – EPrints in Library and Information Science (16.055 Titel)
  • InTech Open E-Books (39.126 Titel)
  • Networked Digital Library of Thesis and Dissertations (3.613.947 Titel)

Jenseits der 200 Datenquellen, die über das zentrale KUG-Rechercheportal kug.ub.uni-koeln.de, den “KUG”, angeboten werden, sind in die allgemeine KUG-Rechercheinfrastruktur viele weitere Datenquellen integriert, die ausserhalb des “KUG” entweder in eigenen Recherche-Portalen – z.B. Sammlungen wie die Totenzettel-Sammlung der USB oder die Sammlung DDR-Kinderbuch der ALEKI – bereitgestellt werden, oder ausschliesslich in das USB-Portal integriert sind, wie z.B. die Daten von Print- und E-Book PDA-Projekten.

Seit dem Start des USB-Portals als in die USB-Homepage integriertes Recherche-Portal im Herbst 2009 gab es – nicht nur unter unseren Anwendern – immer wieder Verwirrung darüber, welches Recherche-Portal sie denn sinnvollerweise nutzen sollen:

  • Das USB-Portal der Universitäts- und Stadtbibliothek Köln mit seiner Möglichkeit auch entfernte Kataloge und Datenbanken, speziell den EBSCO Discovery Service zu nutzen (Recherche “in die Breite”) und der Integration der Fernleihe
  • oder den Kölner UniversitätsGesamtkatalog KUG aus gleichem Hause mit seinen erweiterten Möglichkeiten eines Katalogs 2.0, Recherche-Anreicherungen und der Spezialisierung auf Suchmaschinen-Technologie auf Basis lokal vorhandener Daten, wie der Kataloge der Universität zu Köln (Recherche “in die Tiefe”).

Die Vermittlung der Vorzüge eines jeden Portals für die jeweilige Recherche-Situation war dementsprechend mühsam.

Es war klar, dass solch ein Nebeneinander von zwei Systemen immer wieder berechtigtes Unverständnis der Nutzer auf sich ziehen würde.

Aus diesem Grund wurde bereits Ende des Jahres 2010 entschieden, künftig nur noch einen zentralen Sucheinstieg anzubieten. Hierzu sollten die beiden bisher separaten Systeme gekoppelt werden, wobei das USB-Portal fortan als Rechercheoberfläche fungiert und der KUG die darunter liegende Infrastruktur mit den zu recherchierenden Daten bereit stellt. Die zentrale Voraussetzung für die Verschmelzung des USB-Portals mit dem KUG ist die Bereitstellung entsprechender Schnittstellen in der OpenBib-Software. Durch die bereits Ende 2009 begonnene Neuausrichtung und Überarbeitung der OpenBib-Software waren die dazu notwenigen Vorausetzungen bereits in der Entwicklung.

Meilenstein 1

Ein erster Meilenstein war im Februar 2013 mit der Einführung von OpenBib 3 für die KUG Recherche-Infrastruktur erreicht. Durch das von dieser Version umgesetzte Paradigma “Das Recherche-Portal ist der WebService” mit der Bereitstellung eines REST-Interfaces auf JSON-Basis konnten weite Teile der Recherche in das USB-Portal mit der dort verwendeten IPS-Software integriert werden. Zusätzlich kann die KUG Infrastruktur seine Inhalte auch direkt als HTML-Schnipsel über die Include-Repräsentation bereitstellen. So können z.B. Wortwolken, Literaturlisten usw. direkt in das Content-Management-System ZMS eingebunden werden, das ebenfalls im USB-Portal Verwendung findet.

Unmittelbar nach der Einführung der neuen KUG Infrastruktur wurde das USB-Portals darauf umgestellt, so dass ab Februar 2013 dieses nun auch eine facettierte Suche für die Profile “USB” und “Uni” anbieten konnte.

Meilenstein 2

Neben dem primären Sucheinstieg kug.ub.uni-koeln.de bietet die KUG Infrastruktur knapp 120 individuelle Sucheinstiege für die Institute und Seminare der Universität zu Köln an. Dort kann gezielt im jeweiligen Bibliothekskatalog recherchiert werden, zusätzlich der Suchradius aber auch auf den Bestand der zugehörigen Fakultät bzw. den Gesamtbestand erweitert werden.

Für all jene Sucheinstiege musste ein Äquivalent auf Seiten des USB-Portals gefunden werden. Daher haben wir den bereits in das USB-Portal integrierten Bibliotheksführer, in dem jede Institutsbibliothek eine eigene Informationsseite besitzt, als Grundlage genommen und diese Informationsseite zu einer Einstiegsseite für die Recherche im lokalen Institutsbestand umgearbeitet. Dabei waren eine Unmenge an Detailfragen zu klären, was alles in diese Seite reingepackt werden sollte, wie Ausleihfunktionen integriert werden können oder wie der Zugriff auf alle separaten Instituts-Benutzerkonten sinnvoll vereinheitlicht werden konnte.

Lösungen zu diesen und anderen Fragen mussten von unserer Portal-AG beratschlagt und beschlossen werden. In der AG sind fast alle Dezernate der USB und auch die dezentralen Bibliotheken vertreten. Sie gibt die Richtung vor bei der Weiterentwicklung des USB-Portals. Und dann mussten die dort gefundenen Ergebnisse noch 120 Mal – für jede Institutsbibliothek einzeln – umgesetzt werden. Dadurch hat die Umstellung dann doch etwas länger gedauert, als ursprünglich gedacht…

Ehemaliger Recherche-Einstieg für Institute auf KUG-Basis

Ehemaliger Recherche-Einstieg für Institute auf KUG-Basis

Neuer Recherche-Einstieg für Institute im USB-Portal

Neuer Recherche-Einstieg für Institute im USB-Portal

Bestands-Wolke nach Jahre im USB-Portal

Bestands-Wolke nach Jahre im USB-Portal

Mit der Freischaltung dieser Recherche-Einstiegsseiten für Institute und Seminare wurde am 3.2.2014 der zweite Meilenstein geschafft. Um eine möglichst “sanfte” Migration hin zu den neuen Recherche-Seiten zu gewährleisten, sollen die zugehörigen “alten” KUG-Portale noch bis Ende Februar parallel bereitgestellt und danach deaktiviert werden.

Meilenstein 3

Jetzt steht nur noch der dritte und letzte Meilenstein aus. In diesem muss die Nutzerdatenbank der KUG Infrastruktur in das USB-Portal integriert werden, so dass

  • auch im USB-Portal Literaturlisten und Tags Einzug halten und bearbeitet werde können sowie
  • alle bestehenden Merklisten, Literaturlisten und Tags aus der KUG-Infrastruktur auch ins USB-Portal übernommen und bearbeitet werden können.

Ebenso müssen Überlegungen angestellt werden, ob und wie sich andere Funktionen des KUG in das USB-Portal integrieren lassen. Dazu gehören z.B. die Informationen über gleiche Titel in anderen Katalogen, andere Ausgaben eines Titels usw.

Bis dahin muss das zentrale KUG-Portal weiterhin angeboten werden, so dass die Nutzer ihre eigenen Inhalte dort weiterhin bearbeiten können. Ist der Meilenstein erreicht, kann der KUG als Präsentations-Schicht für die Recherche im Gesamtbestand unter kug.ub.uni-koeln.de ebenfalls deaktiviert werden. Dieser finale Schritt hin zu einem einheitlichen Recherche-Portal für die Universität ist von uns für Mitte 2014 geplant.

Dennoch wird die KUG Infrastruktur auch weiterhin mit der von ihr bereitgestellten Präsentations-Schicht die Basis für verschiene Spezial-Portale bilden. Dazu gehören u.a. Portale mit Sammlungen und Forschungsdaten der Universität (z.B. die Abklatsch-Sammlung des Instituts für Altertumskunde) oder die Portale der Arbeitsstelle Historische Bestände im Rheinland.

Mit der Vereinigung von KUG und USB-Portal hin zu einem einheitlichen Recherche-Portal für die Nutzer der Universität konnten wir die Meriten beider Systeme optimal bündeln und sind für zukünftige Anforderungen bestens gerüstet.

Ausgehend von den OAI-Daten des Kölner UniversitätsPublikationsServers KUPS werden seit knapp 10 Jahren OAI-Daten in den Kölner UniversitätsGesamtkatalog KUG für die Recherche integriert. Die dafür zuständigen Programme haben – mangels Notwendigkeit – in dieser Zeit nur geringfügige Anpassungen erfahren.

Mit der Einführung von OpenBib 3 für den KUG haben wir gleichzeitig die zugrundeliegende Infrastruktur modernisiert. In zwei Clustern mit jeweils 2 Servern wird seither die KUG Recherche-Infrastruktur an der USB Köln – sowohl für den KUG selbst, wie auch für das USB Portal – betrieben. Ein Cluster ist jeweils für die Beantwortung von Rechercheanfragen über das Web-Interface verantwortlich, das andere aktualisiert während dessen die Daten aus allen Katalogen sowie anderen Quellen. Nach erfolgter Aktualisierung wechseln die Cluster und das bisher für Rechercheanfragen zuständige Cluster steht für die nächste Aktualisierung bereit und umgekehrt.

Diese lastverteilte und weitgehend ausfallresistente Architektur wirkt sich jedoch nachteilig auf das Harvesten von OAI-Quellen aus, da die jeweiligen Repositories ihre Daten ingesamt viermal liefern müssen – an jedes der beteiligten KUG-Serversysteme. Diese unnötige Belastung der OAI-Repositories – insbesondere, wenn sie großen Bestand haben – muss zwingend verhindert werden. Darüber hinaus können Synchronisationsprobleme innerhalb eines KUG-Clusters auftreten, wenn z.B. ein Repository von Rechner A zeitlich vor Rechner B geharvestet wird. In der Zwischenzeit können weitere Titel dort verfügbar sein, so dass die beiden Rechner von ihren Datenbeständen nicht mehr synchron sind – was aber eine absolute Voraussetzung für einen konsistenten Betrieb ist.

Das war Grund genug die bisherige Praxis bei der Integration von OAI-Quellen ebenfalls zu modernisieren und die Probleme auszuräumen.

Der wesentliche Baustein hierzu ist die Einrichtung eines zentralen OAI-Aggregators, der einerseits die Daten aller externen OAI-Repositories harvestet, andererseits diese Daten selbst wieder über OAI-PMH für die einzelnen KUG-Server bereitstellt. Damit müsste nur noch einmal pro Repository geharvestet werden und etwaige Synchronisationsprobleme würden auch verhindert.

In der Vergangenheit haben wir hierzu die Softwarelösung Celestial von Tim Brody (Universität von Southampton) evaluiert. Diese hätte sich als LAMP-System sehr gut bei uns integrieren lassen, wenn wir nicht Zweifel an dessen Weiterentwicklung hätten. Die letzten Änderungen sind sporadisch und der Betrieb in Southampten selbst unter celestial.eprints.org wurde schon vor einiger Zeit eingestellt.

Vor einigen Wochen sind wir dann aber auf die Softwarelösung REPOX aus dem Europeana-Umfeld gestossen. REPOX wird von der Technischen Universität Lissabon als JAVA-Webanwendung innerhalb eines Jetty-Containers entwickelt und als Open Source-Software bereitgestellt. Zentraler Bestandteil ist OCLC’s OAICat Repository Framework, das unter der Apache 2.0 Lizenz frei nutzbar ist. Die Installation und Konfiguration war ausgesprochen schnell erledigt. Herunterladen, entpacken, Installationsskript aufrufen, Konfigurationsdatei anpassen und jetty starten. Das wars.

REPOX Einstiegsseite

Danach konnten wir bereits mit Harvesting-Tests beginnen. REPOX bietet viele Funktionen, u.a. auch die automatische Konvertierungen zwischen Metadatenformaten, die auch erweiterbar ist. Wesentlichste Funktionen für uns waren jedoch ausschließlich das Einrichten von OAI-Repositories, das Harvesten inkl. Scheduling sowie die Bereitstellung via OAI-PMH. Derzeit werden alle Repositories ausschließlich im Dublin Core-Format geharvestet. Die Hinzunahme anderer Formate (MARCXML u.a.) ist möglich.

Anlegen eines Data Sets

Jede OAI-Quelle wird als sog. Data Set eingerichtet. Jeder Data Set kann dann wiederum bei der Bereitstellung der Daten via OAI-PMH als Selektionskriterium entsprechend der im OAI-PMH-Standard definierten Sets genutzt werden. Sehr einfach können auch Schedules für das Harvesten der jeweiligen Data Sets eingerichtet werden. Standardmäßig harvesten wir mit REPOX täglich inkrementell.

REPOX - Scheduling des Harvestens

Im Betrieb verhält sich REPOX weitestgehend unauffällig. Allerdings haben wir auch schon einige kleinere Probleme beobachten können. Diese sind während unserer anfänglichen Tests beim gleichzeitigen Harvesten eines Repositories in mehreren Data Sets für verschiedene Metadaten-Formate aufgetreten. Ebenso ist die Performance beim inkrementellen Harvesten von REPOX mittels Zeiträumen suboptimal. Beides lässt sich aber problemlos umgehen. So harvesten wir von REPOX z.B. immer komplett. Das dauert bei knapp 1 Millionen Datensätzen für einen Data Set auch nur wenige Minuten…

Insgesamt ist REPOX eine leichtgewichtige Lösung, wenn OAI-Daten lokal aggregiert und dann intern weiterverarbeitet werden sollen. Diese Aufgaben kann es mit wenig Aufwand erledigen.

Parallel zur Einführung von REPOX wurde auch der Harvester der KUG-Serversysteme überarbeit. Neu ist die Verarbeitung von Metadaten mittels des allgemeinen Konverters simplexml2meta.pl und zugehöriger Parametrisierungsdateien, in denen das Metadaten-Mapping ausgehend von den geharvesteten Metadaten-Formaten via XPath-Ausdrücken erfolgen kann.

Nachdem von uns bisher vorwiegend lokale bzw. kleine Repositories geharvestet wurden, haben wir damit begonnen auch größere Repositories zu integrieren. Speziell komplett digitalisierte Quellen sind hier für uns von Interesse, wie z.B. die Digitalisate der Digitalisierungszentren in Göttingen und München sowie das ZVDD.

 Update 23.1.2014:

Nach der Integration der genannten nationalen Repositorien GDZ mit 85.064 Nachweisen, MDZ mit 924.580 Nachweisen und ZVDD mit 296.830 Nachweisen (per OAI ist nur ein Teilbestand harvestbar, da einige Institutionen, u.a. die BSB, der Weiterverbreitung ihrer Nachweise durch ZVDD via OAI widersprochen haben) haben wir nun einige internationale Repositorien in unsere Recherche-Infrastruktur mit OAI integriert.

Es sind dies

  • die Gallica der Französischen Nationalbibliothek mit 1.198.908 Nachweisen auf ihre Digitalisate
  • HathiTrust, ein Konsortium US-amerikanischer Bibliotheken, mit 1.182.308 Nachweisen auf ihre Digitalisate sowie
  • die Library of Congress mit 242.394 Nachweise auf ihre Digitalisate im Kontext American Memory

Mit diesen digitalisierte Quellen konnte der Umfang des KUG auf derzeit knapp 15.4 Millionen Nachweise gesteigert werden.

 

 

Facetten im KUG – Standorte und Sprachen

Vor einigen Wochen wurden die Facetten im KUG mit der Eingrenzung der Rechercheergebnisse nach Themengebieten erweitert. Das sollte aber nur der Anfang für weitergehende Änderungen bei den Facetten sein. So ist es gerade im Bereich der Erscheinungsjahre aus Nutzersicht hilfreich eine Recherche im Nachhinein auf Jahresbereiche einzugrenzen, wie es andere Kataloge schon seit einiger Zeit anbieten.

Jenseits einer solchen vergleichsweise kleinen Erweiterung haben wir uns auch noch einmal andere Facetten genauer angeschaut, speziell die Rechercheeingrenzungen “nach Katalogen” und “nach Sprache”.

Kataloge vs. Standorte

Seit jeher stellt der einzelne Katalog die kleinste Daten- und Rechercheeinheit im KUG dar. Strukturell war dies immer durch die Organisation der Bibliotheken an Universität zu Köln als autonome Einheiten vorgegeben und hat sich auch später nach Hinzunahme externer Datenbestände bewährt. Dementsprechend existieren derzeit insgesamt 125 separate Kataloge von Institutsbibliotheken zuzüglich dem der USB Köln. Einer der Erfolge des KUG-Projektes war die Vereinheitlichung dieser vielen Kataloge unter nur noch einer Bibliothekssoftware, die in der USB auf zwei Servern gehostet wird – ein Server für den Katalog der USB und einer für die 125 Kataloge der Institutsbibliotheken.

Um die Qualität der bibliothekarischen Dienstleistungen an der Universität zu verbessern und Kräfte effizient zu bündeln, versucht die USB seit einigen Jahren gezielt fachzentrierte Kooperationen mit Institutsbibliotheken auf freiwilliger Basis einzugehen und sogenannte “gemeinsame Fachbibliotheken” zu bilden. Recherchetechnisch hat das einige Auswirkungen, denn diese Fachbibliotheken nutzen fortan das Bibliothekssystem der USB, während jedes zugehörige Institut seine Bestände bisher in einem eigenständigen Katalog erfasst hat. Während ein Institut nach dem anderen also einer Fachbibliothek beitritt und seine Bestände nach und nach migriert werden müssen, wird die “alte Ordnung” – ein Institut hat einen Katalog an einem Standort – aufgebrochen. Die Bestände sind erst einmal auf mehrere Kataloge verteilt, obwohl sie physikalisch an einem Standort aufgestellt sind.

Wie soll man das aber einem Nutzer klar machen, der doch nur wissen will, wo er das Medium denn nun bekommen kann bzw. seine Rechercheergebnisse auf die Medien “in seiner Bibliothek” eingrenzen will.

Der einzelne Katalog als Informationseinheit reicht hier nicht mehr aus. Daher können in der Administration des KUG Recherche-Portals nun zusätzlich Standorte erfasst werden.

Übersicht aller Standorte

Ein Standort besteht aus einem Identifier, mit dem man ihn referenzieren kann, einer Beschreibung und einem Typ. Wird als Identifier eine standardisierte ISIL verwendet, so lautet der Typ einfach “ISIL”, für alle anderen wird einfach der Typ “generic” besetzt. Zusätzlich werden für einen Standort verschiedene Informationen erfasst wie Institutsname, Adresse, Telefonnummer, Geo-Positionen usw.

Einzelne Standortdefinition

Jedem Katalog kann hiermit in der KUG-Administration einfach ein Standort zugewiesen werden, an dem die Bestände zu finden sind. Dies entspricht dem bisherigen Normalfall. Bei Beständen, die auf mehrere Kataloge verteilt sind, können die zugehörigen einzelnen Standorte pro Katalog  nun aber alternativ in den Daten angereichert werden. Im USB-Katalog sind das z.B. folgende Bestände, die durch den Filter add-locationid.pl mit Standorten angereichert werden:

  • Fachbibliothek Chemie (ISIL DE-38-507)
  • Fachbibliothek Versicherungswissenschaft (ISIL DE-38-123)
  • Fachbibliothek VWL (derzeit ISIL DE-38-105, später ISIL DE-38-101)
  • Fachbibliothek Medienkultur und Theater (2 Standorte mit ISIL DE-38-428 und DE-38-429)
  • USB: Hauptabteilung (ISIL DE-38)
  • USB: Humanwissenschaftliche Abteilung (Generisch DE-38-HWA)
  • USB: Sofortausleihbereich (Generisch DE-38-SAB)
  • USB: Lehrbuchsammlung (Generisch DE-38-LBS)
  • USB: Europäisches Dokumentationszentrum (Generisch DE-38-EDZ)
  • USB: Lesesaal (Generisch DE-38-LS)

Parallel dazu existieren die ehemaligen Institutskataloge mittelfristig weiter. Im Falle der Fachbibliothek Medienkultur sind das z.B. die Kataloge inst428 und inst429, die mit den Standorten DE-38-428 und DE-38-429 verknüpft sind. Eine Eingrenzung auf DE-38-429 führt den Nutzer also auf die Bestände aus den Katalogen der USB und der Theaterwissenschaftlichen Sammlung, die beide in Köln-Wahn aufgestellt sind.

Insgesamt bildet die Anreicherung mit Standorten bei einer Recherche über den Gesamtbestand aller Kataloge alle Möglichkeiten ab, die mit der alten Facettierung über Kataloge erreicht wurden und flexibilisiert sie zusätzlich mit der Zusammenfassung von Beständen über Kataloggrenzen hinweg. Ebenso lassen sich – wie im Fall der USB – verschiedene Unterstandorte (USB: Sofortausleihbereich) innerhalb eines Standortes (USB: Hauptabteilung) realisieren. Bisher wurden die Daten verschiedener Einzelstandorte des USB-Katalogs in eigene Kataloge extrahiert, wie z.B. für die Humanwissenschaftliche Abteilung, den Sofortausleihbereich usw. Bei einer Rercherche resultierten daraus zwangsläufig Mehrfacheinträge in den Trefferlisten. Mit den neuen Möglichkeiten der Standort-Facetten sind diese Kataloge nun nicht mehr notwendig, können entfernt werden und führen so nicht mehr zu den Mehrfacheinträgen.

Eine weitere Verbesserung ergibt sich für den Inhalt des Katalogs “Zeitschriften der Institute”. Zeitschriften werden für die Institute durch die USB direkt in der Zeitschriftendatenbank (ZDB) erfasst und normalerweise nicht in den einzelnen Institutskatalogen. Der daraus resultierende Katalog mit allen Zeitschriftenbeständen wird nun ebenfalls mit den verschiedenen Standorten angereichert. Bei einer Eingrenzung der Recherche auf den Standort eines Instituts werden dann automatisch auch die zugehörigen Zeitschriften mit ausgegeben.

 Standort-Facette

Sprachen

Eine weitere Facette ist die Eingrenzmöglichkeit nach Sprache. Wie bei allen Eingrenzmöglichkeiten entgehen dem Nutzer, der sie verwendet, jedoch zwangsläufig potentiell relevante Titel, da in der Regel nie alle Titel eines Kataloges konsequent und vollständig mit den entsprechenden Informationen versehen wurden. Das betrifft auch andere Facetten, wie z.B. nach Themen (Schlagworte) oder nach Systematik (Notationen). Wir versuchen diesen Umstand durch geeignete Anreicherungen (Schlagworte aus dem b3kat usw.) fortlaufend zu verbessern, aber eine 100 prozentige Abdeckung des Bestandes ist leider sehr unrealistisch.

Bei der Facettierung nach Sprache kommt zum Abdeckungsgrad zusätzlich noch die Normierung auf standardisierte Sprachcodes hinzu. Im KUG normieren wir mit der Funktion normalize_lang die Sprachcodes z.B. auf ISO-639-2 (3stellig) von ISO-639-1, aber auch innerhalb von ISO-639-2 bei Mehrdeutigkeiten (ger und deu für Deutsch) .

Grundproblem ist und bleibt aber die Abdeckung. Nur wenige Kataloge im KUG vergeben Sprachcodes bei den Titelaufnahmen. Dazu gehören der USB-Katalog, Projekt Gutenberg, die OpenLibrary, aber z.B. quasi kein Institutskatalog. Das ist ziemlich wenig…

Aus diesem Grund haben wir nach Anreicherungsmöglichkeiten gesucht. Zunächst haben wir uns die offenen Daten des b3kat angeschaut, aber hier wurde sehr schnell klar, dass auch dort überproportional wenig  Zuordnungen ISBN-zu-Sprachcode geschürft werden konnten, typischerweise gerade einmal 10-20 Tausend Zuordnung pro Dump-Datei der insgesamt 26 Dateien.

Also kommt hier – wenn man die Facette nicht grundsätzlich entfernen will – nur eine vollautomatisierte Vergabe von Sprachcode durch entsprechende linguistische Methoden in Frage. Angereichert werden sollen natürlich nur die Titel, die noch keinen Sprachcode besitzen – intellektuell katalogisierte Sprachcodes gehen immer vor.

Klein, schnell, kompakt und mit Unterstützung der Programmiersprache Perl erledigt die Chrome Language Detection Bibliothek (CLD) genau diese Aufgabe. Sie ist vollständig offener Bestandteil der Entwicklung des Web Browsers Chrome (genauer Chromium) und lässt sich sehr einfach mit dem Perl-Modul Lingua::Identify::CLD einsetzen. Setzt man dessen Objekt-Methode identify einen Text vor, so erhält man als Ergebnis den Sprachnamen, seinen Code (ISO-639-1), einen “Zuversichtlichkeitswert” für die Erkennung – und ein Flag, ob die Erkennung zuverlässig ist. Anhand dieses Flags können bei der Anreicherung sehr einfach alle unzuverlässigen Einordnungen verworfen werden und allein so die Qualität der Anreicherung gesteigert werden.

Ein weiterer qualitätssteigernder Faktor ist durch den Text selbst gegeben, anhand dessen die Identifizierung gemacht wird. Hier reicht der Titel in der Regel allein nicht aus. Daher konstruieren wir den Identifizierungstext aus dem Hautpsachtitel, seinem Zusatz und ggf. vorhandenen Gesamttiteln. In einem typischen Bibliothekskatalog kommen wir so auf ein Anreicherungsquoten über 80 Prozent. Sicherlich wird sich immer der eine oder andere Titel finden, der falsch identifiziert wurde, aber der Nutzen überwiegt hier ganz klar.

Die Ergebnisse der automatischen Sprach-Anreicherung sind sehr vielversprechend. Im Katalog der USB sind bereits Sprachcodes für 1.315.552 Titelaufnahmen erfasst. Nach der automatischen Anreicherung sind es bereits   2.044.780 Titelaufnahmen von insgesamt 3.227.887. In anderen Katalogen ohne Erfassung von Sprachcodes liegen die Anreicherungsquote z.T. bei über 80 Prozent der Titelaufnahmen.

 

 

Recherche von Normdaten im KUG

Neben der bekannten Suchmöglichkeit nach Titeln stellt der KUG ab sofort auch eine Recherche nach Normdaten-Einträgen von Personen, Körperschaften sowie Schlagworten mit Suchmaschinentechnologie bereit, wie sie vor allem von bibliothekarischer Seite gewünscht wird. Grundlage für die Erschließung der Normdaten ist ein zusätzlicher Suchindex für jeden Katalogbestand, in den die vorhandenen Normdatensätze eingeladen werden.

Das Suchformular Normdaten kann über die Erweiterte Suche erreicht werden. Neben einem eigenen Suchfeld für Personen, Körperschaften sowie Schlagworten kann über das Suchfeld Freie Suche gleichzeitig in allen Normdatenarten recherchiert werden. Recherchiert wird jeweils als Volltext in den Ansetzungsformen, Verweisungsformen und ggf. darüber hinaus.

Suchmaske für Normdaten

Analog zu den Titeln wird auch hier eine Facettierung nach Katalogen durchgeführt, in denen Treffer gefunden wurden. Um sich bei nachfolgenden Recherchen in den Normdaten nicht immer wieder mühsam zum entsprechenden Suchformular durchklicken zu müssen, wird dieses zusätzlich direkt bei den Suchergebnissen ausgegeben.

Ergebnis einer Normdaten-Recherche

Verlinkt sind die jeweiligen Normdatensätze, über die man wiederum zu den damit verknüpften Titeln kommt.

Personen-Normdatensatz

Ein Beispiel für eine themenbasierte Suchstrategie ist z.B. eine Normdatensuche in den Schlagworten nach “hexe*” – nachfolgend mit der Eingrenzung auf den Bestand der USB Köln.

Schlagwortsuche nach Hexe

Interessant wird diese Suchstrategie, wenn sich Einträge aus der Gemeinsamen Normdatei GND der Deutschen Nationalbibliothek in den Katalogen befinden. Derzeit ist dies aber nur beim Katalog der USB Köln der Fall – zuzüglich der dort enthaltenen Bestände von gemeinsamen Fachbibliotheken mit der USB -  jedoch nicht bei den Katalogen der Instituts- und Seminarbibliotheken. Dort erfolgt keine automatische Belieferung mit GND-Daten über die Versorgungsschnittstelle des hbz-Verbunds.

Teil 2: URLs zu digitalen Inhaltsverzeichnissen und Recherche-Eingrenzung nach Themengebieten

Seit knapp zwei Monaten können unsere Nutzer nun schon durch die Schlagworte aus den offenen Katalogdaten des BVB/KOBV (b3kat) unsere eigenen Medien besser finden. Bereits damals waren weitere Inhalte des b3kat in unseren Fokus gerückt:

Andere Anreicherungen können folgen, wie die digitalisierten Inhaltsverzeichnisse, Rezensionen oder auch weitere klassische Sacherschließungsmittel wie Klassifikationen. Allerdings gilt es hier noch zu überlegen, wie sich BK, RVK und ggf. DDC für den Endnutzer thematisch homogenisieren lassen, so dass dieser am Ende mit unzähligen Klassifikationssystemen nicht vollständig überfordert wird. Hier wäre die Festlegung auf ein System und eine Anreicherung anhand von Konkordanzen zu den anderen Systemen ein möglicher Weg.

Die Anreicherung mit den URLs zu digitalisierten Inhaltsverzeichnissen war schnell integriert und mit URLs zu insgesamt 1.095.499 verschiedenen ISBNs auch sehr reichhaltig. Die Homogenisierung verschiedener Sacherschließungs-Systeme (BK, RVK, usw.) war hingegen mit weitergehenden konzeptionellen Überlegungen verbunden. Als Zielsetzung für den Endnutzer sollte die neue Möglichkeit einer  Recherche-Eingrenzung auf wenige prägnante Fachgebiete entstehen.

Die Leit-Fragestellung für uns war:

Welche Titel einer Recherche nach dem Begriff “Java” fallen z.B. in das Fachgebiet “Informatik”, welche in “Geographie (Naturwissenschaften)”, welche in “Ethnologie”, welche in “Sprachwissenschaften” usw.?

Folgende Möglichkeiten zur Definition grober  Fachgebietesgruppen für die Titel haben sich angeboten:

Die Hauptgruppen der Basis-Klassifikation

In der ersten Ebene der BK sind das insgesamt immerhin 48 Fachgebiete mit einem entsprechenden Zuordnungsaufwand zu RVK, DDC usw.

vgl. http://kug.ub.uni-koeln.de/portal/kug/browse/bks.html?l=de

Eine vollständige Konkordanz mit allen Gruppen würde vom Aufwand her deutlich den angestrebten Nutzen übersteigen. Einen Vorgeschmack gibt Irene Rauners Masterarbeit “Erstellung einer Konkordanz zwischen BK (Basisklassifikation) und RVK (Regensburger Verbundklassifikation) für das Fachgebiet Germanistik” aus dem Jahr 2010 bei der – nur für das Fachgebiet Germanistik – insgesamt 2397 Seiten mit Tabellen für die Konkordanz resultierten.

Die Hauptgruppen der Regensburger Verbundklassifikation RVK

Diese sind mit 33 Fachgebieten zwar deutlich weniger als die Hauptgruppen der BK, aber auch hier ist mit einem gewissen Aufwand zu rechnen, um Konkordanzen zu anderen Sacherschließungssystemen zu erarbeiten.

vgl. http://rvk.uni-regensburg.de/index.php?option=com_rvko&view=show&Itemid=53

Die Hauptklassen der Dewey-Dezimalklassifikation DDC

Diese 10 Klassen sind verglichen mit BK und RVK wiederum zu grob.

vgl. http://www.ddc-deutsch.de/Subsites/ddcdeutsch/DE/DDCprodukte/DDCuebersichten/ersteUebersicht.html

Die Themengebiete des KUG

Diese sind gröber als RVK und BK, aber genauer als die DDC und wurden von uns vor etlichen Jahren nach einer Analyse unserer sowie anderer Lesesaal-Aufstellungssystematiken erschaffen. Hier haben wir es lediglich mit 20 Fachgebieten zu tun. Das war auch ein zentrales “Design-Kriterium” bei der Definition: Die Themengebiete sollten für die Endnutzer bewusst überschaubar sein – u.a. auch, da sie mit genau diesen Themengebieten selbst ihre Literaturlisten verknüpfen und somit fachlich einordnen können. Eine BK wäre hier für den Endnutzer zu komplex und würde von ihm damit effektiv nicht genutzt.

vgl. http://kug.ub.uni-koeln.de/portal/kug/browse/topics.html?l=de

Diese Suche nach einer geeigneten Ziel-Systematik für eine Vereinheitlichung betrifft alle Katalogbestände mit heterogener Sacherschließung,wie sie u.a. auch vom KOBV in seinem K2Blog thematisiert wird.

Nach verschiedenen Überlegungen und Gesprächen sowie technischen Erwägungen haben wir uns schließlich für die Themengebiete des KUG entschieden. Neben den schon angeführten Gründen (s.o.) haben diese insbesondere den nicht zu unterschätzenden Vorteil bei den Nutzern seit etlichen Jahren bekannt zu sein – die Nutzer werden also nicht mit etwas gänzlich neuem konfrontiert. Dazu kommt in der KUG-Administration die ebensolang vorhandene Funktion, beliebige dort hinterlegte Klassifikationssystem “unseren” KUG-Themengebieten zuzuordnen und so einfach und schnell Konkordanzen zu erstellen. Konkordanzen zur BK, zu den EZB-Notationen (=RVK-Hauptgruppen) und DBIS-Fachnummern wurden damit bereits angelegt.

Konkordanzerstellung in der KUG-Administration

Der Weg von der RVK zu den KUG Themengebieten

Grundlage für eine fachliche Einordnung unserer Titel ist zunächst die RVK, die aus den b3kat-Daten mit dem Programm bvb_rvk2enrich.pl extrahiert wurde. Insgesamt kommen auf diese Weise  5.686.066  Informations-Tupel aus RVK und ISBN zusammen. Danach habe ich die RVK für die Integration in die KUG-Admistration thematisch auf ihre ersten beiden Buchstaben “eingeebnet”, vgl.

http://code.google.com/p/openbib/source/browse/trunk/portal/perl/conf/rvk.yml

Die Konkordanz selbst zu unseren KUG-Themengebieten war danach schnell in der KUG-Administration zusammengeklickt und umfasst nun insgesamt 488 Zuordnungen.

Dann wurden aus den RVK-Anreicherungsdaten durch Anpassung der internen Feldnummer sowie Austausch der RVK mit unserem jeweiligen KUG Themengebiet (mit der neuen Konkordanz im KUG und dem Programm rvk2topic.pl) neue Anreicherungsdaten, die in unsere Zentrale Anreicherungsdatenbank eingeladen werden konnten. Wesentlich war auch hier wieder das Konzept Zentrale Kataloganreicherung, da wir gleichzeitig alle unsere mehr als 150 einzelnen Kataloge automatisch und vor allem einheitlich mit den Informationen anreichern wollen.

Nach der turnusmäßigen nächtlichen Aktualisierung aller Kataloge und kleinen Anpassungen an den Ausgabetemplates zeigen alle Kataloge nun die von uns angestrebten Eingrenzungsmöglichkeiten für den Nutzer.

Dazu gehört eine neue Facette “nach Themengebiet” – die namentlich den direkten Bezug zum Link Themengebiete neben dem Suchfeld herstellt – sowie eine direkte Eingrenzung auf die Themengebiete direkt in der erweiterten Suchmaske.

Ein gutes Beispiel ist die Recherche nach dem Begriff ‘Information’ im Katalog des Instituts für Informatik:

http://kug.ub.uni-koeln.de/portal/inst526/search.html?l=de&num=20&page=1&srt=relevance_desc&st=1&fs=information&profile=386

Suche nach "Information" im Katalog der Informatik

Als wir mit der Umsetzung unserer Recherche-Eingrenzung fast fertig waren, stießen wir auf die Bachelor-Arbeit von Julian Frick, der sich bereits im Jahr 2011 mit der Konzeption einer fachlichen Facette für die UB Mannheim auseinandersetzte. Auch er hat – nach einer Analyse des Bestandsaufbaus der UB Mannheim – eigene Fachgebiete definiert, denen er dann RVK, SWD-Systematik und DNB Sachgruppen zuordnete. Mit den offenen Daten von SWB und DNB wären SWD-Systematik sowie DNB Sachgruppen auch noch eine Idee für uns bei Fremddatenanalysen. Insgesamt ist Fricks Bachelor-Arbeit eine ausführliche und sehr lohnenswerte Lektüre zu diesem Themenkomplex.

Neben der Verwendung offener Daten für die Zuordnung zu Themengebieten für eine Recherche-Eingrenzung gilt es auch die bereits in den einzelnen Katalogen des KUG vorhandenen Sacherschließungsinformationen heranzuziehen. Dazu gehören die wenigen Institutskataloge, die überhaupt eine klassifikatorische Sacherschließung machen (z.B. mit RVK und DDC) und  der Katalog der USB Köln, bei dem ein Nebeneinander aus der Basis-Klassifikation und Alt-Notationen besteht. Anhand dieser Informationen kann nun auch katalogweise eine Anreicherung mit KUG Themengebieten erfolgen.

Wie viele Titel konnten auf diese Weise nun aber konkret fachlich zugeordnet werden? Insgesamt sind die Anreicherungsquoten sehenswert. Wir haben diese exemplarisch für den Katalog der Informatik bestimmt, der vergleichsweise viele Titel neuerem Datums mit ISBN enthält. Bezogen auf alle ISBNs haben wir eine Anreicherungsquote mit KUG Themengebietsinformationen von knapp 86 Prozent erreichen können. Bezogen auf alle Titel des Katalogs kommen wir auf eine Anreicherungsquote von 71,5 Prozent, d.h. dieser Prozentsatz an Titeln konnte mit KUG Themengebieten angereichert werden. Bei Katalogen mit deutlich mehr Altbestand und daher ohne ISBN wird die Quote niedriger sein. Hier besteht jedoch die Möglichkeit in unserer Anreicherungsdatenbank anstelle der ISBN – Dank offener Katalogdaten – als Anreicherungs-Matchkey auf die BibKey-Basis (das ist die Zeichenkette vor der Hash-Bildung beim Bibkey) umzustellen.

Mit Schlagworten, URLs zu Inhaltsverzeichnissen und den Sacherschließungsinformationen in der RVK haben wir viele Informationen aus den offenen bibliographischen Daten des b3kat von BVB und KOBV nutzbringend im KUG verwenden können. Die Auswertung weiterer Daten steht an. Beginnend mit den extrahierten Daten des b3kat stellen wir die Einlade-Daten für unsere Anreicherungsdatenbank im JSON-Format für andere Interessierte auf dem Open Data Portal der USB Köln bereit. So bleibt ihnen die Wartezeit von knapp einer Woche für die eigene Analyse der b3kat-Daten erspart…

http://opendata.ub.uni-koeln.de/enrichment/

Update 3.10.2013:

Zusätzlich zur Anreicherung mit KUG Themengebieten durch die RVK des b3kat werden nun auch die in den Katalogen lokal vorhandenen Sacherschließungsinformationen herangezogen. Dazu werden zunächst die Klassifikationsdaten analysiert und dann die Titeldaten mit den dazugehörigen KUG Themengebieten erweitert. Im Falle des Katalogs der USB Köln umfasst das BK und Alt-Notationen, beim Katalog des Biozentrums wird die lokal vergebene RVK ausgewertet.

Suche in Inhaltsverzeichnissen

Ab sofort können Bücher im KUG anhand der Begriffe in ihren Inhaltsverzeichnissen gefunden werden. Grundlage sind knapp 510.000 (aus OCR resultierende) Texte von Inhaltsverzeichnissen aus hbz und dnb, die in unsere zentrale Kataloganreicherungsdatenbank geflossen sind. Anhand dieser Datenbank werden alle zugehörigen Titel aus allen Katalogen des KUG angereichert. Zuvor wurden die Inhalte grob gefiltert sowie für die Indexierung “verschlankt”(z.B. Ziffern und doppelte Begriffe entfernt).

Die Begriffe aus den Inhaltsverzeichnissen können in die erweiterte Recherchemaske eingegeben und gesucht werden. Eine Indexierung für die freie Suche – jenseits des spezifischen Suchfeldes “Inhaltsverzeichnis” wurde nicht durchgeführt, da aufgrund der zum Teil dort vorkommenden sehr allgemeinen Begriffe das Sucherlebnis erheblich leiden würde und der Nutzer mit deutlich größeren Treffermengen rechnen müsste.

Ein Beispiel ist die Recherche nach dem Begriff “stratoplan”, der ausschließlich im Inhaltsverzeichnis vorkommt und sehr spezifisch ist.

Suche in Inhaltsverzeichnissen

Die Inhaltsverzeichnisse bieten sich in der Zukunft für weitere Untersuchungen an. Möglich wäre eine linguale Analyse und eine weitere Reduzierung auf die “signifikantesten” Begriffe für die Indexierung sowie eine automatische Generierung von zusätzlichen Sacherschließungsinformationen.

Teil 1: Schlagworte

Es ist nun schon knapp 4 Jahre her, seit wir begonnen haben, den KUG mit Schlagworten anzureichern. Damals war die Motivation eine Homogenität in der Sacherschließung der Kataloge untereinander sowie eine einheitlichere Auffindbarkeit von Titeln zu erreichen, die bis dato nicht existierte. Wir haben daher aus dem Bestand des USB-Katalogs und der knapp 140 Instituts-Kataloge alle vorhandenen Schlagworte in unsere Anreicherungsdatenbank eingespielt und dann jeden Titel in allen Katalogen mit den dort jeweils noch nicht vorkommenden Schlagworten angereichert – sowohl für die Anzeige, wie auch für die Recherche.

Während der Weiterentwicklung des KUG zu einer Ressourcen-orientierten Rechercheinfrastrukturlösung, die mit der Einführung von OpenBib 3 im Februar 2013 ihren Abschluss fand, fehlte uns leider die Zeit, um nennenswerte Erweiterungen im Bereich Kataloganreicherungen mit Sacherschließungsinformationen vorzunehmen.

Parallel zu unseren Umbauarbeiten haben sich aber gerade hier viele neue Möglickeiten durch die Veröffentlichung offener bibliographischer Daten ergeben. Nachdem das hbz im März 2010 u.a. mit uns den Anfang machte und inzwischen fast der gesamte Verbundkatalog – bis auf die wenigen Exklusiv-Bestände der gallischen Dörfer Paderborn und Düsseldorf – veröffentlicht wurde, haben BVB/KOBV, SWBDNB, ZDB und HeBIS mit ihren (Verbund-)Katalogen nachgezogen. Lediglich der GBV mit seinen Bibliotheken hat sich noch nicht zu einer Freigabe der Daten durchringen können.

Dennoch steht mit hbz, BVB/KOBV, SWB, DNB, ZDB und HeBIS ein riesiger Fundus an Informationen bereit, in dem es sich zu schürfen lohnt. Ein Beispiel ist die Extraktion von Links zu digitalisierten Inhaltsvezeichnissen oder zu Rezensionen, mit denen Katalogdaten angereichert werden können – wie es Thomas Berger mit http://beacon.findbuch.de/ in Form von SeeAlso-Diensten vormacht.

Für die Auffindbarkeit von Titel ist vor allem die Sacherschließung wichtig, so dass wir uns im KUG nun speziell diesem Bereich zugewandt haben. Als Basis haben wir uns die offenen bibliographischen Daten von BVB/KOBV genommen und dort mit unserem Programm  bvb_subjects2enrich.pl nach Schlagworten und ISBN’s gesucht. Die gefundenen Schlagworte werden zusammen mit der ISBN des Titels unmittelbar in unsere Anreicherungsdatenbank eingespielt. Zusätzlich werden die gefundenen Informationen auch noch in Form von JSON-Dateien abgespeichert, die wir bei Interesse ggf. für andere Projekte als Open Data bereitstellen können.

Die JSON-Daten sehen so aus:

{“content”:”Child”,”origin”:”24″,”subfield”:”a”,”isbn”:”9780521331630″,”field”:”4300″}
{“content”:”Cognition”,”origin”:”24″,”subfield”:”a”,”isbn”:”9780521331630″,”field”:”4300″}
{“content”:”Cognition in children”,”origin”:”24″,”subfield”:”a”,”isbn”:”9780521331630″,”field”:”4300″}
{“content”:”Infant”,”origin”:”24″,”subfield”:”a”,”isbn”:”9780521331630″,”field”:”4300″}
{“content”:”Psychologie du développement”,”origin”:”24″,”subfield”:”a”,”isbn”:”9780521331630″,”field”:”4300″}
{“content”:”Entwicklungspsychologie”,”origin”:”24″,”subfield”:”a”,”isbn”:”9780521331630″,”field”:”4300″}

Hierbei werden die ISBNs auf ISBN13 normiert. origin und field bezeichnen die Herkunft der Daten sowie die Feldnummer für angereicherte Schlagworte entsprechend des Wiki-Artikels Zentrale Kataloganreicherung. In subfield schließlich wird das MARC-Subfield aus den Ursprungsdaten konserviert, wobei wir nur die Subfelder a, x, y und z auswerten.

Sehr schön an den BVB-Schlagworten ist, dass sie mehrsprachig sind, was bei unseren selbst erfassten Schlagworten normalerweise nicht der Fall ist.

Der zu den o.g. JSON-Daten zugehörige Titel im USB-Katalog hat lediglich die Schlagworte  Piaget, Jean sowie Kognitive Entwicklung und kann so von der Schlagwort-Anreicherung profitieren.

Ein weiteres Beispiel ist der Titel Die Region als publizistische Aufgabe, der überhaupt keine Schlagworte enthält und einen noch höheren Nutzen aus der Anreicherung ziehen kann. Alle über die offenen Daten von BVB/KOBV angereicherten Schlagworte sind automatisch auch über unseren isbn2subjects SeeAlso-Dienst über die ISBN abrufbar, wie dieses Beispiel zeigt.

Schlagwortanreicherung mit offenen BVB-Daten

Schlagwortanreicherung mit offenen BVB-Daten

Insgesamt ergab die Analyse der 26 BVB-Dumps zusammen knapp 23 Millionen Informations-Tupel für die Anreicherung mit Schlagworten. Als nächstes wollen wir die offenen Daten anderer Verbünde analysieren. Da die Schlagworte des hbz durch die Versorgungsschnittstelle ohnehin bereits im USB-Katalog vorhanden sind und dessen Bestand sich mit dem der Institutskataloge in vielen Teilen überschneidet, wird eine Auswertung des hbz-Bestands nicht sonderlich ergiebig sein. Daher sind SWB und HeBIS sicherlich die lohnendsten nächsten Ziele für eine Anreicherung.

Mit diesen vielen neuen Schlagworten im Suchindex des KUG wird für den recherchierenden Endnutzer die Wahrscheinlichkeit deutlich erhöht, dass er mit seinen Suchbegriffen auch tatsächlich die thematisch zugehörigen Titel finden kann – die Öffnung der Daten in den Verbundkatalogen hat so einen unmittelbaren praktischen Nutzen gezeigt.

Andere Anreicherungen können folgen, wie die digitalisierten Inhaltsverzeichnisse, Rezensionen oder auch weitere klassische Sacherschließungsmittel wie Klassifikationen. Allerdings gilt es hier noch zu überlegen, wie sich BK, RVK und ggf. DDC für den Endnutzer thematisch homogenisieren lassen, so dass dieser am Ende mit unzähligen Klassifikationssystemen nicht vollständig überfordert wird. Hier wäre die Festlegung auf ein System und eine Anreicherung anhand von Konkordanzen zu den anderen Systemen ein möglicher Weg.

Update 26.9.2013:

Die aus den BVB-Dumps gewonnenen Informations-Tupel für eine Schlagwortanreicherung anhand der ISBN13 werden jetzt auf dem Open Data-Portal der USB Köln als Datei b3kat_subjects_20130508.json.gz für andere Interessierte zur Nachnutzung bereitgestellt.

Ab sofort bietet der KUG passend zu den eingegebenen Suchbegriffen die relevantesten Fachdatenbanken thematisch gruppiert rechts in den Trefferlisten unterhalb der Facetten an. So helfen wir unseren Nutzern im KUG aktiv beim Auffinden sonstiger thematisch relevanter Aufsätze und Materialien, in den von uns recht teuer lizensierten Fachdatenbanken und hoffen auf diesem Weg deren Nutzung zu steigern.

Wie bereits bei den anderen Universitätskatalogen HEIDI in Heidelbergbeluga in Hamburg  und zuletzt TUBfind in Hamburg-Harburg werden Empfehlungen von Fachdatenbanken auf Grundlage eines Dienstes des E-LIB-Portals der Staats- und Universitätsbibliothek Bremen erzeugt.

Beispiel einer Datenbankempfehlung anhand der Suchbegriffe 'prozess kafka'

Beispiel einer Datenbankempfehlung im KUG anhand der Suchbegriffe ‘prozess kafka’

Für den KUG war so eine Integration schon seit einiger Zeit angedacht, lediglich der Aufwand alle für eine Umsetzung benötigten Informationen zusammenzutragen war uns in der Vergangenheit etwas zu hoch. Dass die Datenbankempfehlungen nun doch relativ zügig in den KUG Einzug halten konnten war einem Artikel im TUBfind Blog zu verdanken, in dem insbesondere auch die notwendigen Anpassungen für die Discovery-Lösung vuFind unter der GPL-Lizenz als Datei bereit gestellt wurden. Nach der Durchsicht des veröffentlichten Codes zeigte sich, dass eine Integration einer solchen Empfehlungsfunktion in den KUG mit relativ überschaubarem Aufwand vollzogen werden konnte. Gerade dieses Beispiel verdeutlicht wieder, wie gut die Fachkommunikation über Blogs im Bibliothekswesen funktionieren kann.

Das grundlegende Prinzip der Fachdatenbank-Empfehlungen von der Suchanfrage hin zu den konkreten Fachdatenbanken ist relativ einfach:

  1. Anhand der vom Nutzer eingegebenen Suchbegriffe liefert der Bremer E-LIB-Dienst die relevanten Wissenschaftsfächer mit jeweiliger Relevanz zurück, wie sie in Bremen verwendet werden. Grundlage ist eine Wissensbasis in E-LIB, in die auch computerlinguistische Methoden Einzug halten.
  2. Diese Bremer Wissenschaftsfächer müssen nun den entsprechenden Themengebieten des Regensburger Datenbank-Informationssystems DBIS zugeordnet werden. In diesem Informationssystem verwalten alle Bibliotheken die von ihnen lizensierten Datenbanken.
  3. Für die DBIS-Themengebiete müssen nun nur noch die relevantesten Fachdatenbanken bestimmt werden, die von der jeweiligen Einrichtung lizensiert wurden. Dies kann intellektuell erfolgen oder noch einfacher anhand der von DBIS selbst ausgegebenen TOP-Fachdatenbanken zu jedem Themengebiet.

Dementsprechend wurden in der KUG-Systemdatenbank die Bremer Wissenschaftsfächer, die DBIS-Themengebiete und die relevanten Fachdatenbanken in neuen Tabellen abgelegt und miteinander verknuepft. Zusätzlich sorgt ein Programm dafür, dass die relevanten Fachdatenbanken automatisch aus dem DBIS-System übernommen und aktualisiert werden können. Zukünftige Verbesserungen können darin bestehen, dass die relevanten Datenbanken manuell von den jeweiligen Fachreferenten gepflegt und sie mit zusätzlichen Relevanzinformationen belegt werden.

Besonderes Augenmerk haben wir in die strukturelle Integration des Dienstes in den KUG gelegt. Dieser verfügt seit der neuen OpenBib-Version 3  über eine ausgefeilte REST-artige Resourcen-Struktur mit Content- und Language-Negotiation sowie verschiedenen Datenrepräsentationen. Wichtig war uns einerseits eine asynchrone Integration über die Include-Repräsentation  in die Trefferlisten mit AJAX, so dass deren Anzeige nicht zusätzlich verlangsamt wird – in Tests hatten wir für die Datenbankempfehlungen Verarbeitungsszeiten zwischen 0.2 und 1.2 Sekunden gemessen. Darüber hinaus sollen die Empfehlungen auch in externe Anwendungen, wie z.B. in unser USB-Portal, zukünftig grundsätzlich integrierbar sein. In OpenBib geschieht dies einheitlich über eine JSON-Repräsentation. Verankert wurde der Empfehlungsdienst im SearchQuery-Objekt in einer neuen Methode get_dbis_recommendations.

Die neue DBIS-Recommender-Resource hat im KUG den URI

http://kug.ub.uni-koeln.de/portal/kug/databases/id/dbis/titles/recommendations

und nimmt über den fs CGI-Parameter die Suchbegriffe an.

Beispiele für die jeweiligen Repräsentationen anhand der Suchbegriffe ‘graph theory’ sind

Anders als in TUBfind verlinken wir nicht direkt zu den Fachdatenbanken, sondern gehen erst zur entsprechenden Titelaufnahme des in den KUG über APIs integrierten DBIS-Katalogs, in dem für den Nutzer viele relevante (Zugriffs-)Informationen vorgehalten werden.

Abschließend möchte ich mich noch ganz herzlich bei meinem Ansprechpartner von E-LIB, Herrn Dr. Blenkle, sowie den Kollegen von TUBfind bedanken, ohne die eine so schnelle Integration in den KUG sicherlich nicht möglich gewesen wäre.