Oder: Wie kann ich mehr als 130 Kataloge mit zusätzlichen Informationen anreichern, ohne dass Sie etwas davon wissen.

Unter Kataloganreicherung (catalogue enrichment) versteht man im weitesten Sinne die „von Bibliotheken praktizierte Ergänzung der Katalogeinträge durch weiterführende Informationen“ (aus Wikipedia). Als weitere Differenzierung bietet sich aus meiner Sicht zusätzlich die Unterscheidung zwischen Recherche-Anreicherung (welche zusätzlichen Inhalte sollen recherchierbar gemacht werden) und Ergebnis-Anreicherung (welche zusätzlichen Inhalte sollen zum Recherche-Ergebnis hinzugefügt werden) an.

Diese Unterscheidung kann man gut am 180T- und dem Neuerwerbungsscan-Projekt festmachen, bei dem unter der Federführung des Hochschulbibliothekszentrums NRW (hbz), unterstützt vom Ministerium für Innovation, Wissenschaft, Forschung und Technologie des Landes Nordrhein-Westfalen und durchgeführt von der Firma ImageWare Components GmbH in Zusammenarbeit mit den beteiligten Bibliotheken seit Herbst 2005 an der USB Köln und verschiedenen anderen Bibliotheken Inhaltsverzeichnisse von Büchern gescannt und mit einer OCR-Schrifterkennung bearbeitet wurden.

Gerade bei einer großen Magazinbibliothek wie der USB Köln stellt die Anreicherung der Recherche-Ergebnisse mit Inhaltsverzeichnissen zweifelsohne einen hohen praktischen Nutzwert für die Recherchierenden dar. In der Einzeltrefferanzeige werden die digitalisierten Inhaltsverzeichnisse verlinkt und der Nutzer kann sich von überall ein Bild davon machen, ob das entsprechende Buch für ihn wohl relevant ist oder nicht – ohne den Zyklus „Bestellen-Warten-Abholen-Reinschauen-Sofort zurückgeben“ durchlaufen zu müssen.

Demgegenüber lässt sich über die Sinnhaftigkeit der Recherche-Anreicherung mit den zugehörigen OCR-Volltexten trefflich streiten, insbesondere, da diese von einigen schon als „sinnvolle Alternative zur Verschlagwortung und Systematisierung“ gehandelt wird.

Zitat aus dem Wikipedia-Artikel, das sich absolut mit meiner Beobachtung der deutschen Bibliothekslandschaft deckt:

Da die herkömmliche Sacherschließung mehr und mehr als unzureichend empfunden wird, erhoffen sich Bibliotheken von der Kataloganreicherung eine erhebliche Verbesserung der Recherchequalität„.

Konkret könnte dahinter aber leider auch der Wunsch stehen, intellektuelle (und damit kostenintensive) Sacherschließung durch technisch gewonnene Inhalte – wie eben Inhaltsverzeichnisse – zu ersetzen, um damit effektiv den Bibliothekar oder Fachreferenten als fachkundigen Sacherschließer abzulösen. Von dieser Abschaffung oder Reduzierung der intellektuellen Sacherschließung halte ich nichts, viel sinnvoller ist meiner Meinung nach ein „sowohl als auch“, wie die Koexistenz bibliothekarischer Verschlagwortung und nutzerbasiertem Tagging zeigt.

Als Beispiel für die Vorteile dieser Recherche-Anreicherung wird dann häufig der eine oder andere konkrete Begriff genannt, der nur im Inhaltsverzeichnis vorkommt und den man ohne dieses nicht hätte finden können. Das ist zweifelfrei korrekt.

Allerdings muss dem gegenüber auch der Normalfall gesehen werden, bei dem Inhaltverzeichnisse mit „Allerweltsworten“ wie Wirtschaft, Bilanz usw. durchzogen sind und damit eine Recherche-Anreicherung zwingenderweise in großen, unübersichtlichen Ergebnismengen mündet – aber das Relevance-Ranking der Suchmaschinentechnologie wirds schon richten… Schön wäre das, allein der Glaube fehlt mir.

Dazu kommt dann auch noch, dass es für den Recherchierenden nicht unmittelbar ersichtlich ist, warum ein Treffer denn überhaupt gefunden wurde – wenn das entsprechende Wort im Treffer z.B. nicht visuell hervorgehoben ist und sich stattdessen im „unsichtbaren“ OCR-Text des Inhaltsverzeichnisses versteckt, der sich wiederum nur im Suchindex wiederfindet. Das bedeutet nicht, dass Recherche-Anreicherung nicht auch sinnvoll angewendet werden kann, nur sollte man sich jeden angereicherten Inhalt genau anschauen, ob er hierfür geeignet ist.

Gerade für den KUG mit OpenBib stellt die Kataloganreicherung eine besondere Herausforderung dar, da hier nicht nur ein einzelner Katalog angereichert werden soll, sondern eine einheitliche Anreicherung aller mehr als 130 separaten Kataloge stattfinden soll.

Realisiert wird die Kataloganreicherung in OpenBib mit einer separaten Anreicherungsdatenbank. In dieser werden verschiedene Informationen zur Nutzung für alle Kataloge abgelegt. Als Identifizierungsschlüssel dient die ISBN bzw. der Bibkey – ein „bibliographischer Fingerabdruck“ des entsprechenden Titels.

Folgende Informationen werden dort abgelegt:

  1. Kategoriebasierte Inhalte: Die anzureichernden Informationen werden unter einer numerischen Kategorie in der Tabelle „normdata“ abgelegt. Zusätzlich wird die Herkunft der Anreicherung kodiert hinzugefügt. Damit lassen sich gleichartige Inhalte aus verschiedenen Quellen nachträglich auseinander halten und besser updaten.
  2. Katalogübergreifender Gesamtnachweis aller Titel: Um auf einen Blick (z.B. bei der BibSonomy-Integration), die Existenz des Titels und die Zugehörigkeit zu einem bestimmten Katalog festzustellen und somit eine Anreicherung auch wieder in den Kontext des lokalen Katalog-Bestandes zu rücken, werden sowohl Id als auch Katalog eines jeden Titels unter der ISBN bzw. dem Bibkey in der Tabelle „all_isbn“ abgelegt.
  3. Gesamtnachweise aller ISBN’s zu einem Werk: Alle ISBN’s eines Werkes, also derselbe Titel in verschiedenen Ausgaben, Sprachen usw., werden in der Tabelle „similar_isbn“ abgelegt.

Der Vorteil dieser zentralen Anreicherungsdatenbank ist, dass die Anreicherungsinformationen nun nicht mehr mit einem speziellen Titel in einem speziellen Katalog verknüpft sind, sondern stattdessen „freischwebend“ und damit automatisch nutzbar für alle Kataloge über die ISBN bzw. den Bibkey. Der jeweilige Titel in irgendeinem Katalog „weiß“ von einer möglichen Ergebnis-Anreicherung nichts.

Erst bei der Einzeltrefferanzeige werden für einen konkreten Titel Katalog- und Anreicherungsdaten kombiniert und dann ausgegeben. In Kombination mit 2) läßt sich sehr effizient ein Browsing über gleiche Anreicherungsinhalte innerhalb eines Kataloges verwirklichen – allein durch die über den Katalog frei schwebende Anreicherungsschicht. Für eine noch effizientere Realisierung einer Recherche-Anreicherung mit Benutzereingaben bietet es sich dann jedoch zusätzlich an, gezielt spezielle Anreicherungsinhalte in den Suchindex eines entsprechenden Kataloges zu übernehmen.

Ergebnis-Anreicherung

Die Inhalte in der Anreicherungsdatenbank fließen sofort in die einzelnen Treffer ein. Dazu „verschmelzen“ die entsprechenden „Anreicherungs“-Kategorien aus 1) mit den herkömmlichen Kategorien der Titelnormdaten und können über das Template visible_categories_titset, in dem auszugebende Kategorien und deren Reihenfolge definiert sind, für die Ausgabe aktiviert werden.

Demgegenüber werden die Informationen aus 2) und 3) nicht mit den Titelkategorien verschmolzen, sondern als separate Informationsblöcke an das Ausgabe-Template search_showtitset übergeben.

Recherche-Anreicherung

Bei Inhalten aus 1) kann optional in der Konfigurationsdatei für die Konvertierung „convert.yml“ unter dem Schlüssel „local_enrichmnt“ definiert werden, ob sie bei der Migration – d.h. dem nächtlichen Neuaufbau eines Kataloges mit aktualisierten Daten – berücksichtigt werden sollen und unter welcher Eingabekategorie sie dann recherchierbar sind.

Zusätzlich sind in die Migration weitere „automatische Anreicherungen“ u.a. für eine bessere Recherchierbarkeit der Titel integriert:

  • Anreicherung mit der 13- und 10-stelligen ISBN. Bei einem konkreten Titel wird zu einer vorhandenen 10-stelligen ISBN automatisch auch die zugehörige 13-stellige ISBN suchbar gemacht – und umgekehrt. Damit können nun insbesondere auch Titel mit 13-stelliger ISBN gefunden werden – wie sie z.B. seit dem 1.1.2007 in Verlagskatalogen in Verwendung sind – wenn bei der Erfassung im Katalog lediglich die 10-stellige ISBN bekannt war.
  • Anreicherung mit den Verfassern der Überordnung. Damit können nun auch Schillers Räuber korrekt gefunden und das sog. Schiller-Räuber-Problem gelöst werden.
  • Anreicherung mit dem Bibkey, dem bibliographischen „Fingerabdruck“ des Titels, über den die systemübergreifende Titelidentifikation, z.B. zwischen OpenBib und BibSonomy, ermöglicht wird.

Beispiele aus dem KUG

Im KUG werden neben den „automatischen Anreicherungen“ derzeit folgende zusätzlichen Informationen eingebracht:

  • Digitalisierte Inhaltsverzeichnisse: Bei den digitalisierten Inhaltsverzeichnissen werden die Links zum jeweiligen Dokument auf dem DigiTool-Server des hbz aus dem Katalog der USB extrahiert und der Anreicherungsdatenbank hinzugefügt. Die zugehörigen OCR-Volltexte der Inhaltsverzeichnisse haben wir bisher jedoch bewusst nicht für eine Recherche-Anreicherung herangezogen.
  • Artikel in Wikipedia: Die Namen der Artikel in der Wikipedia (derzeit deutsch, englisch, französisch, aber beliebig erweiterbar), die den entsprechenden Titel im KUG über seine ISBN referenzieren, werden aus den regelmäßigen XML-Dumps der Wikipedia extrahiert. Diese Artikel werden dann über ihre Namen bei den Einzeltreffern verlinkt und stehen zusätzlich auch für eine Recherche zur Verfügung. Ein Beispiel ist dieser Titel. Er läßt sich nun auch über den Begriff „Yukawa Potential„, dem Namen eines zugeörigen Wikipedia-Artikels, finden.
  • Basis-Klassifikation (BK) und Systematisches Blättern: Da die USB für ihre Systematisierung die BK verwendet und damit sehr viele systematisierte Titel für eine katalogübergreifende Anreicherung als Basis zur Verfügung stehen, werden diese BK’s aus dem USB-Katalog extrahiert und in die Anreicherungsdatenbank eingespielt. In den Einzeltreffern kann über eine angereicherte BK zu anderen Titeln im gleichen Katalog mit gleicher BK gesprungen werden. Ebenso haben wir in Kombination mit gecacheten Inhalten einen gestaffelten „Systematik-Browser“ über alle BK’s für alle Kataloge realisiert. Über eine Fremddatennutzung hoffen wir den Bestand an klassifizierten Titel weiter auszubauen. Grundsätzlich wären natürlich auch andere Klassifizierungssysteme nutzbar, wie RVK oder DDC.
  • E-Book-URL’s: Im KUG werden die von der USB Köln angeschafften E-Books in einem eigenen Katalog zusammengefasst. Aus diesem Katalog werden dann die URL’s zu den Volltexten der E-Books samt der entsprechenden ISBN’s der Print-Ausgaben extrahiert und in die Anreicherungsdatenbank eingespielt. Damit erscheinen diese E-Books automatisch auch im Katalog all jener Institute, die die Print-Ausgabe besitzten – der Nutzer kann das E-Book also direkt von seinem Arbeitsplatz aus nutzen. Ein Beispiel ist dieser Titel.
  • Empfehlungen: Die durch Nutzungsanalysen ermittelten weiteren Titel-Empfehlungen werden ebenfalls zentral abgelegt und sind damit katalogübergreifend nutzbar.

Alle Programme, die für die Gewinnung der entsprechenden Anreicherungsdaten verwendet wurden, sind über das CVS-Archiv von OpenBib verfügbar.

Ausblick

Neben der Integration weiterer Anreicherungsinhalte in zusätzlichen Kategorien stellt sich die Frage, ob der Weg einer zentralen Anreicherung auch für andere Bereiche, wie z.B. Nutzer-Tags, katalogübergreifend genutzt werden kann.

Ebenso muß weiter darüber nachgedacht werden, in wieweit man angereicherte Inhalte auch mit anderen Katalog 2.0 Projekten austauschen kann. Hier denke ich z.B. an beluga und XOPAC und die entsprechenden Gespräche, die wir zusammen auf dem beluga Workshop letzten November in Hamburg geführt haben.

Für die reine Ergebnis-Anreicherung bietet sich derzeit sicherlich als sehr schöner und eleganter Weg der von Jakob Voss entwickelte SeeAlso-Dienst an. Andere Möglichkeiten der Anreicherungen bietet auch der Dienst LibraryThing for Libraries. Dennoch wäre ein Vollzugriff auf die gesamten Anreicherungs-Inhalte sehr wünschenswert – auch im Hinblick auf eine etwaige Recherche-Anreicherung oder eine Rückkopplung zum lokalen Bestand, wie beim Browsing von Titeln zu gleichen Anreicherungsinhalten in einem Katalog. In diesen Aspekten unterscheidet sich die zentrale Anreicherung in OpenBib derzeit von dem SeeAlso-Dienst.