09 Nov
von Oliver Flimm - Kategorie: Allgemein, Ankündigungen, Einblicke und Konzepte
Ein bekanntes Problem der Zusammenführung vieler Katalogbestände unter einer Rechercheoberfläche – egal, ob als klassische föderierte Suche oder als Suchmaschine mit einem/mehreren Indizes realisiert – ist für den Nutzer die z.T. hohe Heterogenität der erfassten Daten und ihrer inhaltlichen Erschließung. Dazu gehört z.B. die Vergabe von Medientypen, die Systematisierung oder die Verschlagwortung. Daher besteht eine der zentralen Aufgaben in der Architektur und den Funktionen eines Recherche-Portals gerade darin, hier konkrete Lösungen zu finden, um dieser Heterogenität einigermaßen Herr zu werden – und vielleicht sogar einen Nutzen daraus zu ziehen. Kurz gesagt also nichts weniger, als auf Grundlage der zur Verfügung stehenden Daten möglichst automatisiert eine Homogenität zu erzeugen, wo ürsprünglich eigentlich gar keine ist.
Hier sind Recherche-Portale mit eigener Datenhaltung – wie z.B. BASE, beluga, Heidi oder der KUG – ganz klar im Vorteil, da erst dort datenbestandsübergreifend einheitliche Analysen sowie Anreicherungen vorgenommen werden und diese auch wieder in den Datenbestand zurückfließen können. Die erweiterten oder angepassten Daten stehen dann für die Recherche und die Anzeige also wieder zur Verfügung. Eine standardisierte Zugriffsschnittstelle auf entfernte Daten kann so etwas nicht leisten.
Vor einiger Zeit erhielt ich die Kopie einer Arbeit über den KUG im Rahmen des MALIS-Studiengangs an der FH Köln mit dem Titel “Der Kölner UniversitätsGesamtkatalog (KUG) – Analyse der praktischen Inhaltserschließung“. In dieser Arbeit wurden sehr viele der Probleme angesprochen, mit denen wir uns wegen eben jener ausgesprochenen Heterogenität der Ausgangsdaten für den KUG herumschlagen müssen und darüber hinaus sehr viel Feedback geliefert, worüber ich ausgesprochen dankbar bin.
Problematisiert wurde insbesondere die bereits angesprochene unterschiedliche sachliche Erschliessung mit Schlagworten bei gleichen Titeln in unterschiedlichen Katalogen. Entsprechend der Verschlagwortungsvorlieben der jeweiligen InstitutsbibliothekarInnen (die nicht nach RSWK verschlagworten – was allerdings nicht notwendigerweise ein Nachteil ist) werden im besten Fall verschiedene, im schlimmsten Fall gar keine Schlagworte vergeben. Einmal abgesehen von der uneinheitlichen Erscheinungsform des Titels in der Vollanzeige für den Recherchierenden – was notfalls noch zu verschmerzen wäre – kann dieser den Titel in einem Katalog eventuell über die Suche nach dem entsprechenden Schlagwort finden, im anderen aber gerade nicht. Das ist definitv ein Problem.
Als finaler Denkanstoß war dieser Artikel Grund genug sich im Rahmen des KUG etwas eingehender mit diesem konkreten Problem im Bereich Verschlagwortung zu beschäftigen und nach einfach zu realisierenden Lösungsansätzen zu suchen. Sehr schnell hat sich herauskristallisiert, dass sich dieses Problem sehr gut mit dem bereits bestehenden Toolset des KUG angehen lässt. Wie schon bei anderen Maßnahmen zur katalogübergreifenden Homogenisierung von Daten im KUG greifen wir auch hier auf das Konzept der Zentralen Kataloganreicherung zurück.
Dazu werden in einem ersten Schritt beim nächtlichen Update eines jeden Katalogs im KUG die dort vergebenen Schlagworte mit der zugehörigen ISBN als Zugriffsschlüssel (unter einer neuen Kategorienummer) in unserer zentralen Anreicherungsdatenbank abgelegt. Das geschieht durch ein sehr einfaches Anreicherungsprogramm swt2enrich.pl. Damit wurde bereits folgendes erreicht:
Im KUG werden diese “angereicherten Schlagworte” mit entsprechender Verknüpfung in der Einzeltrefferanzeige im Block “Entdecken Sie weitere Treffer über:” als “Verschlagwortung aus anderen Katalogen” angezeigt – für den Recherchierenden bewusst getrennt von den sonstigen bibliographischen Daten.
In einem zweiten Schritt werden nun nur noch durch entsprechende Parametrisierung die “angereicherten Schlagworte” mit in den Suchindex des jeweiligen Katalogs übernommen und sind so neben den “normalen” Schlagworten recherchierbar. Ein so mit weiteren Schlagworten angereicherter Titel profitiert unmittelbar von dieser Anreicherung explizit dadurch, dass die Wahrscheinlichkeit steigt, dass er “mit den Suchworten des Recherchierenden” auch gefunden wird. Die Grundannahme ist also: Je größer die Wortbasis der intellektuell verschlagwortenden BibliothekarInnen, desto größer auch die Wahrscheinlichkeit, dass der Nutzer mit einem davon rechierchiert und dadurch den Titel findet.
Ein gutes Beispiel für diese Kataloganreicherung mit Schlagworten ist der Titel “Die materielle Polizeipflicht des Zustandsstörers und die Kostentragungspflicht nach unmittelbarer Ausführung und Ersatzvornahme – dargestellt am Beispiel der Altlasten-Problematik” aus dem Katalog der Fachbibliothek Rechtswissenschaft.
Dieser Titel wurde lokal mit den Worten Altlasten, Kostenpflicht und Polizeipflicht verschlagwortet. Durch die Anreicherung kommen nun noch die Begriffe Altlastsanierung, Störer, Zustandshaftung und Gefahrenabwehr hinzu. Gleichzeitig ist dieser Titel auch im Katalog des Instituts für Öffentliches Recht und Verwaltungslehre vorhanden (PermaLink hier).
Dort ist der Titel überhaupt nicht verschlagwortet und er profitiert maximal von der Anreicherung. Mehr noch – wie bereits angesprochen können alle Titel durch den Nutzer in diesem Katalog erreicht werden, die auch in anderen Katalogen vorhanden sind und dort entsprechend verschlagwortet wurden – z.B. mit dem Schlagwort Gefahrenabwehr ergeben sich so 5 zusätzlich vernetzte Titel.
Die Kataloganreicherung mit Schlagworten ist ein gutes Beispiel dafür, wie mit relativ wenig Aufwand für den Recherchierenden ein deutlicher Mehrwert im Bereich Recherchierbarkeit sowie thematische Titelvernetzung geschaffen werden konnte. Dieser Mehrwert ließe sich noch weiter steigern, wenn es zu einem freien Austausch dieser (und weiterer) Informationen mit anderen Katalogen bzw. Katalogprojekten kommen könnte. So überlegen wir derzeit z.B. ob und wie wir weite Teile unserer Anreicherungsdatenbank frei verfügbar machen können, so dass sie von anderen interessierten Katalogen genutzt werden können. Solch ein Austausch würde insbesondere im Bereich der “social web”-Inhalte wie z.B. bei Tags, Literaturlisten usw. in Katalogen, die jeder für sich unterhalb einer kritischen Masse von Nutzern agieren, einen gangbaren Weg darstellen, um eben jene kritische Masse durch Zusammenarbeit dennoch zu erreichen.
3 Kommentare
dz
09|Nov|2009 1super funktionalität!
solche datenbestandsabgleiche sollten wirklich häufiger eingesetzt werden.
kommt eigentlich alles direkt aus der anreicherungsdatenbank oder werden auch einige dinge bei der vollanzeige direkt extern angefragt? (z.b. bibsonomy-tags)
(und der zweite link zum inst.katalog im artikel ist falsch)
Oliver Flimm
10|Nov|2009 2Danke für den Hinweis auf den falschen Link. Der ist jetzt korrigiert.
In der Einzeltrefferanzeige kommen die Informationen aus verschiedenen Quellen. Verwandte Personen/Themen kommen direkt entsprechend der Normdatenverknüpfungen aus den bibliographischen Daten, BibSonomy Tags kommen über einen intern gekapselten WebService als klassischer Mashup – ebenso wie die Verfügbarkeit in Google Books und BibSonomy. Aus der Anreicherungdatenbank kommen Links zu Inhaltsverzeichnissen, Basisklassifikationen, E-Books, Empfehlungen, Artikel aus Wikipedia (die den aktuellen Titel referenzieren), Informationen über das Vorkommen des Titels in anderen Katalogen oder anderen Ausgaben und nun die Schlagworte. Aus der Nutzerdatenbank werden dann noch Literaturlisten und die Tags geholt. An anderen Stellen des KUG kommen noch andere Verknüpfungen zu internen und externen Diensten dazu.
Manfred Hauer
19|Nov|2009 3Anstelle Worte oder Phrasen aus diversen Katalogen zu sammeln, stets Worte von Bibliothekaren, die meist eine andere Sprache hierbei schreiben als Autoren/Leser, geht AGI (http://www.agi-imc.de) mit http://www.dandelon.com seit 2002 systematisch den Weg, maschinell die wesentlichen Worte und Phrasen der Autoren aus jenen Textteilen zu extrahieren, die urheberrechtlich eine maschinelle Verarbeitung zulassen. Das sind inbesondere Inhaltsverzeichnisse.
Im Gegensatz zum normalen OPAC empfielt sich dann aber eine Recherche mit mehr als einem Suchbegriff, um die viel höhere Granularität des so gewonnen Wortmaterials zu nutzen. So sind bisher im vorwiegen deutschsprachigen Raum ca. 1,3 Millionen Inhaltsverzeichnisse digitalisiert und mit OCR vertextet worden. Der Anteil der Bibliotheken, die das Produktionssystem “inteligentCAPTURE” von AGI nutzen, beträgt über 800.000 Titel, wovon die deutsch- und englischsprachigen mit maschineller Indexierung berarbeitet sind.
Aus solchen Worten und Phrasen lassen sich WordClouds und auch Facettierungen in Suchmaschinen ableiten und sie sind der Grund, warum viele Titel jetzt erst richtig inhaltlich findbar werden.
Innerhalb von dandelon.com haben intellektuell vergebene Deskriptoren, sie werden immer automatisch mit eingesammelt, ein besonders hohes Gewicht, ebenso Titel und Untertitel. Bibliothekarische Erschließung lohnt sich, wird aber durch kostenkünstige maschinelle Verfahren sehr stark erweitert.
Die maschinelle Indexierung und Klassifizierung der Texte von Autoren ist ab Januar Gegenstand einer breiten Studie der Deutschen Nationalbibliothek und wir vermuten, es kommt danach zu einem Einsatz im großen Stil.
Kommentar schreiben