Bereits seit 2008 werden andere Ausgaben, also andere Auflagen und Sprachversionen einer Titelaufnahme im KUG ausgegeben. Die Integration war damals sehr einfach möglich, da die Bücher-Plattform LibraryThing, deren Nutzer diese Art von Information intellektuell erfassen, alle ihre diesbezüglichen Daten kostenfrei als Feed in der Datei thingISBN.xml.gz zur Verfügung gestellt hat.

Leider wurden diese Daten von LibraryThing immer seltener aktualisiert – die letzte Datenlieferung datiert von Herbst 2012. Ebenso waren dort keine der von uns erworbenen E-Book-Ausgaben enthalten. Grund genug, sich diesem Thema noch einmal intensiver zuzuwenden und nach Verfahren zu suchen, um diese Titelverknüpfungen selbst automatisch – idealerweise in Echtzeit – zu bestimmen.

Durch die Integration von BibSonomy in den KUG haben wir bereits Erfahrungen im Titel-Fingerprinting über sog. BibKeys sammeln können. Beim Bibkey werden zur Erstellung des bibliographischen Fingerabdrucks die Informationen aus den Feldern für Verfasser/Personen, (Hauptsach)Titel sowie Erscheinungsjahr normiert, kombiniert und dann mit einer kryptographischen Hash-Funktion verkürzt. So kann schnell bestimmt werden, ob ein Titel des KUG auch in BibSonomy enthalten ist und umgekehrt.

Dieses Verfahren haben wir als Grundlage genommen und für den neuen Anwendungsfall  angepasst.

Bei der Bestimmung anderer Ausgaben muss ein unschärferer Titel-Fingerabdruck als beim BibKey verwendet werden, da hier gerade keine identischen Titel bestimmt werden sollen.

Welche Fälle sind dabei zu bedenken?

  • Die Autorenschaft kann sich verändern, indem Autoren dazukommen oder verschwinden
  • Die Titelaufnahme kann von einer Auflage zur nächsten den Verlag oder gar den (Hauptsach)Titel wechseln
  • Auflageninformation können schwer zu bestimmen sein, wie z.B. ‚2. Nachdruck der 3. Auflage‘

Nicht für alle diese Fälle gibt es Lösungen, wie z.B. bei Änderungen des (Hauptsach)Titels, da – wenn überhaupt – entsprechende Informationen lediglich in Fußnoten abgelegt werden und sich nicht maschinell zuverlässig verarbeiten lassen.

Dennoch lassen sich auch so sehr gute Ergebnisse erzielen. Dazu gehen wir zweigleisig vor, da die Aufgabe nicht nur darin besteht

  1. zu einer Titelaufnahme die Menge aller verschiedenen Auflagen zu bestimmen, sondern auch
  2. die Eingrenzung auf die „anderen Auflagen“ ausgehend von einer konkreten Titelaufnahme

Zusätzlich müssen wir auch Seiteneffekte der Katalogisierung nach RAK bedenken, die in der Auftrennung der Titelinformationen in verschiedene Hierarchieebenen begründet sind. Nach unserer Erfahrung haben wir es mit einer „ordentlichen“  Titelaufnahme zu tun, wenn alle BibKey-relavanten Informationen – Verfasser/Person, (Hauptsach)Titel und Erscheinungsjahr – in einer Titelaufnahme besetzt sind. Nur solche „ordentlichen“ Titelaufnahmen verarbeiten wir im Folgenden.

Um die Menge aller Auflagen zu einer Titelaufnahme bestimmen zu können, konstruieren wir in Anlehnung an den BibKey normierte Zeichenketten für eine Titelaufnahme. Wegen der benötigten Unschärfe verwenden wir hierzu lediglich die Kategorien für Verfasser/Person und Hauptsachtitel sowie Einheitssachtitel (für andere Sprachversionen) . Allerdings bilden wir wegen des Problems wechselnder Autorenschaft sowie verschiedener Sprachversionen nicht nur einen „WorkKey“ für eine Titelaufnahme, sondern mehrere. So besteht ein WorkKey immer nur aus einem Verfasser bzw. einer Person sowie einer Titelkategorie – Hauptsachtitel oder Einheitssachtitel. Bei einer Titelaufnahmen mit 2 Verfassern und sowohl vorhandenem Hauptsachtitel wie auch Einheitssachtitel werden also 4 WorkKeys gebildet. Eine Erweiterung um zusätzliche Titel-Kategorien wie AST oder WST wäre möglich, um noch höhere Identifizierungsquoten zu erreichen. Aber auch ohne diese zusätzlichen Kategorien sind die von uns beobachteten Resultate bereits sehr gut.

Um die „anderen“ Auflagen bezogen auf die aktuelle Titelaufnahme auf der mit dem WorkKey bestimmten Titelmenge bestimmen zu können, benötigen wir eine zusätzliche Information über die Auflage. Gleichzeitig müssen Sprache und Publikationform (print/online) damit unterscheidbar sein.

Während die Publikationsform online noch sehr einfach über den Zugriffsstatus in der (vorher angereicherten) Kategorie T4400 zu bestimmen ist, wird dies bei der Auflagenbezeichnung und der Sprache schon schwieriger.

Bei der Auflagenbezeichnung ist zwischen

  • dem Problem der Bestimmung der korrekten Auflage aus dem Kategorieinhalt von T0403 (2. Nachdruck der 3. Auflage) und
  • dem Problem verschiedener Auflagen im selben Jahr

abzuwägen. Dementsprechend würde man entweder die Zahl der Auflage aus T0403 oder das Erscheinungsjahr aus T0425 bzw. T0424 verwenden. Wir haben uns erst einmal für die Jahreszahl aus Charakteristikum für die Auflage entschieden.

Die Sprache, in der ein Titel erschienen ist, kann leider häufig nicht in der Titelaufnahme gefunden werden. Das ist bereits bei der Facettierung nach Sprache ein Problem. Deshalb haben wir bereit seit einiger Zeit eine Spracherkennung auf Grundlage linguistischer Methoden mit dem Perl-Modul  Lingua::Identify::CLD integriert (Nutzung der Spracherkennung des Chrome-Browsers), falls keine Sprache in der Titelaufnahme erfasst wurde. Dieses Verfahren haben wir für die Bestimmung der verallgemeinerten Auflagenbezeichnung durch eine Analyse des Sprach- bzw. Ländercode in der ISBN erweitert. Beispielsweise kennzeichnet der ISBN-Anfang 9780 bw 9781 englische, 9872 französische und 9873 deutsche Titel. Zwar kann auch hier der Fall auftreten, dass ein deutscher Verlag ein englischsprachiges Buch herausbringt, aber die Auswirkungen sehen wir als nicht gravierend an.

Beispiel 1

Anhand des Titels „Programming perl“ von Tom Christiansen, Larry Wall und John Orwant in der 3. deutschen Auflage aus dem Jahr 2001 wird die konkrete Vorgehensweise veranschaulicht.

In der ersten Stufe werden die Basis-WorkKeys anhand der belegten Titelkategorien mit der Funktion gen_workkeys bestimmt und in der Titelkategorie T5055 abgelegt. Dieser hat die Form „WorkKey <Auflage>“ und enthält zwei Anteile, den eigentlichen WorkKey und eine verallgemeinerte Auflagenbezeichnung in spitzen Klammern. Im konkreten Fall werden folgende Basis-WorkKeys generiert:

  • programmingperl [l.wall] <2001ger>
  • programmierenmitperl [l.wall] <2001ger>
  • programmingperl [t.christiansen] <2001ger>
  • programmierenmitperl [t.christiansen] <2001ger>
  • programmingperl [j.orwant] <2001ger>
  • programmierenmitperl [j.orwant] <2001ger>

Für alle Kataloge werden diese Informationen durch das Programm update_all_isbn_table.pl selektiert und in einer speziellen Tabelle all_titles_by_workkey unserer zentralen Anreicherungsdatenbank abgelegt. In dieser Tabelle werden WorkKey und verallgemeinerte Auflagenbezeichnung getrennt und zusammen mit Katalogname und -ID eines jeden Titels abgelegt. Die Bestimmung anderer Auflagen in beliebigen Katalogmengen kann dann – in Echtzeit – für einen Titel bestimmt werden.

Dazu werden zunächst für alle WorkKeys eines Ursprungs-Titels die jeweiligen anderen Titel gesucht, die den gleichen WorkKey besitzen. Aus dieser Menge werden dann jene Titel selektiert, deren verallgemeinerte Auflagenbezeichnung sich vom Ursprungs-Titel unterscheidet. Zusätzlich wird eine absteigende Sortierung nach den Auflagenbezeichnungen vorgenommen, so dass aktuellere Auflagen am Anfang ausgegeben werden.

Beispiel 2

Beim zweiten Beispieltitel handelt es sich um ein Buch, dass sowohl in Print-Form vorliegt als auch frei im Netz. Es ist die erste Auflage aus dem Jahr 1999, heisst „Open sources“ und wurde von Chris DiBona und Sam Ockman geschrieben. Hier sind die Basis-WorkKeys in 5055:

  • opensources [c.dibona] <1999engonline>
  • opensources [s.ockman] <1999engonline>

Zusätzlich zum Erscheinungsjahr und der Sprache wird hier auch noch der Publikationsstatus online hinzugefügt.

Fazit

Mit relativ wenig Aufwand konnten wir die Unzulänglichkeiten der bisherigen Bestimmung der anderen Auflagen eines Titels beseitigen. Das beschriebene Verfahren kann an verschiedenen Stellen noch weiter optimiert werden. So könnten durch ein mehrstufiges Suchverfahren – gerade bei nicht durchgängig besetzten Einheitssachtiteln – noch mehr infrage kommende Titel in anderen Auflagen bestimmt werden. Allerdings muss immer gewährleistet sein, dass der zusätzliche Zeitaufwand für den Endanwender noch hinreichend responsiv bleibt.