Im KUG bieten wir seit mehr als einem Jahr einen eigenen Katalog USB Köln / E-Books – Teilbestand (Online-Vollzugriff) mit den von der USB Köln lizensierten E-Books an. Zusätzlich sind knapp 317000 Titel der DFG-Nationallizenzen in einem weiteren KUG-Katalog recherchierbar. Vor knapp 5 Wochen haben wir in diesem Zusammenhang überlegt, ob wir wir dieses Angebot durch Hinzunahme freier Inhalte sinnvoll erweitern können.

Als Erstes dachten wir an das internationale Projekt Gutenberg, das derzeit mehr als 28.000 Texte in verschiedenen Formaten, teilweise sogar als Audiobook anbietet. Ein großer Vorteil von Projekt Gutenberg ist, dass es auch die Metadaten in verschiedenen Formaten (MARC, RDF) als Feed bereitstellt. Zuerst haben wir uns die Exporte im MARC-Format angeschaut. Leider ließ deren Verarbeitung mit den MARC-Modulen von Perl zu wünschen übrig – die Daten werden schlicht als invalides MARC angemeckert. Daher sind wir zum RDF-Format auf Dublin Core Basis gewechselt und ich habe dafür einen Konverter geschrieben.

Dieser neue Katalog Projekt Gutenberg.org / E-Books (Online-Vollzugriff) ist seit dem 8.5.2009 voll in den KUG eingebunden. Zusätzlich bieten wir ihn vorausgewählt auch noch über einen separaten Einsprung an.

Ein weiterer potentieller Kandidat war die Open Library, hinter der wiederum die digitalisierten Bestände des Internet Archivs stehen. Allerdings suchten wir beim Internet Archiv bisher vergebens nach einem geeigneten Feed wie bei Projekt Gutenberg oder einen anderen Weg, über den wir Metadaten samt Verweisen für die Integration in einen eigenen KUG-Katalog bekommen können.

Gestern bin ich jedoch auf ein Posting von Eric Lease Morgan auf der Mailingliste ngc4lib gestoßen, das eine Lösung im Kontext von vuFind skizziert. Entsprechende Skripte werden im zugehörigen Blog-Eintrag Internet Archive content in „discovery“ systems verlinkt. Diese müssen nun gesichtet und für den KUG angepasst werden. Schließlich ist dann zu entscheiden, ob die Inhalte tatsächlich eine sinnvolle Erweiterung des KUG darstellen können.

Als weitere mögliche Quellen sind im Wikipedia-Bereich z.B. WikiSource und WikiBooks zu nennen. Aber auch hier müssen wir zunächst an geeignete Metadaten gelangen, die dann die Grundlage für einen neuen Katalog bilden können. Zumindest für WikiSource hat dies vor etwas mehr als einem Jahr aber schon Jakob Voss in seinem Artikel Wikisource im DFG-Viewer dank Schnittstellen skizziert.

Es wäre für uns sehr interessant von anderen Projekten zu hören, die ebenso wie wir, die Nachweise freier Inhalte in ihre Kataloge integriert haben. Ein Austausch – Know How und Skripte – wäre auf jeden Fall wünschenswert.

Aktualisierung 7.6.2009:

Inzwischen bin ich auf eine sehr einfache Möglichkeit gestoßen, um eine Vielzahl an Digitalisaten des Internet Archivs über den Umweg des assoziierten OpenLibrary-Projektes zu verarbeiten. Hintergrund sind – wie schon beim internationalen Projekt Gutenberg – bereitgestellt Feeds. OpenLibrary stellt dankenswerterweise nicht nur seine Softwarelösung, sondern auch seinen Gesamtbestand als Feeds im JSON-Format frei im Netz bereit. Insgesamt handelt es sich um einen Gesamtabzug aller mehr als 20 Millionen Titeldaten, bei denen Verfasser über einen internen Schlüssel mit den Informationen aus einem weiteren Verfasser-Gesamtabzug verknüpft sind.

Über das verhandene Merkmal ocaid können Titeldaten, zu denen der Volltext auch als Digitalisat vorliegt, identifiziert und selektiert werden. Ein Konverter für den KUG war schnell erstellt, so dass wir nun auf unserem Testsystem bereits den Datenbestand der selektierten E-Books aus der OpenLibrary über einen eigenen Einsprung integrieren konnten.