09 Jun
von Oliver Flimm - Kategorie: Allgemein, Ankündigungen, Einblicke und Konzepte
In der vergangenen Woche habe ich im Artikel Nachweise freier Inhalte in den OPAC bereits davon berichtet, dass wir über Möglichkeiten der Integration von Nachweisen der Digitalisate des Internet Archivs in den KUG nachdenken.
Seither habe ich rund um das Auffinden und Aufarbeiten der Digitalisate des Internet Archives in lokalen Katalog-Anwendungen recherchiert und fasse das Gefundene hier einmal kurz zusammen. Vielleicht kann das ja dem einen oder anderen bei einer möglichen Integration helfen…
Ein großer Teil des Textbestandes im Internet Archiv, insgesamt knapp 565.000 Verweise auf digitalisierte Bücher und Zeitschriften, kann über den Umweg der Open Library sehr einfach verarbeitet werden. Anders als das Internet Archiv bietet die Open Library einen Komplettabzug ihres Datenbestandes im JSON-Format an – das sind mehr als 20 Millionen Titel- und mehr als 6 Millionen Verfassersätze. Digitalisierte Titel sind über eine vergebene ocaid identifizierbar – Namensgeber für diese ID ist anscheinend die Open Content Alliance (Wikipedia-Eintrag). Die ocaid geht sowohl beim Internet Archiv wie auch bei Open Library an verschiedenen Stellen in die Struktur von URLs ein, für das Digitalisat von Alice’s Abenteuer im Wunderland ist sie z.B. alicesabenteueri00carr. Zwar sind bei der Open Library an vielen Stellen mehr als 1 Million verfügbare Digitalisate genannt, ein einfaches grep nach ocaid in der Feed-Datei bringt jedoch nur die knapp 565.000 Digitalisate zum Vorschein.
Für Update-Zwecke per Bulk-Load und PermaLinks zu den jeweiligen bibliographischen Daten im KUG sind die von Open Library vergebenen numerischen Identifikationsnummern sicherlich hilfreich, die man dann intern übernehmen könnte.
Alternativ besteht auch der Weg über einen Abzug der Metadaten via OAI im Internet Archiv, entweder eingeschränkt auf einzelne Sammlungen oder generell über den Medientyp Texts:
Immerhin wären so derzeit potentiell 1.432.511 Verweise auf Texte abrufbar. Was alles genau darunter zu fassen ist, wäre auszutesten. Danach müsste man sich dann nach den Identifiern mit GetRecord durchhangeln wie hier bei unserem Beispiel Alice’s Abenteuer im Wunderland
Dieser Identifier besitzt folgende Detail-Anzeige im Internet Archiv: http://www.archive.org/details/alicesabenteueri00carr
Ein großer Nachteil beim Harvesten über OAI ist, daß es damit leider nicht getan wäre – denn die dort ausgegebenen DC-Metadaten entsprechen nicht dem Umfang eines zugehörigen Open Library-Titels. Also müssten MARC-Daten zusätzlich per HTTP via wget pro Titel z.B. über
http://www.archive.org/download/alicesabenteueri00carr/
abgeholt und verarbeitet werden. Da aus diesen MARC-Daten aber offensichtlich wiederum die Katalogisate in der Open Library gebildet werden, haben wir uns wegen der deutlich einfacheren Handhabbarkeit der Feed-Dateien für eine Integration des E-Book-Teilbestandes der Open Library entschlossen – auch wenn damit noch nicht das theoretische Maximum an Digitalisaten ausgeschöpft wird. Insgesamt ist der Download der Feed-Dateien sicherlich deutlich leichtgewichtiger als der Weg über OAI und wget. Die Erstellung des zugehörigen Konverter-Programms für den KUG war ebenfalls relativ simpel.
Der genannte Beispieltitel entspricht dann z.B. folgender Aufnahme im KUG:
http://kug.ub.uni-koeln.de/portal/connector/permalink/openlibrary/9803468/1/openlibrary/index.html
Somit können wir seit heute den Bestand der knapp 565.000 E-Books aus der Open Library im KUG als weiteren Katalog anbieten. Dieser ist zusätzlich über einen eigenen Einsprung “OpenLibrary.org / E-Books” erreichbar. Interessant bei der Integration dieses Katalogs waren für uns auch die im KUG-Kontext verfügbaren Wort-Wolken für Schlagworte, DDC-Systematik und Erscheinungsjahre, um einen groben Überblick der thematischen und zeitlichen Zusammensetzung des Bestandes zu bekommen.
Aktualisierung 13.6.2009:
Anders als Herr Graf, der – entsprechend seiner Kritik an unserer Entscheidung für Feeds – technische Praktikabilität, Umsetzbarkeit und Effizienz bei der Entscheidung Feeds vs. OAI als Entscheidungskriterium nicht gelten lässt, sind diese für eine tatsächliche Umsetzung dennoch gemeinhin von einer zentralen Relevanz.
Wie er aus einem einfachen Identify auf die OAI-PMH-Schnittstelle des Internet Archives leicht hätte entnehmen können, kann diese leider keine Informationen über gelöschte Datensätze weitergeben. Hier die wesentliche Stelle aus der OAI-PMH-Spezifikation:
2.5.1 Deleted records
If a record is no longer available then it is said to be deleted. Repositories must declare one of three levels of support for deleted records in the
deletedRecordelement of the Identify response:
no– the repository does not maintain information about deletions. A repository that indicates this level of support must not reveal a deleted status in any response.
Damit müsste man sich nach der Wahl für OAI nun entscheiden, ob man recherchierbare Verweise ohne tatsächlich auffindbares Digitalisat weiterhin im Katalog belassen möchte – und damit die berechtigte Kritik der Nutzer auf sich zieht – oder alle derzeit knapp 1.4 Millionen Datensätze bei jeder lokalen Aktualisierung immer wieder komplett abfragen muss…
Wie mir scheint sehr aufwändig und unsozial dem Internet Archive gegenüber, wenn z.B. jede Nacht deren Komplettbestand per OAI abgesaugt würde…
Aus meiner Sicht ein sehr praktischer Grund, warum eine Entscheidung für die OAI-Schnittstelle des Internet Archivs nicht unproblematisch ist. Es bleibt zu hoffen, dass die Open Library selbst nicht via OAI vom Internet Archive gefüllt wird…
4 Kommentare
kg
13|Jun|2009 1dass mein beitrag verfälschend wiedergegeben wird, ist wohl in ordnung, wenn man selbstgerecht die eigenen fehlentscheidungen rechtfertigen muss. ich habe mich überhaupt nicht über gelöschte datensätze ausgelassen, und im ursprünglichen beitrag war auch keine rede davon.
ich würde es gern sehen, wenn die praktische relevanz gelöschter datensätze erst einmal dargelegt würde, bevor man sie zum alleinigen kriterium erhebt.
im übrigen habe ich noch an anderen fehlentscheidungen des KUG kritik geübt.
Oliver Flimm
13|Jun|2009 2Lieber Herr Graf,
vielleicht lesen Sie doch noch mal Ihren Artikel
Sie haben die Entscheidung kritisiert, nicht den Gesamtbestand des Internet Archivs per OAI zu verwenden.
Was ich wiederum kritisiere ist, dass Sie – wenn Sie selbst schon so Position für die Verwendung von OAI und für die Nutzung des ganzen Internet Archivs beziehen (naja, Sie wollen ja nur die ‘guten’ Datensätze…) – sich keinen Deut um die technische Realisierbarkeit kümmern.
Vielleicht wäre Ihnen ja aufgefallen, dass es eben dieses – von mir bewusst nachgeschobene – Detail der Löschungen gibt, dass nicht gerade für Ihre Position spricht…. Vielleicht wären Sie ja zufällig darauf gestoßen, wenn Sie sich im Vorfeld sachlich mit der Problematik auseindergesetzt hätten.
Zu den anderen “Fehlentscheidungen des KUG”, dem internationales Projekt Gutenberg: Was mir bei Ihren Kommentaren im Wesentlichen fehlt, sind sachlich untermauerte Argumente. Warum ist das internationale Projekt Gutenberg denn so schlecht, wenn Sie selbst in
der Vergangenheit
http://log.netbib.de/archives/2003/11/19/neues-beim-projekt-gutenberg/
noch extra auf tolle Nutzungsmöglichkeiten des wohl eher
lizenzrechtlich problematischen deutschen Projektes Gutenberg aufmerksam machen.
Nur weil Sie etwas – gerade im Kontext der von Ihnen genannten ‘Informationskompetenz von Studierenden’ – ablehnen, muss sich die ganze bibliothekarische Welt nicht freiwillig in Selbstzensur ergehen.
Umgekehrt wird ein Schuh daraus: Informationskompetenz der Studierenden ist die Lösung – wie habe ich Quellen zu bewerten anhand von einer Vielzahl anderer Quellen. Nicht aber das Verschließen von
PG (oder der Wikipedia, wie es andere vielleicht gerne hätten) in den abgesicherten Giftschrank. Eine Zensur findet *nicht* statt.
Zum Thema ‘praktische Relevanz von Löschsaetzen’ möchte ich noch anmerken: Wer hätte wohl als erster Hammer, Nagel und Kreuz herausgeholt, wenn er auf nur einen ‘toten’ Nachweis in einem Katalog aus Digitalisaten gestoßen wäre
Im Übrigen habe ich bereits mit Herrn Szczepanski Kontakt
aufgenommen und er hat mein Ansinnen eines Abzugs der freien E-Books aus GUNDA respektive LIBRIS an die jeweiligen zuständigen Personen weitergeleitet. Mal sehen, was sich da ergibt.
Mahler
20|Jun|2009 3Inzwischen wurde der verbesserte Archive.org-Reader in die Open Library integriert.
http://blog.openlibrary.org/2009/06/19/new-bits/
Oliver Flimm
20|Jun|2009 4Danke, die Nachricht von der Integration des neuen Readers hatte ich heute auch auf ol-discuss gelesen.
Da die Übersichtsseite vom Internet Archive neben dem verbesserten Reader auch alle anderen vorhandenen Formate anbietet u.a. auch PDFs, hatte ich anhand der ocaid unmittelbar nach Herrn Grafs Vorschlag das entsprechende Template angepasst und direkt ins IA verlinkt – das macht einfach Sinn.
Kommentar schreiben
Blog durchsuchen
Kategorien
Archiv
Links
Kalendar