Internet Archive

Internet Archive
„Universal Access to All Knowledge“
Web-Archivierung /
Digitale Bibliothek
SprachenEnglisch
SitzSan Francisco, Kalifornien, Vereinigte Staaten Vereinigte Staaten
GründerBrewster Kahle
BetreiberInternet Archive
RedaktionBrewster Kahle
Registrierungoptional
Onlineseit 1996
https://archive.org/

Das Internet Archive in San Francisco ist ein gemeinnütziges Projekt, das 1996 von Brewster Kahle gegründet wurde und seit 2007 den offiziellen Status einer Bibliothek hat. Gestartet wurde es als reines Webarchiv, bei dem man mit der sogenannten Wayback Machine archivierte Websites betrachten kann. Schon von 1999 an wurde es um weitere Archive erweitert, so dass sie nunmehr eine digitale Bibliothek ist, die bedeutende Sammlungen von Texten und Büchern, Audiodateien, Videos, Bildern und Software umfasst. Das Internet Archive hat sich die Langzeitarchivierung digitaler Daten in frei zugänglicher Form zur Aufgabe gemacht und legt dabei auch Wert auf Zugangsmöglichkeiten für blinde oder anders eingeschränkte Nutzer.

Neben der Funktion als Archiv versteht sich das Internet Archive auch als Aktivist für ein offenes und freies Internet sowie den Erhalt und die Verbreitung gemeinfreier Werke.[1]

Entstehung und Geschichte

Brewster Kahle, Gründer von Alexa Internet und des Internet Archives (2015)
Spiegelserver mit den Daten von San Francisco in der ägyptischen Bibliotheca Alexandrina

Brewster Kahle gründete das Internet Archive im Mai 1996 als Non-Profit-Organisation nach Paragraph 501(c)(3) des US-amerikanischen Einkommensteuerrechts. Es erhielt gleich zu Beginn eine große Datenlieferung von Alexa Internet. Es speichert im Rahmen der Web-Archivierung sogenannte Mementos, d. h. Momentaufnahmen von Webseiten und Usenet-Beiträgen.[2]

Von 1999 an wurde durch die Aufnahme der Prelinger Archives und später weiterer Sammlungen das Ziel auf eine umfassende frei zugängliche Bibliothek erweitert.

Ende 2023 umfasst das Internet Archive eine Sammlung von:

  • 46,1 Millionen Büchern und Texten,
  • 11 Millionen Videos und Filmen,
  • 14 Millionen Audiodateien,
  • 1 Million Computerprogrammen und
  • 4,8 Millionen Bilddateien.

Das Webarchiv der Wayback Machine enthält inzwischen mehr als 839 Milliarden Webseiten.[2]

Für 2021 berichtete das Projekt, dass die Daten in vier Rechenzentren auf 28.000 Festplatten gespeichert würden. Ein Spiegelserver der Daten von San Francisco befindet sich unter anderem in der ägyptischen Bibliotheca Alexandrina. Im Dezember 2021 erreichte die Sammlung eine Größe von über 212 Petabytes.[3]

Das Archiv ist vom US-Bundesstaat Kalifornien seit Anfang Mai 2007 offiziell als Bibliothek anerkannt.[4]

Eine weitere Kopie ist mit einer Speicherkapazität von 100 TB ist in Amsterdam, Niederlande seit Juni 2004 in Betrieb.[3]

Seit den Wahlen vom 8. November 2016 plant das Internetarchiv nach Aussage auf seiner Website, eine permanent aktualisierte Kopie in Kanada zu hinterlegen.[5]

Anlässlich des 25. Jahrestags seines Bestehens veröffentlichte das Internet Archive am 30. September 2021 die „Wayforward Machine“; eine dystopische Website, welche ein stark zensiertes Internet im Jahre 2046 darstellt.[6]

Klage von Verlagen

Eine Reihe amerikanischer Verlage haben 2020 das gemeinnützige Internet Archive verklagt. Sie wollen für 127 mutmaßliche Urheberrechtsverletzungen um die 19 Millionen US-Dollar, was etwa dem Jahresbudget des Internet Archives entspricht. Das Archiv wehrt sich mit einem Antrag auf Beendigung dieser existenzbedrohenden Klage. Die Electronic Frontier Foundation (EFF) verteidigt das Internet Archive und kritisiert, die Klage der Verlage ziele darauf ab, das Ausleihen in Bibliotheken zu kriminalisieren.[7]

Dienste

Internet Archive in San Francisco (1996–2009)
Neue Zentrale des Internet Archive seit November 2009 in einer ehemaligen „Christian Science“-Kirche
© Raimond Spekking / CC BY-SA 4.0 (via Wikimedia Commons)
Internet Archive in der Bibliotheca Alexandrina. Hinter den Glasscheiben stehen die Racks mit den Archivcomputern.
Video einer Vorführung der Digitalisierungstechnik des Internet Archives von Brewster Kahle, 29. März 2013

Audiodateien

Das Audioarchiv enthält im Jahr 2023 über 15 Millionen Tonaufnahmen (Stand: Juni 2023).[8] Diese reichen von Hörfunksendungen und Radio-Features über Hörbücher, Dichterlesungen, Live-Konzertmitschnitten bis hin zu Musik, die von Benutzern hochgeladen wurde. Das Archiv kann auch genutzt werden, um Podcasts zu veröffentlichen.[9] Das Archiv enthält auch eine Vielzahl von digitalisierten alten Schellackplatten aus der ersten Hälfte des 20. Jahrhunderts. Deswegen wurde das Internet Archive 2023 von der Musikindustrie auf Schadensersatz von bis zu 412 Millionen US-Dollar verklagt.[10]

Bilder

Das Bildarchiv umfasste im März 2023[11] mehr als 4,8 Millionen Dateien. Dabei handelt es sich um Abbildungen von Kunstwerken, beispielsweise eine Sammlung von Werken aus dem Metropolitan Museum of Art mit über 100.000 Einträgen, Abbildungen von historischen Landkarten, astronomische Aufnahmen der NASA, Schallplattencover sowie auch frei verfügbare Aufnahmen von Privatpersonen.

Software

Die Library of Congress hat im Dezember 2006 sechs Ausnahmen des US-Copyright-Gesetzes Digital Millennium Copyright Act gewährt.[12] Das Internet Archive darf somit Computer-Software oder ‑Spiele, welche zu Abandonware[13] wurden, mit der Absicht der Erhaltung speichern, wenn die Originalhardware, ‑formate oder ‑technik veraltet sind. 2013 begann das Internet Archive damit, Spieleklassiker als spielbares Webbrowser-Streaming via M.E.S.S.-Emulation anzubieten,[14] z. B. das Atari-2600-Videospiel E.T. the Extra-Terrestrial.[15] Vom 23. Dezember 2014 an werden zu Lehr- und Forschungszwecken[16] mithilfe von DOSBox-Emulation im Browser tausende von klassischen DOS-Computerspielen präsentiert.[17][18][19][20] Bisher wurden 1.061.000 Titel archiviert.[21] Im Jahre 2013 begann das Internet Archive, Spieleklassiker als spielbares Webbrowser-Streaming via M.E.S.S.-Emulation anzubieten.[14] Bisher umfasst die Sammlung 15.900 Titel (Stand: Dezember 2023).[22]

Texte

In dem Million Book Project werden durch das Internet Archive Bücher, die durch das Ablaufen des Copyrights (US-amerikanisches Urheberrecht) oder aus anderen Gründen gemeinfrei geworden sind, digitalisiert und zum Herunterladen zur Verfügung gestellt. Die Digitalisate sind Teil der Open Library. Inzwischen sind mehr als 46 Millionen Bücher und Texte archiviert (Stand: Dezember 2023).

Es werden mehrere Scan-Center (2009 insgesamt zwölf) unterhalten, zum Beispiel in Richmond. Gescannt wird per Auftrag, berechnet werden pro Seite 14 US-Cent (Stand 2023).[23] Die Auftraggeber, meist Bibliotheken, erhalten das Digitalisat, eine per OCR erzeugte Textdatei, eine persistente Internetadresse sowie die Möglichkeit, die Digitalisate auf den Servern des Vereins zu speichern.[24] Weiterhin bestehen Kooperationsvereinbarungen mit selbst digitalisierenden Bibliotheken für einzelne Dienste, wie OCR und redundantes Hosting.

Bücher

Um die Glaubwürdigkeit von referenzierten Zitaten aus Büchern in der Wikipedia zu verbessern, gibt es seit 2019 eine Kooperation zwischen der Wikipedia und dem Internet-Archiv. Es wurde damit begonnen, den Quellenangaben in Wikipedia-Artikeln digitale Scans der zitierten Bücher anzufügen.[25] Auf jeweils zwei Seiten wird die fragliche Passage dargestellt. Ein Beispiel hierfür ist das Zitat Nummer 163 (Stand 26. Oktober 2022) im Artikel über Martin Luther King in der englischsprachigen Wikipedia.[26]

Open-Access-Publikationen

Im September 2020 stellte das Internet Archive eine Initiative zur Archivierung und Bereitstellung von Open-Access-Publikationen unter dem Namen „Internet Archive Scholar“ vor.[27]

Videos und Filme

Unter der Rubrik „Video“ bietet das Internet Archive über 11 Millionen Videos (Stand: Dezember 2023) an. Die Unterrubrik „Movies“ enthält über 88.000 Videodateien, darunter zahlreiche alte Filmklassiker. Trailer und Kurzfilme gehören ebenso zum Angebot wie diverse Propagandafilme aus der Zeit des Zweiten Weltkrieges.[28]

Die mehr als 3.500 Stummfilme beinhalten unter anderem 443 Filme in der Rubrik „Silent Hall of Fame“ mit frühen Werken von Charlie Chaplin oder Buster Keaton, aber auch deutschen Regisseuren wie Robert Wiene (vertreten u. a. mit Das Cabinet des Dr. Caligari von 1920). Ergänzt wird das Spielfilmangebot durch frühe Dokumentarfilme, die z. B. die Ankunft europäischer Einwanderer 1909 auf Ellis Island zeigen (von Billy Bitzer).[29] In der separat gelisteten Kollektion von Georges Méliès sind natürlich dessen bekannte Genre-Klassiker vertreten, wie der 16-minütige Stummfilm Die Reise zum Mond von 1902.[30]

Neben Experimentalfilmen namhafter Regisseure wie Ingmar Bergman (z. B. Persona, 1966) gibt es auch Klassiker vom Großmeister Alfred Hitchcock, der u. a. mit Im Schatten des Zweifels (1946) vertreten ist. Der Spanier Segundo de Chomón hat ebenfalls eine eigene Rubrik, ebenso wie der deutsche Experimentalfilmer Lutz Mommartz und der Österreicher Johann Schwarzer. Unterschiedliche Genres werden bedient, es gibt sowohl Historisches als auch eine Rubrik mit fast 300 Filmkomödien[31] und über 450 Science-Fiction- und Horrorfilme, wie z. B. Nosferatu – Eine Symphonie des Grauens von Friedrich Wilhelm Murnau (1922),[32] neben seltenen Grindhouse- und Exploitationfilmen[33] wie Sex Madness (1938), oder Begotten (E. Elias Merhige, 1989) sowie Cyberpunkwerken wie Tetsuo: The Iron Man des Japaners Shin’ya Tsukamoto.

Der Film Noir ist mit 700 abrufbaren Beiträgen vertreten, einschließlich Straße der Versuchung von Fritz Lang (1946) und Der dritte Mann von Carol Reed (1949).[34]

Außerdem gibt es über 8.900 Filme und Videos aus dem Themenbereich Sport,[35] 6.700 animierte Filme und Kurzfilme,[36] sowie über 18.300 Inhalte aus den Themenbereichen Kunst und Musik[37] und über 136.000 visuelle Beiträge zu Religion und Spiritualität.[38]

Websites

Logo der Wayback Machine

Die Wayback Machine („Take Me Back“) ist ein Onlinedienst, mit dem man die gespeicherten Webseiten in verschiedenen Versionen abrufen kann. Die zu speichernden Seiten werden über den Dienst Alexa Internet ausgewählt. Alle dort hinterlegten URLs werden regelmäßig aufgerufen und archiviert. Man kann eine noch nicht gespeicherte Internet-Ressource auch von Hand, durch Suchen nach der Seite und anschließendes Bestätigen der Aufnahme, aufnehmen lassen (Dateiinhalte, z. B. JPG-Bilder, werden ohne vorherige Nachfrage gespeichert). Der Gesamtumfang betrug im November 2009 etwa 150 Milliarden Seiten und wuchs bis Juli 2023 auf über 821 Milliarden Seiten an.

Mit Archive-It wurde 2006 ein weiteres Webarchiv-Service für individuelle Webarchivierung bereitgestellt. Hierbei haben Institutionen und Einzelpersonen die Möglichkeit, digitale Sicherungen ihrer Sammlungen anzulegen und die Freigabe der Daten selbst festzulegen. Archive-It verfügt über 400 Partner aus 16 Staaten weltweit, wobei sich diese vor allem aus Universitäten, staatlichen Archiven, Museen und Kunstbibliotheken, öffentlichen Bibliotheken sowie weiteren öffentlich-rechtlichen Institutionen und NGOs zusammensetzen. Archive-It bietet für teilnehmende Partner eine Volltextsuche auf ihre Inhalte, aber auch die Möglichkeit, mit Metadaten angereicherte strukturierte Datensätze für Forscher zu exportieren.[39]

Die Aufnahme der Prelinger Archives[40] im Jahr 1999 war die erste über die Webarchivierung hinausgehende Erweiterung des Internet Archives. Es enthält heute gut drei Millionen Videos und Filme, die unter freier Lizenz oder Public Domain stehen. Es wird hier auch an einem Archiv für Fernsehsendungen gearbeitet.

Finanzierung

Das Internet Archive finanziert sich durch Spenden und Zuwendungen diverser Stiftungen, Institute und Vereinigungen aus den Bereichen Bildung, Forschung, Wissenschaften etc. Im April 2019 wurden vom Internet Archive folgende Geldgeber angegeben: Andrew W. Mellon Foundation, Council on Library and Information Resources, United Nations Democracy Fund, Federal Communications Commission Universal Service Program for Schools and Libraries (E-Rate), Institute of Museum and Library Services (IMLS), Knight Foundation, Laura and John Arnold Foundation, National Endowment for the Humanities (Office of Digital Humanities), National Science Foundation, The Peter and Carmen Lucia Buck Foundation, The Philadelphia Foundation, Rita Allen Foundation.[2]

Literatur

  • Alexis Rossi: Föderale Vielfalt – globale Vernetzung: Strategien der Bundesländer für das kulturelle Erbe in der digitalen Welt. Hrsg.: Ellen Euler, Stiftung Preußischer Kulturbesitz (= Kulturelles Erbe in der digitalen Welt). 1. Auflage. Hamburg University Press, Verlag der Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky, Hamburg 2016, ISBN 978-3-943423-34-1, Internet Archive, S. 224–237 (d-nb.info [PDF; 6,1 MB] Alternativ; ISBN 978-3-943423-35-8 [E-Book]; ISBN 978-3-943423-36-5 [PDF]).

Siehe auch

Weblinks

Commons: Internet Archive – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

  1. Internet Archive, Prelinger Archives, and Project Gutenberg Literary Archive Foundation. In: cyber.harvard.edu. Harvard University, abgerufen am 27. Februar 2021 (englisch).
  2. a b c About the Internet Archive. In: archive.org. Internet Archive, abgerufen am 31. Dezember 2023 (englisch).
  3. a b Petabox. In: archive.org. Abgerufen am 31. Dezember 2023 (englisch).
  4. Internet Archive officially a library. Internet Archive forum. In: archive.org. 25. Juni 2007, abgerufen im Jahr 2021 (englisch).
  5. Brewster Kahle: Help Us Keep the Archive Free, Accessible, and Reader Private. Internet Archive Blogs. In: archive.org. 29. November 2016, abgerufen am 21. April 2017 (englisch).
  6. Imagine the future of the Internet. In: wayforward.archive.org. Abgerufen am 1. Oktober 2022 (englisch).
  7. Markus Reuter: Urheberrecht: Internet Archive wehrt sich gegen Millionenklage. In: netzpolitik.org. Netzpolitik.org e. V., 14. Juli 2022, abgerufen am 25. September 2022 (deutsch).
  8. Audio Archive. In: archive.org. Abgerufen am 11. Juli 2023 (englisch).
  9. Max Dalton: How to Host Podcast MP3 on Archive.org. In: TurboFuture. 15. April 2023 (englisch, turbofuture.com [abgerufen am 3. Oktober 2023]).
  10. Thomas Rudl, Wegen 100 Jahre alter Schallplatten: Musikindustrie verklagt Internet Archive, Netzpolitik.org vom 16. August 2023
  11. Image. In: archive.org. Abgerufen am 31. Dezember 2023 (englisch).
  12. Internet Archive wins copyright reprieve. In: theregister.co.uk. The Register, 1. Dezember 2006, abgerufen am 23. März 2021 (englisch).
  13. Ross Miller: US Copyright Office grants abandonware rights. In: joystiq.com. Archiviert vom Original am 23. März 2009; abgerufen am 7. Februar 2013 (englisch).
  14. a b Tilman Baumgärte: Timothy Leary, der Games-Entwicklerl. In: zeit.de. Zeit Online, 14. November 2013, abgerufen am 14. November 2013: „Wie erhält man historische Computerspiele? Das Internet-Archive streamt Dutzende Klassiker, in New York werden Games von Timothy Leary für die Forschung aufgearbeitet – Weil das Internet Archive die Spiele ‚streamt‘, man sie also nicht auf den eigenen Rechner lädt, verletzt man auch das Urheberrecht nicht, wenn man die Programme benutzt.“
  15. Adi Robertson: The Internet Archive puts Atari games and obsolete software directly in your browser. In: The Verge. 25. Oktober 2013, abgerufen am 29. Oktober 2013 (englisch).
  16. Internet Archive’s Terms of Use, Privacy Policy, and Copyright Policy. archive.org, 31. Dezember 2014, abgerufen am 8. Januar 2015 (englisch): „Access to the Archive’s Collections is provided at no cost to you and is granted for scholarship and research purposes only.“
  17. Abby Ohlheiser: You can now play nearly 2,400 MS-DOS video games in your browser. In: The Washington Post. 5. Januar 2015, abgerufen am 8. Januar 2015 (englisch).
  18. Jason Scott: Each New Boot a Miracle. ASCII by Jason Scott. In: ascii.textfiles.com. 23. Dezember 2014, abgerufen am 25. September 2022 (amerikanisches Englisch).
  19. Internet Archive Search: collection:softwarelibrary_msdos. In: archive.org. Abgerufen am 25. September 2022 (englisch).
  20. Kris Graft: Saving video game history begins right now. In: Game Developer. 5. März 2015, abgerufen am 7. Februar 2024 (englisch).
  21. The Internet Archive Software Collection. In: archive.org. Abgerufen am 31. Dezember 2023 (englisch).
  22. Classic PC Games. In: archive.org. Abgerufen am 31. Dezember 2023 (englisch).
  23. Scanning Services. In: archive.org. Abgerufen am 30. Dezember 2023.
  24. Christoph Drösser: Das digitale Alexandria. In: Die Zeit. Nr. 4/2008, 17. Januar 2008, ISSN 0044-2070 (Archivierte Kopie. (Memento vom 23. Januar 2008 im Internet Archive) [abgerufen am 3. Oktober 2023]).
  25. Philipp Bovermann: Enzyklopädie – Fotobeweis. Gescannte Buchseiten sollen Wikipedia verlässlicher machen. In: sueddeutsche.de. Süddeutsche Zeitung, 10. November 2019, abgerufen am 14. November 2019.
  26. Drew D. Hansen: The Dream: Martin Luther King Jr. and the Speech that Inspired a Nation. 2. Auflage. EccoPress, New York 2005, ISBN 0-06-008477-4, S. 98 (englisch, archive.org – Alternativ; ISBN 978-0-06-185649-5 [E-Book]).; Vergleiche Artikel Martin Luther King Jr., Beleg 163 in der englischen Wikipedia, Stand 26. Oktober 2022, 12:17:49.
  27. How the Internet Archive is Ensuring Permanent Access to Open Access Journal Articles. In: blog.archive.org. 15. September 2020, abgerufen am 24. Oktober 2020 (englisch).
  28. Moving Image Archive. In: archive.org. Abgerufen am 23. Dezember 2023 (englisch).
  29. Silent Hall of Fame : Free Movies : Free Download, Borrow and Streaming : Internet Archive. In: archive.org. Abgerufen am 11. Juli 2023 (englisch).
  30. The Georges Méliès Collection : Free Movies : Free Download, Borrow and Streaming : Internet Archive. In: archive.org. Abgerufen am 25. September 2022 (englisch).
  31. Comedy Films Internet Archive, aufgerufen am 21. Februar 2022
  32. Sci-Fi / Horror Internet Archive, aufgerufen am 21. Februar 2022
  33. Picfixer Feature Film Collection : Free Movies : Free Download, Borrow and Streaming : Internet Archive. In: archive.org. Abgerufen am 25. September 2022 (englisch).
  34. Film Noir : Free Movies : Free Download, Borrow and Streaming : Internet Archive. In: archive.org. Abgerufen am 25. September 2022 (englisch).
  35. Sports Videos : Free Movies : Free Download, Borrow and Streaming : Internet Archive. In: archive.org. Abgerufen am 11. Juli 2023 (englisch).
  36. Animation & Cartoons : Free Movies : Free Download, Borrow and Streaming : Internet Archive. In: archive.org. Abgerufen am 11. Juli 2023 (englisch).
  37. Arts & Music : Free Movies : Free Download, Borrow and Streaming : Internet Archive. In: archive.org. Abgerufen am 31. Dezember 2023 (englisch).
  38. Spirituality & Religion : Free Movies : Free Download, Borrow and Streaming : Internet Archive. In: archive.org. Abgerufen am 11. Juli 2023 (englisch).
  39. About Archive-It. In: archive-it.org. Abgerufen am 23. März 2021 (englisch).
  40. Tim Brookes: Prelinger Archives: Thousands Of Old Films To Watch, Remix & Use In Your Own Projects (Stuff to Watch). In: makeuseof.com. 30. Juli 2012, abgerufen am 29. Oktober 2016 (englisch).

Koordinaten: 37° 46′ 56,3″ N, 122° 28′ 17,6″ W

Auf dieser Seite verwendete Medien

Internet Archive logo and wordmark.svg
Internet Archive logo and wordmark. Introduced as the site logo in March 2011 (2011-03-01; 2011-04-01). It is an abstract representation of a building with pillars at its entry, like its headquarters.
Wayback Machine logo 2010.svg
Das Logo des Website-Archivierungsprojektes des Internetarchiv namens „Wayback Machine“, welches seit dem Jahr 2001 verwendet wird.
Christian science church122908 02.jpg
Headquarters of Internet Archive, located in the former Fourth Church of Christ, Scientist, a neoclassic building with Greek columns on Funston Avenue, in Richmond District, San Francisco, California
Brewster Kahle bij de afsluiting van Beelden voor de Toekomst (16910310295).jpg
Autor/Urheber: Sebastiaan ter Burg from Utrecht, The Netherlands, Lizenz: CC BY 2.0
Brewster Kahle bij de afsluiting van Beelden voor de Toekomst
Internet Archive - Bibliotheca Alexandrina.jpg
© Raimond Spekking / CC BY-SA 4.0 (via Wikimedia Commons)
The Internet Archive in the Bibliotheca Alexandrina, mirror of the Internet Archive in San Francisco
Internet Archive headquarters exterior February 2008.jpg
Autor/Urheber: WikiLeon, Lizenz: CC BY-SA 4.0
Exterior view of the Internet Archive headquarters, taken on the day of the San Francisco Wikimedia Meetup.