Archive.org
Internet Archive est un organisme à but non lucratif consacré à l’archivage du Web qui agit aussi comme bibliothèque numérique. Ces archives électroniques sont constituées de clichés instantanés (copie de pages prises à différents moments) de pages web, de logiciels, de films, de livres et d’enregistrements audio. Pour assurer la stabilité et la sécurité des données archivées, un site miroir fonctionnel est conservé à la Bibliotheca Alexandrina en Égypte. L’IA met gratuitement ses collections à la disposition des chercheurs, historiens et universitaires. Située dans le Richmond District, au sud du Presidio de San Francisco, elle est membre de l'American Library Association et est officiellement reconnue comme bibliothèque par l'État de Californie. Le robot d'indexation utilisé par IA est Heritrix, un logiciel libre. Le logiciel de numérisation de livres, libre également, est Scribe.
Histoire
Internet Archive fut fondée en 1996 par Brewster Kahle. En raison de leurs objectifs la préservation de la connaissance humaine et l'accessibilité des collections à tous, les fondateurs de IA comparent ce projet à celui plus ancien de la bibliothèque d'Alexandrie.
Wayback Machine
La Wayback Machine (littéralement « la machine à revenir en arrière ») est la partie des clichés du Web développé par Internet Archive. Wayback Machine a été créé par Brewster Kahle afin de stocker et indexer tout ce qui se trouve sur le web. La Wayback Machine est mise à jour à partir du contenu d'Alexa. Ce service permet aux utilisateurs de voir les versions archivées de pages Web à travers le temps : c'est l'« index à trois dimensions ». Les clichés sont disponibles de six à douze mois après leur capture. La fréquence des instantanés est variable, toutes les mises à jour de sites Web ne sont pas enregistrées, et des intervalles de plusieurs semaines peuvent être observés. En 2006, la Wayback Machine contenait près de deux pétaoctets de données. Le volume augmente à un rythme de 20 téraoctets par mois, soit une augmentation de deux tiers par rapport aux douze téraoctets par mois qui étaient le taux de croissance en 2003. Cette croissance est supérieure à la quantité de texte contenue dans les plus importantes bibliothèques du monde, notamment la Bibliothèque du Congrès. En 2009, la Wayback Machine contenait près de trois pétaoctets de données et son augmentation était de 100 téraoctets par mois. Les données sont archivées dans des systèmes fabriqués par Capricorne Technologies, des Petabox racks. L'appellation « Wayback Machine » renvoie à des épisodes du The Rocky and Bullwinkle Show, où M. Peabody, un chien à l'air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une machine à remonter le temps appelée « WABAC Machine » pour décrire des évènements historiques célèbres. En 2015, la Russie aurait par erreur bloqué l'intégralité du site Wayback Machine.
Archive-It
Les utilisateurs désireux d'archiver en permanence et immédiatement leurs données peuvent utiliser, moyennant un abonnement, le service Archive-It de IA. Les données recueillies sont périodiquement indexées par la Wayback Machine. En décembre 2007, ce service avait créé plus de 230 millions d'URL pour 466 collections publiques, y compris des organismes gouvernementaux, des universités et des institutions culturelles.
Collections
En plus des archives Web, les services d'Internet Archive conservent d'importantes collections de médias numériques qui sont soit du domaine public soit titulaires d'une licence permettant leur redistribution, comme les licences Creative Commons. Les médias sont organisés en collections par type (images animées, son, texte, etc.) et en sous-collections selon différents critères. Chaque collection principale comprend une sous-collection Community, où les apports du public en général peuvent être archivés.
Images vidéos
Mis à part les longs métrages, la collection vidéo de l'Internet Archive comprend des actualités, des classiques de la bande dessinée, de la propagande pro et antiguerre et des documents plus éphémères des Archives Prelinger comme des publicités, des films éducatifs et industriels et des collections de films amateurs.
Sons
La collection audio regroupe de la musique, des livres audio, des émissions d'information, des spectacles radiophoniques anciens et une grande variété d'autres fichiers audio. La sous-collection Live Music Archive comprend 40 000 enregistrements de concerts d'artistes indépendants, ainsi que des artistes plus établis et des ensembles musicaux avec des règles moins strictes sur l'enregistrement des concerts tels que le Grateful Dead.
Textes
Cette collection rassemble des textes du Projet Gutenberg, des textes de diverses bibliothèques à travers le monde ainsi qu'une collection de documents et de notes issues de ARPANET. Avec plus de 7 millions de livres, l'Internet Archive est la deuxième plus grosse bibliothèque numérique de livres en libre accès dans le monde après Google Books. Tous les documents numérisés et mis en ligne par les internautes ou les institutions sont océrisés et convertis en fichiers EPUB pour liseuses ou MOBI pour Kindle et jouissent d'un archivage pérenne sur de nombreux serveurs dans le monde (Californie, Égypte, Chine, Pays-Bas, etc.) La Bibliothèque Sainte-Geneviève est la première bibliothèque française à participer au projet dès mars 2010. En France, l'École des Ponts ParisTech (depuis août 2012, l'Institut national de la recherche agronomique (depuis janvier 2015), Sciences Po Paris (depuis juin 2015), la Bibliothèque Interuniversitaire de Santé (depuis janvier 2018), la Bibliothèque universitaire des langues et civilisations (depuis septembre 2019)puis les Bibliothèques de l'École normale supérieure (depuis décembre 2020) y participent également.
Bibliothèque libre
Internet Archive est membre de l'Open Content Alliance et exploite l'Open Library, où plus de 200 000 livres numérisés appartenant au domaine public sont consultables en ligne et imprimables. Le système de numérisation de livres Scribe sert à cette fin. Lors de la pandémie de coronavirus, Internet Archive met à disposition des Américains des livres sous droits d'auteurs afin que ces derniers puissent étudier pendant le confinement. Plusieurs éditeurs ne sont pas d'accord et Internet Archive retire l'accès aux livres concernés le 16 juin 2020. Malgré tout, les éditeurs attaquent en justice le site et un procès est prévu pour 2021.
Site web : https://archive.org/
Commentaires
Enregistrer un commentaire