Archivo de Internet

Compartir Imprimir Citar
Archivo digital sin fines de lucro
Desde finales de 2009, la sede del Archivo de Internet ha sido el edificio que antiguamente albergaba la Cuarta Iglesia de Cristo, Científico (San Francisco, California).

El Internet Archive es una biblioteca digital estadounidense fundada el 10 de mayo de 1996 y presidida por el defensor de la información gratuita Brewster Kahle. Brinda acceso gratuito a colecciones de materiales digitalizados como sitios web, aplicaciones de software, música, materiales audiovisuales e impresos. El Archivo también es una organización activista que aboga por una Internet libre y abierta. A partir del 1 de enero de 2023, Internet Archive tiene más de 36 millones de materiales impresos, 11,6 millones de piezas de contenido audiovisual, 2,5 millones de programas de software, 15 millones de archivos de audio, 4,5 millones de imágenes, 251 000 conciertos y más de 808 000 millones de páginas web en su Máquina Wayback.

Internet Archive permite que el público cargue y descargue material digital en su grupo de datos, pero la mayor parte de sus datos la recopilan automáticamente sus rastreadores web, que trabajan para preservar la mayor cantidad posible de la web pública. Su archivo web, Wayback Machine, contiene cientos de miles de millones de capturas web. El Archivo también supervisa numerosos proyectos de digitalización de libros, en conjunto uno de los esfuerzos de digitalización de libros más grandes del mundo.

Historia

Sede en el edificio 116 del Presidio de San Francisco en 2008

Brewster Kahle fundó Archive en mayo de 1996, casi al mismo tiempo que comenzó la empresa de rastreo web con fines de lucro Alexa Internet. En octubre de ese año, Internet Archive había comenzado a archivar y preservar la World Wide Web en grandes cantidades, aunque guardó la primera página conocida el 10 de mayo de 1996 a las 2:42 p. m. El contenido archivado estuvo disponible por primera vez para el público en general en 2001, cuando desarrolló Wayback Machine.

A fines de 1999, el Archivo amplió sus colecciones más allá del archivo web, comenzando con los Archivos Prelinger. Ahora, Internet Archive incluye textos, audio, imágenes en movimiento y software. Alberga una serie de otros proyectos: el archivo de imágenes de la NASA, el servicio de rastreo de contratos Archive-It y el catálogo de biblioteca editable en wiki y el sitio de información de libros Open Library. Poco tiempo después, el Archivo comenzó a trabajar para brindar servicios especializados relacionados con las necesidades de acceso a la información de las personas con problemas de lectura; los libros de acceso público se pusieron a disposición en un formato protegido de Sistema de Información Accesible Digital (DAISY).

Según su sitio web:

La mayoría de las sociedades asignan importancia a la preservación de los artefactos de su cultura y patrimonio. Sin tales artefactos, la civilización no tiene memoria y ningún mecanismo para aprender de sus éxitos y fracasos. Nuestra cultura ahora produce cada vez más artefactos en forma digital. La misión del Archivo es ayudar a preservar esos artefactos y crear una biblioteca de Internet para investigadores, historiadores y académicos.

En agosto de 2012, Archive anunció que había agregado BitTorrent a sus opciones de descarga de archivos para más de 1,3 millones de archivos existentes y todos los archivos cargados recientemente. Este método es el medio más rápido para descargar medios del Archivo, ya que los archivos se sirven desde dos centros de datos del Archivo, además de otros clientes de torrent que han descargado y continúan sirviendo los archivos. El 6 de noviembre de 2013, la sede de Internet Archive en el distrito de Richmond de San Francisco se incendió, destruyendo equipos y dañando algunos apartamentos cercanos. Según el Archivo, perdió un edificio lateral que albergaba uno de los 30 de sus centros de escaneo; cámaras, luces y equipos de escaneo por valor de cientos de miles de dólares; y "tal vez 20 cajas de libros y películas, algunas irremplazables, la mayoría ya digitalizadas y algunas reemplazables". El Archivo sin fines de lucro buscó donaciones para cubrir los daños estimados en $ 600,000.

Se lanzó una revisión del sitio como versión beta en noviembre de 2014 y el diseño heredado se eliminó en marzo de 2016.

En noviembre de 2016, Kahle anunció que Internet Archive estaba construyendo el Internet Archive of Canada, una copia del Archive que se ubicará en algún lugar de Canadá. El anuncio recibió una amplia cobertura debido a la implicación de que la decisión de crear un archivo de respaldo en un país extranjero se debió a la próxima presidencia de Donald Trump. Kahle fue citado diciendo:

El 9 de noviembre en América, nos despertamos a un nuevo gobierno promisorio cambio radical. Fue un recordatorio firme de que instituciones como las nuestras, construidas a largo plazo, necesitan diseñar para el cambio. Para nosotros, significa mantener nuestros materiales culturales seguros, privados y accesibles para siempre. Significa prepararse para una Web que pueda enfrentar mayores restricciones. Significa servir a los patronos en un mundo en el que la vigilancia gubernamental no va a desaparecer; de hecho parece que aumentará. A lo largo de la historia, las bibliotecas han luchado contra terribles violaciones de la privacidad, donde las personas han sido redondeadas simplemente por lo que leen. En el Archivo de Internet, estamos luchando para proteger la privacidad de nuestros lectores en el mundo digital.

A partir de 2017, OCLC e Internet Archive han colaborado para que los registros de Archive's de libros digitalizados estén disponibles en WorldCat.

Desde 2018, la residencia de artes visuales de Internet Archive, organizada por Amir Saber Esfahani y Andrew McClintock, ayuda a conectar a los artistas con los más de 48 petabytes de materiales digitalizados del Archivo. En el transcurso de la residencia de un año, los artistas visuales crean un cuerpo de trabajo que culmina en una exposición. La esperanza es conectar la historia digital con las artes y crear algo para que las generaciones futuras lo aprecien en línea o fuera de línea. Los artistas residentes anteriores incluyen a Taravat Talepasand, Whitney Lynn y Jenny Odell.

En 2019, su sede en San Francisco recibió una amenaza de bomba que obligó a evacuar temporalmente el edificio.

El Archivo de Internet adquiere la mayoría de los materiales de donaciones, como cientos de miles de discos de 78 rpm de la Biblioteca Pública de Boston en 2017, una donación de 250 000 libros de la Universidad de Trent en 2018 y la colección completa de Marygrove College's biblioteca en 2020 después de su cierre. Luego, todo el material se digitaliza y se retiene en almacenamiento digital, mientras que una copia digital se devuelve al propietario original y la copia de Internet Archive, si no es de dominio público, se presta a usuarios de todo el mundo uno a la vez bajo el control de Teoría de préstamos digitales (CDL) de la doctrina de la primera venta.

Operaciones

Espejo del Archivo de Internet en la Bibliotheca Alexandrina

The Archive es una organización sin fines de lucro 501(c)(3) que opera en los Estados Unidos. En 2019, tenía un presupuesto anual de $ 36 millones, derivado de los ingresos de sus servicios de rastreo web, varias asociaciones, subvenciones, donaciones y la Fundación Kahle-Austin. Internet Archive también gestiona campañas periódicas de financiación. Por ejemplo, una campaña de diciembre de 2019 tenía como objetivo llegar a $6 millones en donaciones.

El Archivo tiene su sede en San Francisco, California. De 1996 a 2009, su sede estuvo en el Presidio de San Francisco, una antigua base militar estadounidense. Desde 2009, su sede se encuentra en 300 Funston Avenue en San Francisco, una antigua Iglesia de la Ciencia Cristiana. En un momento, la mayor parte de su personal trabajaba en sus centros de escaneo de libros; a partir de 2019, el escaneo lo realizan 100 operadores pagos en todo el mundo. El Archivo también tiene centros de datos en tres ciudades de California: San Francisco, Redwood City y Richmond. Para reducir el riesgo de pérdida de datos, el Archivo crea copias de partes de su colección en lugares más distantes, incluida la Bibliotheca Alexandrina en Egipto y una instalación en Amsterdam.

El Archivo es miembro del Consorcio Internacional de Preservación de Internet y fue designado oficialmente como biblioteca por el estado de California en 2007.

Archivo web

Máquina Wayback

Logo Wayback Machine, utilizado desde 2001
Mark Graham

El Archivo de Internet aprovechó el uso popular del término "Máquina WABAC" de un segmento de la caricatura Las aventuras de Rocky y Bullwinkle (específicamente, La historia improbable de Peabody), y usa el nombre "Wayback Machine" por su servicio que permite buscar y acceder a archivos de la World Wide Web. Este servicio permite a los usuarios ver algunas de las páginas web archivadas. Wayback Machine se creó como un esfuerzo conjunto entre Alexa Internet (propiedad de Amazon.com) e Internet Archive cuando se creó un índice tridimensional para permitir la exploración de contenido web archivado. Cientos de miles de millones de sitios web y sus datos asociados (imágenes, código fuente, documentos, etc.) se guardan en una base de datos. El servicio se puede utilizar para ver cómo eran las versiones anteriores de los sitios web, para obtener el código fuente original de los sitios web que ya no están disponibles directamente o para visitar sitios web que ya no existen. No todos los sitios web están disponibles porque muchos propietarios de sitios web eligen excluir sus sitios. Al igual que con todos los sitios basados en datos de rastreadores web, Internet Archive pierde grandes áreas de la web por una variedad de otras razones. Un artículo de 2004 encontró sesgos internacionales en la cobertura, pero los consideró 'no intencionales'.

Compra de almacenamiento adicional en el Archivo de Internet
Servidores en la sede del Archivo de Internet en San Francisco

A "Guardar página ahora" La función de archivo estuvo disponible en octubre de 2013, accesible en la parte inferior derecha de la página principal de Wayback Machine. Una vez que se ingresa y se guarda una URL de destino, la página web se convertirá en parte de Wayback Machine. A través de la dirección de Internet web.archive.org, los usuarios pueden cargar en Wayback Machine una gran variedad de contenidos, incluidos PDF y formatos de archivo de compresión de datos. Wayback Machine crea una URL local permanente del contenido cargado, a la que se puede acceder en la web, incluso si no aparece en la lista durante la búsqueda en el sitio web oficial https://archive.org.

En octubre de 2016, se anunció que se cambiaría la forma en que se cuentan las páginas web, lo que resultará en una disminución de los recuentos de páginas archivadas que se muestran. Los objetos incrustados como imágenes, videos, hojas de estilo y JavaScript ya no se cuentan como una "página web", mientras que los documentos HTML, PDF y de texto sin formato se siguen contando.

Año Páginas archivadas (millones)
2005 40
2006 85
2007 85
2008 85
2009 150
2010 150
2011 150
2012 150
2013 373
2014 430
2015 479
2016 510

273

2017 286
2018 344
2019 396
2020 486
2021 635
2022 771

A Utilizando el antiguo sistema de conteo utilizado antes de octubre de 2016
B Usando el nuevo sistema de conteo utilizado después de octubre 2016

En septiembre de 2020, Internet Archive anunció una asociación con Cloudflare para indexar automáticamente los sitios web servidos a través de su servicio "Always Online" servicios.

Archivarlo

Brewster Kahle del Archivo de Internet habla sobre operaciones de archivo

Creado a principios de 2006, Archive-It es un servicio de suscripción de archivo web que permite a instituciones e individuos construir y preservar colecciones de contenido digital y crear archivos digitales. Archive-It permite al usuario personalizar su captura o exclusión de contenidos web que desee conservar por motivos de patrimonio cultural. A través de una aplicación web, los socios de Archive-It pueden recolectar, catalogar, administrar, navegar, buscar y ver sus colecciones archivadas.

En términos de accesibilidad, los sitios web archivados se pueden buscar en texto completo dentro de los siete días posteriores a la captura. El contenido recopilado a través de Archive-It se captura y almacena como un archivo WARC. Una copia principal y una copia de seguridad se almacenan en los centros de datos de Internet Archive. Se puede entregar una copia del archivo WARC a las instituciones asociadas suscritas para fines de conservación y almacenamiento con redundancia geográfica según sus estándares de mejores prácticas. Periódicamente, los datos capturados a través de Archive-It se indexan en el archivo general de Internet Archive.

En marzo de 2014, Archive-It contaba con más de 275 instituciones asociadas en 46 estados de EE. UU. y 16 países que han capturado más de 7400 millones de URL para más de 2444 colecciones públicas. Los socios de Archive-It son universidades y bibliotecas universitarias, archivos estatales, instituciones federales, museos, bibliotecas jurídicas y organizaciones culturales, incluida la Organización de Literatura Electrónica, los Archivos y Bibliotecas del Estado de Carolina del Norte, la Universidad de Stanford, la Universidad de Columbia, la Universidad Americana en El Cairo, Georgetown. Biblioteca de Derecho, y muchos otros.

Estudiante del Archivo de Internet

En septiembre de 2020, Internet Archive anunció una nueva iniciativa para archivar y preservar revistas académicas de acceso abierto, llamada Internet Archive Scholar. Su índice de búsqueda de texto completo incluye más de 25 millones de artículos de investigación y otros documentos académicos conservados en Internet Archive. La colección abarca desde copias digitalizadas de revistas del siglo XVIII hasta las últimas actas de conferencias de acceso abierto y preimpresiones rastreadas desde la World Wide Web.

Índice general

En 2021, Internet Archive anunció la versión inicial del Índice general, un índice disponible públicamente para una colección de 107 millones de artículos de revistas académicas.

Colecciones de libros

Colección de texto

Archivo de Internet "Scribe" lectura de libros
Un análisis interno del archivo de Internet en curso

Internet Archive opera 33 centros de escaneo en cinco países, digitalizando alrededor de 1000 libros por día para un total de más de 2 millones de libros, respaldados financieramente por bibliotecas y fundaciones. En julio de 2013, la colección incluía 4,4 millones de libros con más de 15 millones de descargas al mes. A partir de noviembre de 2008, cuando había aproximadamente 1 millón de textos, la colección completa superaba los 0,5 petabytes, lo que incluye imágenes de cámara sin procesar, imágenes recortadas y sesgadas, archivos PDF y datos de OCR sin procesar. Entre 2006 y 2008, Microsoft tuvo una relación especial con los textos de Internet Archive a través de su proyecto Live Search Books, escaneando más de 300.000 libros que se contribuyeron a la colección, así como apoyo financiero y equipos de escaneo. El 23 de mayo de 2008, Microsoft anunció que finalizaría el proyecto Live Book Search y dejaría de escanear libros. Microsoft puso a disposición sus libros escaneados sin restricciones contractuales y donó su equipo de escaneo a sus antiguos socios.

Alrededor de octubre de 2007, los usuarios de Archive comenzaron a subir libros de dominio público de la Búsqueda de libros de Google. En noviembre de 2013, había más de 900.000 libros digitalizados con Google en la colección del Archivo; los libros son idénticos a las copias que se encuentran en Google, excepto que no tienen las marcas de agua de Google, y están disponibles para su uso y descarga sin restricciones. Brewster Kahle reveló en 2013 que este esfuerzo de archivo fue coordinado por Aaron Swartz, quien, con un "grupo de amigos" descargó los libros de dominio público de Google con la suficiente lentitud y desde suficientes computadoras para mantenerse dentro de las restricciones de Google. Hicieron esto para asegurar el acceso público al dominio público. El Archivo se aseguró de que los artículos fueran atribuidos y vinculados a Google, que nunca se quejó, mientras que las bibliotecas "se quejaron". Según Kahle, este es un ejemplo del 'genio' de Swartz. para trabajar en lo que podría dar más al bien público para millones de personas. Además de los libros, el Archivo ofrece acceso público gratuito y anónimo a más de cuatro millones de opiniones judiciales, resúmenes legales o pruebas cargadas desde los tribunales federales de los Estados Unidos' Sistema de documentos electrónicos PACER a través del complemento del navegador web RECAP. Estos documentos se habían mantenido detrás de un muro de pago de un tribunal federal. En el Archivo, más de seis millones de personas habían accedido a ellos en 2013.

La aplicación web BookReader de The Archive, integrada en su sitio web, tiene funciones como modos de una página, dos páginas y miniaturas; modo de pantalla completa; zoom de página de imágenes de alta resolución; y animación de la página del tirón.

Número de textos para cada decenio
siglo XIX
Decenio Número de textos
(Julio 5, 2021)
1800 82.587
1810s 100,048
1820s 151.669
1830s 203,287
1840s 239,343
1850s 307,302
1860s 322,843
1870s 336.637
1880s 445.046
1890s 570.017
siglo XX
Decenio Número de textos
(Julio 5, 2021)
1900s 767.201
1910s 744.445
1920s 473,331
1930s 342,779
1940s 400.490
1950s 560.730
1960s 711.449
1970s 2.540.807
1980 1.124.927
1990s 1,379,398
siglo XXI
Decenio Número de textos
(Julio 5, 2021)
2000s 1,754,932
2010s 3.317.801
2020s 205,178
Número de textos para cada idioma
Idioma Número de textos
(2022)
Inglés 25,000,000
Francés 700.000
Dutch 700.000
Alemán 700.000
Chino 550.000
Árabe 450.000
Italiano 400.000
Español 300.000
japonés 150.000
Griego 150.000
Latina 150.000
Urdu 100.000
Total 34,000,000

Biblioteca abierta

La Biblioteca Abierta es otro proyecto de Internet Archive. El proyecto busca incluir una página web por cada libro publicado: contiene 25 millones de registros de catálogo de ediciones. También busca ser una biblioteca pública accesible en la web: contiene los textos completos de aproximadamente 1.600.000 libros de dominio público (de los más de cinco millones de la colección principal de textos), así como libros impresos y con derechos de autor, muchos de los cuales son totalmente legibles, descargables y de búsqueda de texto completo; ofrece un préstamo de dos semanas de libros electrónicos en su programa de préstamo digital controlado para más de 647 784 libros que no son de dominio público, en asociación con más de 1000 bibliotecas asociadas de seis países después de un registro gratuito en el sitio web. Open Library es un proyecto de software gratuito y de código abierto, con su código fuente disponible gratuitamente en GitHub.

La Biblioteca Abierta enfrenta objeciones de algunos autores y de la Sociedad de Autores, quienes sostienen que el proyecto está distribuyendo libros sin autorización y, por lo tanto, viola las leyes de derechos de autor, y cuatro editoriales importantes iniciaron una demanda por infracción de derechos de autor contra Internet Archive en Junio de 2020 para detener el proyecto Biblioteca Abierta.

Digitalización de patrocinadores para libros

Muchos grandes patrocinadores institucionales han ayudado a Internet Archive a proporcionar millones de publicaciones escaneadas (elementos de texto). Algunos patrocinadores que han digitalizado grandes cantidades de textos incluyen la Biblioteca Robarts de la Universidad de Toronto, las Bibliotecas de la Universidad de Alberta, la Universidad de Ottawa, la Biblioteca del Congreso, las bibliotecas miembros del Consorcio de Bibliotecas de Boston, la Biblioteca Pública de Boston, la Biblioteca de Princeton Biblioteca del Seminario Teológico, y muchos otros.

En 2017, MIT Press autorizó a Internet Archive a digitalizar y prestar libros del fondo de la editorial, con el apoyo financiero de Arcadia Fund. Un año después, Internet Archive recibió más fondos del Arcadia Fund para invitar a otras editoriales universitarias a asociarse con Internet Archive para digitalizar libros, un proyecto llamado "Desbloqueo de libros de prensa universitaria".

La Biblioteca del Congreso creó numerosos identificadores de sistema de identificadores que apuntaban a libros digitalizados gratuitos en Internet Archive. Internet Archive y Open Library figuran en el sitio web de la Biblioteca del Congreso como fuente de libros electrónicos.

Colecciones de medios

Lector de medios
Microfilms en el Archivo de Internet
Videocassettes en el Archivo de Internet

Además de los archivos web, Internet Archive mantiene amplias colecciones de medios digitales que el usuario que los subió certifica que son de dominio público en los Estados Unidos o que cuentan con una licencia que permite la redistribución, como las licencias Creative Commons. Los medios se organizan en colecciones por tipo de medio (imágenes en movimiento, audio, texto, etc.) y en subcolecciones según varios criterios. Cada una de las colecciones principales incluye una "Comunidad" subcolección (anteriormente llamada "Open Source") donde se almacenan las contribuciones generales del público.

Sonido

Archivo de audio

El archivo de audio es un archivo de audio que incluye música, audiolibros, transmisiones de noticias, programas de radio antiguos, podcasts y una amplia variedad de otros archivos de audio. A partir de enero de 2023, hay más de 15 000 000 de grabaciones digitales gratuitas en la colección. Las subcolecciones incluyen audiolibros y poesía, podcasts, audio que no está en inglés y muchos otros. Las colecciones de sonido están comisariadas por B. George, director del ARCHive of Contemporary Music.

Junto al reproductor de audio HTML5 estándar, está disponible Webamp similar a Winamp.

Biblioteca Digital de Radioaficionados y Comunicaciones

Un proyecto para preservar grabaciones de transmisiones de radioaficionados, con fondos de la fundación Amateur Radio Digital Communications.

Archivo de música en vivo

La subcolección Live Music Archive incluye más de 170.000 grabaciones de conciertos de músicos independientes, así como de artistas más establecidos y conjuntos musicales con reglas permisivas sobre la grabación de sus conciertos, como Grateful Dead y, más recientemente, The Smashing Pumpkins.. Además, Jordan Zevon ha permitido que Internet Archive albergue una colección definitiva de las grabaciones de conciertos de su padre, Warren Zevon. La colección de Zevon abarca desde 1976 hasta 2001 y contiene 126 conciertos que incluyen 1137 canciones.

El Gran Proyecto 78

The Great 78 Project tiene como objetivo digitalizar 250.000 sencillos de 78 rpm (500.000 canciones) del período comprendido entre 1880 y 1960, donados por diversos coleccionistas e instituciones. Ha sido desarrollado en colaboración con Archive of Contemporary Music y George Blood Audio, responsable de la digitalización del audio.

Etiquetas de red

The Archive tiene una colección de música de libre distribución que se transmite y está disponible para descargar a través de su servicio Netlabels. La música de esta colección generalmente tiene catálogos con licencia Creative Commons de sellos discográficos virtuales.

Colección de imágenes

Esta colección contiene más de 3,5 millones de artículos. Cover Art Archive, Metropolitan Museum of Art - Gallery Images, NASA Images, Occupy Wall Street Flickr Archive y USGS Maps son algunas subcolecciones de la colección de imágenes.

Archivo de portadas

Logotipo de portada Archivo de arte

The Cover Art Archive es un proyecto conjunto entre Internet Archive y MusicBrainz, cuyo objetivo es crear imágenes de portadas en Internet. A partir de abril de 2021, esta colección contiene más de 1 400 000 artículos.

Imágenes del Museo Metropolitano de Arte

Las imágenes de esta colección son del Museo Metropolitano de Arte. Esta colección contiene más de 140.000 artículos.

Imágenes de la NASA

El archivo de imágenes de la NASA se creó a través de un Acuerdo de la Ley Espacial entre el Archivo de Internet y la NASA para brindar acceso público a las colecciones de imágenes, videos y audio de la NASA en un solo recurso de búsqueda. El equipo de IA NASA Images trabajó en estrecha colaboración con todos los centros de la NASA para seguir agregando a la colección en constante crecimiento. El sitio nasaimages.org se lanzó en julio de 2008 y tenía más de 100 000 artículos en línea al final de su alojamiento en 2012.

Archivo de Flickr de Ocupar Wall Street

Esta colección contiene fotografías con licencia Creative Commons de Flickr relacionadas con el movimiento Occupy Wall Street. Esta colección contiene más de 15.000 artículos.

Mapas USGS

Esta colección contiene más de 59 000 elementos de Libre Map Project.

Imágenes matemáticas

Esta colección contiene imágenes matemáticas creadas por el artista matemático Hamid Naderi Yeganeh.

Archivo Machinima

Una de las subcolecciones del Video Archive de Internet Archive es Machinima Archive. Esta pequeña sección alberga muchos videos de Machinima. Machinima es una forma de arte digital en la que los juegos de computadora, los motores de juegos o los motores de software se utilizan en un modo similar a un espacio aislado para crear películas, recrear obras de teatro o incluso publicar presentaciones o conferencias. El archivo recopila una variedad de películas de Machinima de editores de Internet como Rooster Teeth y Machinima.com, así como de productores independientes. La subcolección es un esfuerzo de colaboración entre Internet Archive, el proyecto de investigación How They Got Game de la Universidad de Stanford, la Academia de Artes y Ciencias de Machinima y Machinima.com.

Colección de microfilmes

Esta colección contiene aproximadamente 160 000 elementos microfilmados de una variedad de bibliotecas, incluidas las Bibliotecas de la Universidad de Chicago, la Universidad de Illinois en Urbana-Champaign, la Universidad de Alberta, la Biblioteca Pública del Condado de Allen y el Servicio Nacional de Información Técnica.

Colección de imágenes en movimiento

El Archivo de Internet tiene una colección de aproximadamente 3863 largometrajes. Además, la colección de imágenes en movimiento de Internet Archive incluye: noticiarios, dibujos animados clásicos, propaganda a favor y en contra de la guerra, The Video Cellar Collection, Skip Elsheimer's 'A.V. Frikis" colección, televisión temprana y material efímero de Prelinger Archives, como películas publicitarias, educativas e industriales, así como colecciones de películas caseras y de aficionados.

Las subcategorías de esta colección incluyen:

Recursos educativos abiertos

Recursos Educativos Abiertos es una colección digital en archive.org. Esta colección contiene cientos de cursos gratuitos, conferencias en video y materiales complementarios de universidades de Estados Unidos y China. Los contribuyentes de esta colección son ArsDigita University, Hewlett Foundation, MIT, Monterey Institute y Naropa University.

Búsqueda de noticias de TV & pedir prestado

Televisores en el Archivo de Internet

En septiembre de 2012, Internet Archive lanzó TV News Search & Servicio de préstamo para buscar programas de noticias nacionales de EE. UU. El servicio se basa en transcripciones de subtítulos y permite a los usuarios buscar y transmitir videoclips de 30 segundos. Tras su lanzamiento, el servicio contenía "350.000 programas de noticias recopilados durante 3 años de cadenas y estaciones nacionales de EE. UU. en San Francisco y Washington D.C." Según Kahle, el servicio se inspiró en el Archivo de noticias de televisión de Vanderbilt, una biblioteca similar de programas de noticias de la red televisada. A diferencia de Vanderbilt, que limita el acceso a la transmisión de video a las personas asociadas con los colegios y universidades suscritos, TV News Search & Borrow permite el acceso abierto a sus videoclips en streaming. En 2013, el Archivo recibió una donación adicional de "aproximadamente 40.000 cintas bien organizadas" de la herencia de una mujer de Filadelfia, Marion Stokes. Stokes "había grabado más de 35 años de noticias de televisión en Filadelfia y Boston con sus máquinas VHS y Betamax."

Colecciones misceláneas

Museo de Brooklyn

Esta colección contiene aproximadamente 3000 artículos del Museo de Brooklyn.

Biblioteca Michelson

En diciembre de 2020, la biblioteca de investigación cinematográfica de Lillian Michelson fue donada al archivo.

Otros servicios y gestiones

Medios físicos

Un intercomunicador de pared vintage, un ejemplo de otro elemento "archivado"

Al expresar una fuerte reacción a la idea de que los libros simplemente se desechen, e inspirada por la Bóveda Global de Semillas de Svalbard, Kahle ahora prevé recopilar una copia de cada libro que se haya publicado. 'No vamos a llegar allí, pero ese es nuestro objetivo', dijo. Junto con los libros, Kahle planea almacenar los antiguos servidores de Internet Archive, que fueron reemplazados en 2010.

Software

Internet Archive tiene "la mayor colección de software histórico en línea del mundo", que abarca 50 años de historia informática en terabytes de revistas y diarios informáticos, libros, discos shareware, sitios FTP, videojuegos, etc. Internet Archive ha creado un archivo de lo que describe como "software antiguo", como una forma de preservarlos. El proyecto abogó por una exención de la Ley de derechos de autor del milenio digital de los Estados Unidos para permitirles eludir la protección contra copias, que la Oficina de derechos de autor de los Estados Unidos aprobó en 2003 por un período de tres años. El Archivo no ofrece el software para descargar, ya que la exención es únicamente "con el propósito de preservación o reproducción de archivo de obras digitales publicadas por una biblioteca o archivo." La Biblioteca del Congreso renovó la exención en 2006 y en 2009 la extendió indefinidamente a la espera de nuevas reglamentaciones. La Biblioteca reiteró la exención como "Regla final" sin fecha de vencimiento en 2010. En 2013, Internet Archive comenzó a proporcionar juegos de video abandonados que se pueden reproducir en el navegador a través de MESS, por ejemplo, el juego Atari 2600 E.T. el extraterrestre. Desde el 23 de diciembre de 2014, Internet Archive presenta, a través de una emulación de DOSBox basada en navegador, miles de juegos de DOS/PC con "fines académicos y de investigación únicamente". En noviembre de 2020, Archive presentó un nuevo emulador para Adobe Flash llamado Ruffle y comenzó a archivar animaciones y juegos Flash antes del final de la vida útil del complemento Flash el 31 de diciembre de 2020 en todos los sistemas informáticos.

Sistema de trazado de sobremesa

Se ha desarrollado un sistema de software de hardware combinado que realiza un método seguro de digitalización de contenido.

Unión de crédito

Desde 2012 hasta noviembre de 2015, Internet Archive operó Internet Archive Federal Credit Union, una cooperativa de crédito federal con sede en New Brunswick, Nueva Jersey, con el objetivo de brindar acceso a personas de ingresos bajos y medianos. A lo largo de su corta existencia, la IAFCU experimentó conflictos significativos con la Administración Nacional de Cooperativas de Ahorro y Crédito, lo que limitó severamente la cartera de préstamos de la IAFCU y las preocupaciones sobre el servicio a las empresas de Bitcoin. En el momento de su disolución, constaba de 395 miembros y tenía un valor de 2,5 millones de dólares.

Controversias, disputas legales y activismo

La sala principal de la sede actual

Muerta agradecida

(feminine)

En noviembre de 2005, se eliminaron del sitio las descargas gratuitas de conciertos de Grateful Dead. John Perry Barlow identificó a Bob Weir, Mickey Hart y Bill Kreutzmann como los instigadores del cambio, según un artículo de The New York Times. Phil Lesh comentó sobre el cambio en una publicación del 30 de noviembre de 2005 en su sitio web personal:

Se me señaló a mi atención que todos los espectáculos Grateful Dead fueron tomados desde Archive.org justo antes del Día de Acción de Gracias. No era parte de este proceso de toma de decisiones y se notificó que los espectáculos debían ser tirados. Siento que la música es el legado del Grateful Dead y espero que de una manera u otra todo esté disponible para aquellos que lo quieren.

Una publicación del foro del 30 de noviembre de Brewster Kahle resumió lo que parecía ser el compromiso alcanzado entre los miembros de la banda. Las grabaciones de la audiencia se podían descargar o transmitir, pero las grabaciones de la caja de resonancia debían estar disponibles solo para transmisión. Desde entonces, se han vuelto a agregar conciertos.

Cartas de seguridad nacional

Una carta de seguridad nacional emitida al Archivo de Internet exigiendo información sobre un usuario

El 8 de mayo de 2008, se reveló que Internet Archive había desafiado con éxito una carta de seguridad nacional del FBI que solicitaba registros de un usuario no revelado.

El 28 de noviembre de 2016, se reveló que se había impugnado con éxito una segunda carta de seguridad nacional del FBI que solicitaba registros de otro usuario no revelado.

Oposición a los proyectos de ley SOPA y PIPA

El Internet Archive bloqueó su sitio web durante 12 horas el 18 de enero de 2012, en protesta por los proyectos de ley Stop Online Piracy Act y PROTECT IP Act, dos leyes en el Congreso de los Estados Unidos que, según afirmaron, &# 34;afectar negativamente el ecosistema de publicación web que condujo a la aparición de Internet Archive". Esto ocurrió junto con el apagón de Wikipedia en inglés, así como muchas otras protestas en Internet.

Oposición al acuerdo de Google Books

Internet Archive es miembro de Open Book Alliance, que ha sido uno de los críticos más abiertos del Acuerdo sobre libros de Google. El Archivo aboga por un proyecto alternativo de biblioteca digital.

Revista Nintendo Power

En febrero de 2016, los usuarios de Internet Archive comenzaron a archivar copias digitales de Nintendo Power, la revista oficial de Nintendo para sus juegos y productos, que se publicó entre 1988 y 2012. Los primeros 140 números había sido recopilado, antes de que Nintendo eliminara el archivo el 8 de agosto de 2016. En respuesta a la eliminación, Nintendo le dijo al sitio web de juegos Polygon, "[Nintendo] debe proteger a nuestros propios personajes, marcas registradas y otros contenidos. El uso no aprobado de la propiedad intelectual de Nintendo puede debilitar nuestra capacidad para protegerla y preservarla, o posiblemente usarla para nuevos proyectos.

Gobierno de la India

En agosto de 2017, el Departamento de Telecomunicaciones del Gobierno de la India bloqueó Internet Archive junto con otros sitios web de intercambio de archivos, de conformidad con dos órdenes judiciales emitidas por el Tribunal Superior de Madras, citando preocupaciones de piratería después de las copias de dos películas de Bollywood. supuestamente se compartieron a través del servicio. La versión HTTP del archivo se bloqueó, pero permaneció accesible mediante el protocolo HTTPS.

Turquía

El 9 de octubre de 2016, Internet Archive se bloqueó temporalmente en Turquía después de que los piratas informáticos lo usaran (entre otros servicios de alojamiento de archivos) para alojar 17 GB de correos electrónicos gubernamentales filtrados.

Alojamiento de material terrorista

En mayo de 2018, un informe publicado por la empresa de ciberseguridad Flashpoint afirmaba que el Estado Islámico estaba utilizando Internet Archive para compartir su propaganda. Chris Butler, de Internet Archive, respondió que hablaban regularmente con los gobiernos de EE. UU. y la UE sobre el intercambio de información sobre terrorismo.

En abril de 2019, Europol, siguiendo una recomendación de la policía francesa, solicitó a Internet Archive que eliminara 550 sitios de "propaganda terrorista". El Archivo rechazó la solicitud, diciendo que los informes estaban equivocados sobre el contenido que señalaban o que eran demasiado amplios para que la organización los cumpliera.

En enero de 2022, un exprofesor de UCLA subió a Internet Archive un manifiesto de 800 páginas que contenía ideas racistas y amenazas contra el personal de UCLA. El manifiesto fue eliminado por Internet Archive después de una semana, en medio de una discusión sobre si dichos documentos deberían ser conservados por archiveros o no.

Biblioteca Nacional de Emergencias

En medio de la pandemia de COVID-19 que cerró muchas escuelas, universidades y bibliotecas, el Archivo anunció el 24 de marzo de 2020 que crearía la Biblioteca Nacional de Emergencia al eliminar las restricciones de préstamo que tenía vigentes durante 1.4 millones de libros digitalizados en su Biblioteca Abierta pero limitando a los usuarios a la cantidad de libros que pueden sacar y haciendo cumplir su devolución; normalmente, el sitio solo permitiría un préstamo digital por cada copia física del libro que tenían, mediante el uso de un archivo encriptado que quedaría inutilizable después de que se completara el período de préstamo. Esta Biblioteca permanecería como tal hasta al menos el 30 de junio de 2020, o hasta que termine la emergencia nacional de EE. UU., lo que ocurra más tarde. En el lanzamiento, Internet Archive permitió a los autores y titulares de derechos enviar solicitudes de exclusión voluntaria para que sus obras se omitan de la Biblioteca Nacional de Emergencia.

El Archivo de Internet dijo que la Biblioteca Nacional de Emergencia abordó una "necesidad global e inmediata sin precedentes de acceso a material de lectura e investigación" debido a los cierres de bibliotecas físicas en todo el mundo. Justificaron el movimiento de varias maneras. Legalmente, dijeron que estaban promoviendo el acceso a esos recursos inaccesibles, lo que afirmaron que era un ejercicio de principios de uso justo. El Archivo continuó implementando su política de préstamo digital controlado que precedió a la Biblioteca Nacional de Emergencia, lo que significa que todavía encriptaron las copias prestadas y no fue más fácil para los usuarios crear nuevas copias de los libros que antes. Solo un tribunal puede determinar en última instancia si la Biblioteca Nacional de Emergencia constituye o no un uso legítimo. Moralmente, también señalaron que Internet Archive era una biblioteca registrada como cualquier otra, que ellos mismos pagaban los libros o los recibían como donaciones, y que los préstamos a través de las bibliotecas eran anteriores a las restricciones de derechos de autor.

El Archivo ya había sido criticado por autores y editores por su anterior enfoque de préstamo, y tras el anuncio de la Biblioteca Nacional de Emergencia, los autores, editores y grupos que representaban a ambos cuestionaron aún más, equiparando el movimiento a la infracción de derechos de autor y la piratería digital, y usar la pandemia de COVID-19 como una razón para ampliar los límites de los derechos de autor (ver también: Biblioteca abierta § Acusaciones de violación de derechos de autor). Después de que las obras de algunos de estos autores fueran ridiculizadas en las respuestas, Jason Scott de Internet Archive solicitó que los partidarios de la Biblioteca Nacional de Emergencia no denigraran los libros de nadie: "Me doy cuenta de que hay fuerte debate y desacuerdo aquí, pero los libros dan y cambian vidas y estos escritores los hicieron."

Editores' pleito

La operación de la Biblioteca Nacional de Emergencia fue parte de una demanda presentada contra Internet Archive por cuatro importantes editoriales de libros: Hachette, HarperCollins, John Wiley & Sons y Penguin Random House: en junio de 2020, desafiando la validez de los derechos de autor del programa de préstamo digital controlado. En respuesta, Internet Archive cerró la Biblioteca Nacional de Emergencia el 16 de junio de 2020, en lugar del 30 de junio de 2020 previsto, debido a la demanda. Los demandantes, apoyados por Copyright Alliance, alegaron en su demanda que las acciones de Internet Archive constituyeron una 'infracción masiva deliberada de derechos de autor'. En agosto de 2020, el juicio de la demanda estaba programado tentativamente para comenzar en noviembre de 2021. Para junio de 2022, ambas partes del caso solicitaron un juicio sumario para el caso, cada uno a favor de sus respectivos lados, que el juez John G. Koeltl aprobó de una audiencia de juicio sumario para tendrá lugar más adelante en 2022. No se emitió un juicio sumario y, en cambio, se llevó a cabo una primera audiencia el 20 de marzo de 2023. En el transcurso de la audiencia, el juez John G. Koeltl pareció indiferente a las afirmaciones de uso justo de la IA y no está convencido de que los editores' el mercado de libros electrónicos para bibliotecas no se vio afectado por su práctica.

El senador Thom Tillis de Carolina del Norte, presidente del subcomité de propiedad intelectual en el Comité Judicial del Senado, dijo en una carta a Internet Archive que estaba "preocupado de que Internet Archive piense que él, y no el Congreso, obtiene para determinar el alcance de la ley de derechos de autor".

Como parte de su respuesta a los editores' demanda, a finales de 2020 el Archivo lanzó una campaña llamada Empowering Libraries (hashtag #EmpoweringLibraries) que presentaba la demanda como una amenaza para todas las bibliotecas.

En un artículo preliminar de 2021, Argyri Panezi argumentó que el caso "presenta dos cuestiones importantes, pero separadas, relacionadas con el acceso electrónico a las obras de la biblioteca; primero, plantea preguntas sobre la práctica legal de los préstamos digitales y, segundo, pregunta si el uso de emergencia de material protegido por derechos de autor podría ser un uso justo. y argumentó que las bibliotecas tienen una función de servicio público para permitir que "las generaciones futuras sigan teniendo igualdad de acceso, u oportunidades de acceso, a una pluralidad de fuentes originales".

En diciembre de 2020, Publishers Weekly incluyó la demanda entre sus "Top 10 Library Stories of 2020".

El juez Koeltl falló el 24 de marzo de 2023 contra Internet Archive en el caso y dijo que el concepto de Biblioteca Nacional de Emergencia no era un uso justo, por lo que Archive infringió sus derechos de autor al prestar los libros sin la restricción de la lista de espera. Internet Archive dijo después que apelaría este fallo, pero que de lo contrario continuaría con otros servicios de libros digitales que habían sido aprobados previamente por la jurisprudencia, como los libros para usuarios con problemas de lectura.

Máquina avanzada

Captura de pantalla de ver Inglés Wikipedia en la máquina Wayforward

El 30 de septiembre de 2021, como parte de la celebración de su 25.º aniversario, Internet Archive lanzó "Wayforward Machine", un sitio web satírico y ficticio cubierto de ventanas emergentes que solicitan información personal. El sitio tenía la intención de representar una línea de tiempo distópica ficticia de eventos del mundo real que conducen a ese futuro, como la derogación de la Sección 230 del Código de los Estados Unidos en 2022 y la introducción de implantes publicitarios en 2041.

Documental de la BBC sobre Modi

En 2023, Internet Archive se convirtió en un sitio popular para que los indios vieran el primer episodio de India: The Modi Question, un documental de la BBC. Se informó que el archivo eliminó el video el 23 de enero. Luego, Internet Archive declaró, el 27 de enero, que habían eliminado el video en respuesta a una solicitud de la BBC en virtud de la Ley de derechos de autor del milenio digital.

Colección de archiveros de cerámica

Figuras de cerámica de los empleados del Archivo de Internet

La Gran Sala de Internet Archive presenta una colección de más de 100 figuras de cerámica que representan a los empleados de Internet Archive. Esta colección, inspirada en las estatuas de los guerreros Xian en China, fue encargada por Brewster Kahle, esculpida por Nuala Creed y, desde 2014, continúa.

Artistas en residencia

La residencia de artes visuales de Internet Archive, organizada por Amir Saber Esfahani, está diseñada para conectar a artistas emergentes y de mediana carrera con los millones de colecciones de Archive y mostrar lo que es posible cuando el acceso abierto a la información se cruza con la letras. Durante esta residencia de un año, los artistas seleccionados desarrollan un cuerpo de trabajo que responde y utiliza las colecciones del Archivo en su propia práctica.

Artistas en residencia de 2019: Caleb Duarte, Whitney Lynn y Jeffrey Alan Scudder

Artistas en residencia de 2018: Mieke Marple, Chris Sollars y Taravat Talepasand

Artistas en residencia de 2017: Laura Kim, Jeremiah Jenkins y Jenny Odell