top of page

Internet Archive

Categoria: organização
Contexto organizacional: Kahle-Austin Foundation
Sede: San Francisco, CA, USA
Suporte: Internet Archive
URL: https://archive.org/
Relacionado com: IIPC, Wayback, ARC, WARC, Heritrix, Archive-it
Assuntos: web archiving, arquivos da Web, preservação digital

Mais sobre este item:

​O Internet Archive foi lançado em 1996, por Brewster Kahle, para guardar cópias dos sítios Web que começavam então a ser publicados no espaço da  recém-nascida World Wide Web. Mais importante do que o facto de ser o primeiro é a visão subjacente ao projecto. Se existe tecnologia disponível, porque não se há-de preservar as páginas Web? Recorde-se que se trata da mesma pessoa que esteve na origem do Alexa Internet (hoje pertencente à Amazon).
A Wayback Machine veio depois, em 2001, para dar acesso de uma forma fácil aos sites guardados desde 1996. Este software é a imagem de marca do Internet Archive.
A mesma visão (recolher e disponibilizar) levou-o a juntar ao projecto do arquivo de sítios Web o da digitalização massiva de livros caídos em domínio público para serem disponibilizados na mesma plataforma. Coincidiu com um projecto semelhante promovido pela Google, embora muito diferente na perspectiva).  Ver/ouvir: https://www.ted.com/talks/brewster_kahle_builds_a_free_digital_library#t-218434. Assim, a Open Library foi lançada em 2006 com a direcção de Aaron Swartz.
A inclusão de conteúdos televisivos e de um colecção de imagens da NASA mostra como o Internet Archive procurou diversificar a sua oferta. Percebemos ainda mais as diferenças quando o colocamos ao lado de outros arquivos da Web que limitaram a sua recolha a um domínio nacional ou a uma organização.

A interface do Internet Archive foi especialmente desenvolvida para ter sucesso na Web. E conseguiu, pois o sítio Web encontra-se entre os primeiros 300 no ranking Alexa Internet.

Ver também:

Archive-it - um serviço que permite às instituições criarem as suas próprias colecções de sítios Web preservados: https://archive-it.org/

Heritrix - Web crawler, open source, do Internet Archive: https://webarchive.jira.com/wiki/spaces/Heritrix/overview

Alexa Internet – recolheu massivamente dados sobre sites e foi a principal fonte de recolha nos primeiros anos do Internet Archive. Recolhe informação para produzir rankings. Actualmente pertence à Amazon. Ver: https://support.alexa.com/hc/en-us/articles/200462340-Certification-Crawler-Information

Arquivos Web pelo mundo - https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

​

Agosto de 2017

bottom of page