0156 | guia

siglas

Internet Archive

Categoria: organização

Contexto organizacional: Kahle-Austin Foundation

Sede: San Francisco, CA, USA

Suporte: Internet Archive

Relacionado com: IIPC, Wayback, ARC, WARC, Heritrix, Archive-it

Assuntos: web archiving, arquivos da Web, preservação digital

O Internet Archive foi lançado em 1996, por Brewster Kahle, para guardar cópias dos sítios Web que começavam então a ser publicados no espaço da recém-nascida World Wide Web. Mais importante do que o facto de ser o primeiro é a visão subjacente ao projecto. Se existe tecnologia disponível, porque não se há-de preservar as páginas Web? Recorde-se que se trata da mesma pessoa que esteve na origem do Alexa Internet (hoje pertencente à Amazon).
A Wayback Machine veio depois, em 2001, para dar acesso de uma forma fácil aos sites guardados desde 1996. Este software é a imagem de marca do Internet Archive.
A mesma visão (recolher e disponibilizar) levou-o a juntar ao projecto do arquivo de sítios Web o da digitalização massiva de livros caídos em domínio público para serem disponibilizados na mesma plataforma. Coincidiu com um projecto semelhante promovido pela Google, embora muito diferente na perspectiva). Ver/ouvir: https://www.ted.com/talks/brewster_kahle_builds_a_free_digital_library#t-218434. Assim, a Open Library foi lançada em 2006 com a direcção de Aaron Swartz.
A inclusão de conteúdos televisivos e de um colecção de imagens da NASA mostra como o Internet Archive procurou diversificar a sua oferta. Percebemos ainda mais as diferenças quando o colocamos ao lado de outros arquivos da Web que limitaram a sua recolha a um domínio nacional ou a uma organização.

A interface do Internet Archive foi especialmente desenvolvida para ter sucesso na Web. E conseguiu, pois o sítio Web encontra-se entre os primeiros 300 no ranking Alexa Internet.

Ver também:

Archive-it - um serviço que permite às instituições criarem as suas próprias colecções de sítios Web preservados: https://archive-it.org/

Heritrix - Web crawler, open source, do Internet Archive: https://webarchive.jira.com/wiki/spaces/Heritrix/overview

Alexa Internet – recolheu massivamente dados sobre sites e foi a principal fonte de recolha nos primeiros anos do Internet Archive. Recolhe informação para produzir rankings. Actualmente pertence à Amazon. Ver: https://support.alexa.com/hc/en-us/articles/200462340-Certification-Crawler-Information

Arquivos Web pelo mundo - https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

Agosto de 2017

Guia da Preservação Digital

por siglas