0151 | guia

siglas

Arquivo.pt

Categoria: organização, serviço, produto

Contexto organizacional: FCT-FCCN

Sede: Lisboa

Suporte: FCCN

Relacionado com: FCCN, Internet Archive, ARC, memento

Assuntos: web archiving, arquivos da Web, preservação digital, humanidades digitais

O Arquivo.pt é um serviço de web archiving da FCCN que entrou em funcionamento em 2008, recolhendo os sites do domínio .PT. Foi desenvolvido por Daniel Gomes a partir de 2000. Os pormenores podem ser lidos neste artigo da TAB Magazine (Keep Solutions, Braga).
O sistema envolve recursos significativos. Ver Estudo de gestão da capacidade do Arquivo.pt (2015) (PDF). Pela sua arquitectura pode considerar-se um sistema de big data. Grid, arquitectura distribuída, Hadoop, Python e paradigma map reduce são apenas alguns termos que podemos associar ao seu funcionamento.
A actual interface de pesquisa, em uso a partir de 2016, foi desenvolvida tendo em conta aoptimizada para a usabilidade. Possui uma pesquisa simples, à maneira do Google, e uma pesquisa avançada que permite delimitar por data, por tipo de ficheiro, url, e ordenação de resultados. Dispõe de um menu de acesso às versões, organizado por data-tempo, e ainda uma tabela com todas as versões recolhidas. Foram-lhe adicionadas outras funcionalidades para a aquisição e partilha no mail e no Facebook. Ainda não está disponível a pesquisa por imagens.
Um arquivo Web segue um endereço que lhe foi dado, um hostname, acede ao servidor e faz uma cópia de todos os ficheiros para os quais tem permissão. Segue também as pistas que encontra, ou seja, os outros endereços contidos numa página Web. Podemos imaginar esse processo como o de uma aranha que percorre uma teia – por isso se chama crawler ao programa que a executa e spiders aos comandos enviados.
Depois de recolhidos, os sítios Web são reconstruídos num sistema que imita o ambiente Web, mas com as limitações inerentes a uma reconstituição. Se o crawler não conseguir recolher todos os ficheiros necessários, como por exemplo os CSS para o estilo da página, as imagens, dados de formulário, a reconstituição fica incompleta. Além disso, para recriar o ambiente tecnológico que gerou o sítio Web original, há que ter as aplicações compatíveis.

Há serviços interessantes que resolvem parcialmente esse problema: Oldweb.today, da Rhizome, por exemplo; Time Travel, serviço do projecto Memento.org. Falar de sítios Web preservados é falar de material frágil, fragmentado, com um interesse diferenciado da Web que se usa todos os dias.
As recolhas têm a frequência que for determinada previamente. Assim, por exemplo, para os sites dos jornais a recolha é diária. Outros sites cujo fluxo de informação é menor têm uma recolha mais espaçada. Para alguns sítios Web bastará uma recolha anual.
Isto significa que um arquivo da Web não guarda necessariamente todos os conteúdos que estiveram num site, mas apenas aqueles que encontrou no momento da passagem do crawler.
A questão da utilidade de um arquivo da Web é semelhante às que se colocam em relação a outros arquivos de património cultural. O caso do Arquivo.pt é especial, porque se trata de algo novo. O arquivo guarda materiais produzidos em larga escala por numerosos intervenientes na dinâmica social. Desde os sítios Web de organizações do Estado, de Partidos Políticos, Media, associações até ao mais anónimo dos cidadãos que criou um blog sobre o seu jardim. O estudo das culturas populares e não apenas das organizações encontra aqui uma base de dados única (ver a este respeito o caso de uso: arquivo.pt/straightedge).

No rodapé da interface do Arquivo.pt está acessível material informativo e bibliografia científica e técnica. Ver: http://sobre.arquivo.pt/

Ver também:

Lista de Arquivo da Web no mundo - https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

Oldweb.today - http://oldweb.today/

Web Recorder, serviço da Rhizome, serve para fazer as suas próprias colecções a partir de 'gravações' da Web: https://webrecorder.io/

SiteStory - http://mementoweb.github.io/SiteStory/

Memento – protocolo que dá acesso a sistemas na Web que tem versões dos seus conteúdos, marcadas por uma data tempo (YYYYMMDDhhmmss). O Arquivo.pt usa-o para tentar encontrar conteúdos em falta, quando é preciso completar um sítio Web. O protocolo está aplicado num serviço que se chama Time Travel Service: http://timetravel.mementoweb.org/
Open Wayback software - https://github.com/iipc/openwayback/wiki

ARCHIVE READY - ferramenta online para testar as condições de arquivabilidade de um site: http://www.archiveready.com/

Agosto de 2017

Guia da Preservação Digital

por siglas