top of page

Heritrix

Categoria: web crawler, software
Contexto organizacional: Internet Archive
Sede: CA, USA
Suporte: Internet Archive
URL: https://webarchive.jira.com/wiki/spaces/Heritrix/overview#Heritrix-Introduction
Relacionado com: IIPC, Internet Archive, ARC, WARC
Assuntos: interoperabilidade, web archiving, arquivos da Web, preservação digital, humanidades digitais

Mais sobre este item:

Heritrix é um crawler desenvolvido a partir de 2003 pela Internet Archive. Um crawler é bot, um programa enviado através da rede, seguindo endereços (urls) e fazendo uma cópia do que encontra, incluindo a relação entre os ficheiros. A sua acção é semelhante a de uma aranha que percorre a teia, por isso também se chamam spiders aos robots que visitam os sites para recolher informações sobre eles.

O Internet Archive desenvolveu-o mais recentemente para o tornar na principal ferramenta para as suas recolhas. Desde 2008, este crawler produz ficheiros WARC, um standard ISO 28500:2017). Inclui ferramentas para a gestão do processo (leitura de ficheiros WARC e ARC, configuração das recolhas).

O Heritrix é utilizado por muitos projectos, em todo o mundo. Ver: https://en.wikipedia.org/wiki/Heritrix. Não é o único software para fazer recolhas, por isso pode sempre ser comparado com outros.

​

Ver também:

Wget – crawler, open source. Ver uso: https://en.wikipedia.org/wiki/Wget#Basic_usage


Robots.txt – ficheiro de texto no qual se pode declarar o que os crawlers podem ou não recolher. Este ficheiro situa-se na raiz do site e é a primeira coisa que os crawlers lêem. Se lhe obedecem ou não, isso depende da configuração que lhes é dada. Em princípio, os crawler dos projectos de web archiving respeitam as restrições, pois a questão dos direitos associados é fundamental. Além disso, estão identificados (User Agent), o que facilita a transparência. Ver: www.robotstxt.org


Alexa Internet – recolheu massivamente dados sobre sites e foi a principal fonte de recolha nos primeiros anos do Internet Archive. Recolhe informação para produzir rankings. Actualmente pertence à Amazon. Ver: https://support.alexa.com/hc/en-us/articles/200462340-Certification-Crawler-Information
 

Agosto de 2017

bottom of page