ARC file
Categoria: formato
Contexto organizacional: Internet Archive
Sede: San Francisco, CA, USA
Suporte: Internet Archive
URL: https://archive.org/web/researcher/ArcFileFormat.php
Relacionado com: IIPC, Internet Archive, Arquivo.pt, WARC, Heritrix
Assuntos: interoperabilidade, web archiving, arquivos da Web, preservação digital, humanidades digitais
Mais sobre este item:
​ARC é o formato criado pelo Internet Archive para conter num só ficheiro um sítio Web recolhido pelo crawler. Um sítios Web é composto normalmente por dezenas de ficheiros de vários tipos e formatos. Não deve confundir-se o ARC-Internet Archive com outros formatos designados pelas mesmas letras; são incompatíveis.
Os elementos deste formato são: IP --- URL --- date (14 dígitos, YYYYMMDDhhmmss) -- type -- length. Para ver um exemplo de ficheiro neste formato: https://archive.org/web/researcher/ArcFileFormat.php
O ARC teve uma adopção generalizada por parte dos projectos de arquivos da Web. Em 2005, a partir de um grupo de trabalho do International Internet Preservation Coalition (IIPC) nasceu a proposta para a criação de um novo formato que pode ser considerado uma extensão do anterior e compatível com ele.
WARC, sigla para WebArchive tornou-se ISO 28500:2009 e é open source. Ver um comentário sobre: http://bibnum.bnf.fr/WARC/
​
Ver também:
ARC vs WARC - ver comparação em https://webarchive.jira.com/wiki/spaces/Heritrix/pages/4817/WARC+Web+ARChive
Heritrix - Web crawler, open source, do Internet Archive: https://webarchive.jira.com/wiki/spaces/Heritrix/overview
​
Agosto de 2017