top of page

ARC file

Categoria: formato
Contexto organizacional: Internet Archive
Sede: San Francisco, CA, USA
Suporte: Internet Archive
URL: https://archive.org/web/researcher/ArcFileFormat.php
Relacionado com: IIPC, Internet Archive, Arquivo.pt, WARC, Heritrix
Assuntos: interoperabilidade, web archiving, arquivos da Web, preservação digital, humanidades digitais

Mais sobre este item:

​ARC é o formato criado pelo Internet Archive para conter num só ficheiro um sítio Web recolhido pelo crawler. Um sítios Web é composto normalmente por dezenas de ficheiros de vários tipos e formatos.  Não deve confundir-se o ARC-Internet Archive com outros formatos designados pelas mesmas letras; são incompatíveis.
Os elementos deste formato são: IP --- URL --- date (14 dígitos, YYYYMMDDhhmmss) -- type -- length. Para ver um exemplo de ficheiro neste formato: https://archive.org/web/researcher/ArcFileFormat.php
O ARC teve uma adopção generalizada por parte dos projectos de arquivos da Web. Em 2005, a partir de um grupo de trabalho do International Internet Preservation Coalition (IIPC) nasceu a proposta para a criação de um novo formato que pode ser considerado uma extensão do anterior e compatível com ele.

WARC, sigla para WebArchive tornou-se ISO 28500:2009 e é open source. Ver um comentário sobre: http://bibnum.bnf.fr/WARC/

​

Ver também:

ARC vs WARC - ver comparação em https://webarchive.jira.com/wiki/spaces/Heritrix/pages/4817/WARC+Web+ARChive

Heritrix - Web crawler, open source, do Internet Archive: https://webarchive.jira.com/wiki/spaces/Heritrix/overview

​

Agosto de 2017

bottom of page