Webarchiv uchovává český web


Pro první seznámení s webarchivem pokračujte zde


O Webarchivu

V prostředí internetu průběžně narůstá obrovské množství publikovaných dokumentů, které se postupně mění nebo zcela mizí. Pokud nebudou průběžně archivovány, tato významná součást národního kulturního dědictví bude nenávratně ztracena. Odpovědnost za archivaci webových zdrojů a jejich registraci v národní bibliografii nesou národní knihovny, příp. další depozitní knihovny.

Úlohou Webarchivu je řešení problematiky archivace národního webu, tj. bohemikálních dokumentů zveřejněných v prostředí sítě Internet – shromažďování webových zdrojů, jejich archivace a ochrana a zajištění dlouhodobého přístupu k těmto archivovaným dokumentům. Provádí se jednak kompletní archivace, tj. automatický sběr „celého“ českého webu. Souběžně probíhá výběrová archivace (na základě URL nejzajímavějších webových zdrojů vybraných na základě selekčních kritérií) a tématické archivace (zaměřené na určité aktuální téma, např. volby, povodně apod.). Webarchiv je od roku 2007 členem mezinárodního konzorcia pro archivaci webu IIPC.

Typy sklizní

Národní knihovna ČR provádí tři typy archivace:

Celoplošná sklizeň

Celoplošná sklizeň pokrývá „český web“ – webové zdroje s národní doménou .cz. Cílem celoplošných sklizní je zachycení obrazu českého internetu v daném čase. Seznam těchto zdrojů je dodáván správcem domény, sdružením CZ.NIC. Tato celoplošná sklizeň je prováděna zpravidla jednou ročně.

Výběrová sklizeň

Vzhledem k omezené kapacitě úložného prostoru není možné sklízet veškerý český web dostatečně. Z tohoto důvodu je budována kolekce zdrojů s kulturní, historickou, výzkumnou, případně další hodnotou napříč všemi tématy. Cílem této kolekce je vytvořit reprezentativní vzorek českého kulturního dědictví, které vzniká elektronicky.

Tematická sklizeň

Tematické sklizně jsou monotematické soubory webových dokumentů zejména k událostem, které mají širší ohlas v prostředí internetu (např. volby).

Získávání

Získávání dokumentů z webu je po technické stránce převážně automatický proces, kdy se na základě zadaných parametrů ve speciálním SW nástroji stahují data, indexují a ukládají do digitálního archivu. V současné době se používají a přizpůsobují volně dostupné SW nástroje s otevřeným zdrojovým kódem (Heritrix).

Nezbytnou součástí akvizice je stanovení kritérií výběru zdrojů a výběrová archivace jako intelektuální činnost s cílem registrace nejvýznamnější části publikací na Internetu v České národní bibliografii (ČNB). Praktické řešení získávání dokumentů je podmíněno řešením legislativy, zejména zákonné úpravy povinného výtisku.

Kritéria výběru zdrojů

Zdroje pro celoplošné sklizně jsou sklízeny na základě seznamu URL adres s doménou .cz poskytovaného správcem domény, sdružením CZ.NIC.

Nejvýznamnějším kritériem pro výběr zdrojů do výběrových sklizní Webarchivu je bohemikální charakter zdroje. Toto kritérium se řídí pravidlem výběru dokumentů registrovaných v národní bibliografii, které zahrnuje:

Zdroje jsou do výběrových sklizní zařazovány zejména na základě jejich obsahu. Preferovány jsou zdroje s kulturní, vědeckou či historickou hodnotou, které mají originální a unikátní obsah a dlouhodobou badatelskou hodnotu.

Zpřístupnění

Na základě autorského zákona jsou kompletní data z Webarchivu zpřístupňována pouze na terminálech v budově Národní knihovny ČR. Zdroje v rámci výběrových sklizní, na které byla uzavřena smlouva, jsou dostupné prostřednictvím webových stránek Webarchivu pomocí nástroje Wayback Machine. Pro všechny zdroje v rámci výběrových sklizní jsou vytvářeny katalogizační záznamy.

Legislativa

Archivaci webu v České republice, zejména zpřístupnění archivovaných elektronických zdrojů vymezuje Autorský zákon (č. 121/2000 Sb.). Tento zákon umožňuje prostřednictvím tzv. knihovní licence vytvářet rozmnoženiny díla pro své archivní a konzervační účely. Vzhledem ke znění zákona však není možné tyto rozmnoženiny díla volně zpřístupnit veřejnosti. Pro umožnění přístupu k výběrové části archivu je třeba získat souhlas vydavatele stránek.