Webarchiv: FAQ


Často kladené dotazy


Všeobecné

Proč Národní knihovna ČR archivuje stránky z internetu?

Posláním Národní knihovny je zachovat národní kulturní dědictví, a to v celé jeho šíři a podobě, v tištěné podobě prostřednictvím povinného výtisku a v elektronické podobě prostřednictvím digitálních kopií českých webových stránek. Snažíme se vytvářet obraz českého webu, jak vypadal v určité době. Z tohoto důvodu procházíme český web a stahujeme data ze stránek s doménou .cz a ukládáme je jako archivní kopie. Všechna takto získaná data jsou v neměnné podobě dlouhodobě uchovávána v úložišti Národní knihovny ČR.

Jaké stránky archivujete, když jste český webový archiv?

Archivujeme tzv. bohemikální zdroje, což jsou stránky, které jsou psané v českém jazyce, vydávané na území České republiky nebo českým autorem, případně se obsahově týkají České republiky.

Co znamená archivovaná verze stránky?

Archivovaná verze stránky je kopie, kterou pořídil český webový archiv v rámci některé ze svých sklizní. Tato kopie je pak uložena v archivu a za určitých podmínek zpřístupněna uživatelům.

Jak velký je český webový archiv?

V současné době je ve webovém archivu uloženo téměř 200 TB komprimovaných dat a tento objem neustále narůstá. První archivovanou stránku máme ze září 2001.

Co je to Wayback Machine?

Wayback Machine je webová aplikace, který umožňuje uživatelům přístup k archivním verzím stránek nacházejících se v našem webovém archivu.

Mohu citovat stránky z archivu?

Ano, je to možné! Odkazy, které jsou v našem archivu jsou trvalé a fungují stejně jako odkazy na běžném internetu.

Jak mohu vyhledávat v českém webovém archivu?

Český webový archiv nabízí několik možností vyhledávání. Vyhledávat můžete buď zadáním URL adresy stránek (např. http://www.nkp.cz, www.webarchiv.cz) nebo zadáním klíčových slov (např. knihovna). Navíc si můžete omezit časový rozsah, ve kterém stránky hledáte.

Druhou možností je také prohlížení stránek v našem katalogu podle jejich tematického zařazení.

Pro veškeré stránky, které archivujeme v rámci výběrových sklizní (jejich archivované verze jsou dostupné online), jsou také vytvářeny katalogizační záznamy jako pro ostatní dokumenty z fondu Národní knihovny. Tyto stránky tak je možné najít i v našem katalogu, popř. je možné vyhledávat přímo pouze v elektronických zdrojích .

Proč nemohu vyhledávat jako na Google?

Vzhledem k povaze a rozsahu dat (mnoho verzí jedné stránky) je možné vyhledávat pouze primárně pomocí URL adres jednotlivých stránek. U stránek, které jsou obsažené v našem výběrovém katalogu, je také možné využít vyhledávání pomocí klíčových slov a v jejich anotaci.

Liší se nějak vyhledávání na vašich stránkách a ve zpřístupňující aplikaci?

V obou případech je možné hledat pomocí URL adres a vyhledávání probíhá nad stejnými daty. Vyhledávání na našich stránkách umožňuje navíc prohledávat archivované zdroje pomocí klíčových slov a jejich anotací.

Proč není stránka, kterou hledám v archivu?

I když se snažíme vytvořit co nejvíce kompletní obraz českého internetu, tak to mít v archivu všechny stránky, prostě není v našich silách. Pokud zrovna ta vaše chybí, můžete ji navrhnout zde.

Zpřístupnění

Proč nemohu vidět některé webové stránky?

Pokud se vám zobrazuje chybové hlášení, že přístup k archivovaným verzím je blokován, důvodem je současné znění autorského zákona. To nám dovoluje zpřístupňovat online pouze stránky, k jejichž archivaci nám dal jejich vydavatel souhlas. Veřejně online je přístupná pouze malá část archivu.

Pokud máte zájem prohlédnout si celý archiv, můžete navštívit Referenční centrum Národní Knihovny ČR, kde jsou dostupné termínály, přes které je možné do archivu přistoupit.

Proč jsou některé stránky nekompletní nebo nedostupné?

Z technických důvodů nejsme vždy schopni archivovat stránky v takové podobě, v jaké jsou vystaveny na webu. Snažíme se vždy archivovat stránky tak, aby archivní kopie byla kompletní, bohužel to není vždy možné. Vzhledem k omezenému diskovému prostoru a počítačovému výkonu se může stát, že některé části stránky se nenachází v našem archivu. Jedná se zejména o větší soubory např. videa.

Proč je nejnovější verze v archivu z minulého roku, měsíce, týdne… ?

Archivované stránky jsou z technických důvodů zpřístupňovány pro uživatele s určitým zpožděním po archivaci (zpravidla tři měsíce). Potřebujeme čas ke zpracování stahovaných dat, zejména k vytvoření indexu pro zpřístupňovací aplikaci.Dalším důvodem může být, že různé webové stránky mají nastavenou různou frekvenci, se kterou jejich kopie vytváříme. Např. u internetového periodika vytváříme kopii až 1x měsíčně, zatímco u statické webové prezentace to stačí 1x ročně. Maximální frekvence sklízení je však 1x měsíčně.

Stahování dat a osobní údaje

Jak mohu přidat svoji nebo zajímavou stránku do vašeho archivu?

Stačí vyplnit formulář na našem webu, nebo nám napsat na adresu webarchiv[@]nkp.cz. Vaše stránka tak bude zařazena jako návrh k zařazení do archivu a poté budete vyrozuměni, zda je vhodná k archivaci.

Proč je moje stránka ve webovém archivu a můžu ji odstranit?

Posláním Národní knihovny je zachovat národní kulturní dědictví, a to v celé jeho šíři a podobě, v tištěné formě prostřednictvím povinného výtisku a v elektronické podobě prostřednictvím digitálních kopií českých webových stránek.

Snažíme se vytvářet obraz českého webu, jak vypadal v určité době. Z tohoto důvodu procházíme český web a stahujeme data ze stránek s doménou .cz a ukládáme je jako archivní kopie. Všechna takto získaná data jsou v neměnné podobě dlouhodobě uchovávána v úložišti Národní knihovny ČR. Vaše stránky se tak stávají součástí historie a českého kulturního dědictví.

V případě, že nemáte zájem o zařazení do archivu historie českého webu, prosím kontaktujte nás na adrese webarchiv[@]nkp.cz.

Můžeme se s vámi domluvit na respektováni vašeho přání vyjádřené souborem robots.txt pro zákaz přístupu vyhledávačům. Případně můžeme dát vaše stránky na blacklist, aby v budoucnu již stahovány nebyly. A také je kompletně znepřístupnit pro ostatní uživatele.

Proč váš sklízeč stahuje data z mých stránek??

V pravidelných intervalech provádíme tzv. celoplošné sklizně, jejichž cílem je archivace co největšího počtu stránek s doménou .cz. Účelem této archivace je vytvoření obrazu historie českého webu. Vaše stránky se tak stávají součástí historie a českého kulturního dědictví.

V případě, že nemáte zájem o zařazení do archivu historie českého webu, prosím kontaktujte nás na adrese webarchiv[@]nkp.cz.

Můžeme se s vámi domluvit na respektováni Vašeho přání vyjádřené souborem robots.txt pro zákaz přístupu vyhledávačům. Případně můžeme dát Vaše stránky na blacklist, aby v budoucnu již stahovány nebyly. A také je kompletně znepřístupnit pro ostatní uživatele.

Jak mohu ochránit své soukromí při archivaci mé stránky?

Český webový archiv vytváří archivní kopie pouze stránek, které jsou veřejné přístupné, tzn. těch které je možné navštívit i běžným prohlížením internetu. Nearchivujeme webové stránky, k jejichž přístupu je nutné uživatelské jméno a heslo nebo je nutná lidská interakce (např. odeslání formuláře).

Pokud máte pocit, že došlo k narušení vašeho soukromí, kontaktujte nás na emailové adrese webarchiv@nkp.cz.

Archivujete emaily, chaty nebo osobní informace?

Ne, nearchivujeme. Nicméně v rámci celoplošných sklizní je archivován celý český veřejný internet. Tedy pokud je na nějaké stránce veřejně vystavena např. emailová komunikace, telefonní čísla atd., pak se mohou v našem archivu objevit. Jedná se pouze o veřejně dostupné informace.

Mohu použít archivní verzi pro obnovení zálohy své stránky v případě její ztráty nebo poškození?

Bohužel to není možné, český webový archiv neposkytuje tyto služby pro veřejnost. Nicméně je možné si svoji stránku najít v archivu a z ní čerpat informace k jejímu obnovení. Nemůžeme ovšem garantovat, že se vaše stránka bude nacházet archivu nebo bude v budoucnosti archivována.

Respektujete při sklízení soubor robot.txt?

V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.

Pro vydavatele

Chci být archivován, co pro to mám udělat a kolik to stojí?

V případě, že máte zájem o archivaci vašich webových stránek, nejprve nám je zašlete jako návrh k archivaci prostřednictvím webového formuláře nebo na náš email webarchiv[@]nkp.cz.

Všechny návrhy musí projít hodnocením a případným testováním na technické problémy. Pokud budou vaše stránky vhodné pro archivaci, kontaktujeme vás s žádostí o vyjádření souhlasu s archivací. Tento souhlas je nutné právně ošetřit, buď podepsáním smlouvy s námi nebo vystavením stránek pod licencí Creative Commons.

Archivace v rámci Webarchivu Národní knihovny ČR je zcela bezplatná, veškeré náklady na archivaci nese Národní knihovna.

Co je to licence Crative Commons?

Je to soubor licencí, který umožňuje autorům děl tyto díla legálně sdílet a využívat veřejností za podmínek stanovených autorem (např. pouze nekomerční využití). Více se o licenci CC dočtete na našem webu.

Jaký je rozdíl mezi uzavřením smlouvy a CC licencí?

Vystavením licence CC na svých stránkách nabízíte vy, jako autor, souhlas potenciálním uživatelům licenční smlouvu, na základě které jim poskytuje některá svá práva k dílu a jiná si vyhrazujete. Výhodou licence je její snadná aplikace (jedná se o umístění malého banneru). Smlouvou dáváte pouze souhlas Národní knihovně s archivací vašich stránek, je však nutné ji zaslat v papírové podobě. Pro nás však mají obě varianty stejný efekt, záleží tedy na vás, jaká vám vyhovuje více.

Neohrozím svůj obsah zveřejněním pod CC licencí?

Licence CC nabízí různé varianty licencí podle toho, jaká práva veřejnosti chcete ke svému dílu povolit či vyhradit. Ve všech variantách licence CC je však zachováno právo veřejnosti (za různých podmínek) na bezplatné šíření díla a povinnost uvést autora. Více informací o variantách licence naleznete na stránkách creativecommons.cz.

Proč musím podepisovat papírovou smlouvu?

Z důvodu současné podoby autorského zákona je nutné, aby byl Váš souhlas s archivací stránek právně ošetřený. Proto požadujeme zaslání podepsané papírové smlouvy.

Kdy a jak často bude moje stránka archivována?

Vaše stránka může být archivována 1x až 12x ročně, případně pouze jednorázově (již ukončené projekty, statické stránky jako např. e-knihy). Zpravidla to závisí na četnosti aktualizací stránek a jejich technické stránce. Po uzavření smlouvy (vystavení pod licencí CC) vás budeme o frekvenci archivace vašich stránek informovat.

Můžu se podívat na svoji stránku v archivu?

Samozřejmě, stačí zadat URL adresu Vašich stránek do vyhledávače na našem webu. Upozorňujeme však, že archivované verze jsou zpřístupněny s určitým zpožděním (zpravidla 3 měsíce).