Pro vydavatele

O projektu

Obsah WebArchivu

Napsali o nás

Právní linka (5/2013)
Príma receptář (3/2013)
Základní škola Bruntál (2/2013)
Přibližovadla.cz (6/2012)
CzechFolks.com PLUS (5/2012)
Neviditelný pes (2/2012)
NETzin.cz (1/2012)
VysokeSkoly.cz (9/2011)
Honzíkovy vláčky (7/2011)
Biblio (4/2009)
Finanční noviny (6/2009)
30minut.cz (2/2009)
Živě.cz (12/2008)
ČRo Leonardo (11/2008)
Krimi servis Hlaváček (8/2008)
Lupa (7/2008)
Pozitivní noviny (1/2008)
Čertoděj (6/2007)
Ikaros (1/2006)
Lupa (12/2005)

Fakta

WebArchiv obsahuje 60,3 TB dat k 1. 6. 2012. První dokument byl archivován 3.9.2001.

Stáhněte si naše logo!

Umístětě si na své stránky naši ikonku. Klikněte na obrázek a vyberte si:

ikona3.jpg

Náš web je pod licencí

Creative Commons License

Celoplošné sklizně


Statistika celoplošných sklizní v národní doméně .cz
Sklizeň: Začátek: Počet souborů: Rozsah (MB):
CZ 2001 září 2001 3 017 058 106 520
CZ 2002 duben 2002 10 272 093 315 756
CZ 2004 březen 2004 32 161 396 1 058 305
CZ 2005 červen 2005 9 336 123 253 785
CZ 2006 srpen 2006 70 741 016 3 465 016
CZ 2007 listopad 2007 81 300 000 3 600 000
CZ 2008 listopad 2008 78 203 483 3 900 000
CZ 2009 listopad 2009 178 342 230 6 600 654
CZ 2010 listopad 2010 373 178 080 9 720 367
CZ 2011 listopad 2011 345 232 271 10 914 568
CELKEM: 1 180 783 950 39 934 971

Kliknutím na název sklizně se zobrazí podrobnější informace

CZ 2011

Celoplošná sklizeň 2011 obsahuje 10,4 TB dat.

CZ 2010

Celoplošná sklizeň 2010 obsahuje 9,3 TB dat.

CZ 2009

Celoplošná sklizeň 2009 obsahuje 6,3 TB dat.

CZ 2008

Celoplošná sklizeň 2008 obsahuje 3,9 TB dat.

CZ 2007

V roce 2007 byla provedena dosud největší celoplošná sklizeň. Sbírky WebArchivu tak dosáhly celkové velikosti přesahující 8 TB dat.

CZ 2006

Počet registrovaných domén v zóně .cz dosáhl v roce 2006 počtu 278 348. V celoplošné sklizni se podařilo zachytit z tohoto množství celkem 74%.

CZ 2005

Celoplošná sklizeň 2005 se potýkala s problémy: „Systém Heritrix totiž obvykle již po několika dnech provozu spotřeboval všechnu dostupnou paměť díky velkému množství odkazů, které se chystal navštívit.“ Problém byl vyřešen s novou verzí softwaru, a tak následující sklizně proběhly v pořádku.

CZ 2004

„V polovině března 2004 byla spuštěna celoplošná sklizeň domény cz pomocí programu NEDLIB Harvester. V průběhu prvního pololetí 2004 se velikost celého komprimovaného webového archivu uloženého na diskovém poli v MZK přiblížila hranici 1TB a volné místo na tomto poli se snížilo pod 250 MB a začala tak akutně hrozit kolize s vlastními potřebami MZK. Zároveň začaly od počátku roku vycházet veřejné verze nového volně dostupného archivního crawleru Heritrix (vývoj Internet Archive), který od verze 0.2.0 uveřejněné v lednu dospěl až do listopadové verze 1.2.0, která už se vykazuje značnou stabilitou a mnoha vlastnostmi, které nemá ani starší NEDLIB Harvester. Program Heritrix byl přitom testován na sklízení serverů, s jejichž vydavateli byla uzavřena smlouva (viz dále) a na kterých se také dalo snadněji sledovat jeho chování. Souběh obou těchto okolností způsobil, že byla v říjnu zcela přerušena a předčasně ukončena celoplošná sklizeň domény cz po stažení celkem 600 GB komprimovaných dokumentů s tím, že všechny nové sklizně budou již prováděny výhradně s pomocí systému Heritrix.“

CZ 2002

„…na jaře 2002 [byla] spuštěna nová sklizeň celé domény .cz. Na rozdíl od předchozího roku byly tentokrát okrajové podmínky nastaveny šířeji – stahují se i URL s parametrem, díky čemuž je možné pokrýt většinu zdrojů seriálového charakteru, maximální hloubka zanoření byla zvětšena z 25 na 50 odkazů. To mělo samozřejmě za následek výrazný nárůst objemu stahovaných dat. Během sklizně se bohužel ukázalo, že s rostoucí velikostí archivu začíná být výkonnost používaného serveru (PC architektura, IDE disky) limitujícím faktorem. Bylo proto nutné doporučit vhodnou platformu pro další provozování harvesteru. Na základě množství dostupných prostředků i na základě HW platforem, které NK provozuje, byly vytipovány tři platformy, které by pro další provoz harvesteru připadaly v úvahu. Těmito platformami byly: Compaq ProLiant 380 (Linux), Sun Enterprise 250 (Solaris) a Compaq AlphaServer (Tru64 Unix). Během příprav na jejich testování (srpen 2002) došlo bohužel v Praze k záplavám, které na několik týdnů vyřadily celou infrastrukturu NK (včetně Centrálního depozitáře v Hostivaři, kde je umístěn server projektu) z provozu. Před vypnutím proudu v NK stihli pracovníci ÚVT MU přerušit sběr, nedošlo tak naštěstí k závažnějším problémům.“

CZ 2001

„Při první, testovací sklizni českého webu, která proběhla v měsících září a říjen 2001, bylo staženo celkem 129 GB dat, a to i přesto, že stahování šlo do hloubky jen 25 zanoření a nebyly brány v potaz soubory na ftp serverech, ani dynamicky generované stránky s parametry. … Přes 90 procent dokumentů je tvořeno soubory typu jpg (fotografie, obrázky), gif (grafika webových stránek) a html (hypertext). Na druhou stranu je zde již znatelný nárůst počtu souborů mp3 (hudba, zvuk) a mpg (video).“

Nahoru
kontakt: webarchiv@nkp.cz
Poslední aktualizace: 22.5.2013