Pro vydavatele

O projektu

Obsah WebArchivu

Napsali o nás

Biblio (4/2009)
Finanční noviny (6/2009)
30minut.cz (2/2009)
Živě.cz (12/2008)
ČRo Leonardo (11/2008)
Krimi servis Hlaváček (8/2008)
Lupa (7/2008)
Pozitivní noviny (1/2008)
Čertoděj (6/2007)
Ikaros (1/2006)
Lupa (12/2005)

Fakta

WebArchiv obsahuje 15,5 TB dat. První dokument byl archivován 3.9.2001.

Stáhněte si naše logo!

Umístětě si na své stránky naši ikonku. Klikněte na obrázek a vyberte si:

ikona3.jpg

Náš web je pod licencí

Creative Commons License

Celoplošné sklizně


Statistika celoplošných sklizní v národní doméně .cz
Sklizeň: Začátek: Počet souborů: Rozsah (MB):
CZ 2001 září 2001 3 017 058 106 520
CZ 2002 duben 2002 10 272 093 315 756
CZ 2004 březen 2004 32 161 396 1 058 305
CZ 2005 červen 2005 9 336 123 253 785
CZ 2006 srpen 2006 70 741 016 3 465 016
CZ 2007 listopad 2007 81 300 000 3 600 000
CZ 2008 listopad 2008 78 203 483 3 900 000
CELKEM: 285 031 169 12 699 382

Kliknutím na název sklizně se zobrazí podrobnější informace

CZ 2008

Celoplošná sklizeň 2008 obsahuje 3,9 TB dat.

CZ 2007

V roce 2007 byla provedena dosud největší celoplošná sklizeň. Sbírky WebArchivu tak dosáhly celkové velikosti přesahující 8 TB dat.

CZ 2006

Počet registrovaných domén v zóně .cz dosáhl v roce 2006 počtu 278 348. V celoplošné sklizni se podařilo zachytit z tohoto množství celkem 74%.

CZ 2005

Celoplošná sklizeň 2005 se potýkala s problémy: „Systém Heritrix totiž obvykle již po několika dnech provozu spotřeboval všechnu dostupnou paměť díky velkému množství odkazů, které se chystal navštívit.“ Problém byl vyřešen s novou verzí softwaru, a tak následující sklizně proběhly v pořádku.

CZ 2004

„V polovině března 2004 byla spuštěna celoplošná sklizeň domény cz pomocí programu NEDLIB Harvester. V průběhu prvního pololetí 2004 se velikost celého komprimovaného webového archivu uloženého na diskovém poli v MZK přiblížila hranici 1TB a volné místo na tomto poli se snížilo pod 250 MB a začala tak akutně hrozit kolize s vlastními potřebami MZK. Zároveň začaly od počátku roku vycházet veřejné verze nového volně dostupného archivního crawleru Heritrix (vývoj Internet Archive), který od verze 0.2.0 uveřejněné v lednu dospěl až do listopadové verze 1.2.0, která už se vykazuje značnou stabilitou a mnoha vlastnostmi, které nemá ani starší NEDLIB Harvester. Program Heritrix byl přitom testován na sklízení serverů, s jejichž vydavateli byla uzavřena smlouva (viz dále) a na kterých se také dalo snadněji sledovat jeho chování. Souběh obou těchto okolností způsobil, že byla v říjnu zcela přerušena a předčasně ukončena celoplošná sklizeň domény cz po stažení celkem 600 GB komprimovaných dokumentů s tím, že všechny nové sklizně budou již prováděny výhradně s pomocí systému Heritrix.“

CZ 2002

„…na jaře 2002 [byla] spuštěna nová sklizeň celé domény .cz. Na rozdíl od předchozího roku byly tentokrát okrajové podmínky nastaveny šířeji – stahují se i URL s parametrem, díky čemuž je možné pokrýt většinu zdrojů seriálového charakteru, maximální hloubka zanoření byla zvětšena z 25 na 50 odkazů. To mělo samozřejmě za následek výrazný nárůst objemu stahovaných dat. Během sklizně se bohužel ukázalo, že s rostoucí velikostí archivu začíná být výkonnost používaného serveru (PC architektura, IDE disky) limitujícím faktorem. Bylo proto nutné doporučit vhodnou platformu pro další provozování harvesteru. Na základě množství dostupných prostředků i na základě HW platforem, které NK provozuje, byly vytipovány tři platformy, které by pro další provoz harvesteru připadaly v úvahu. Těmito platformami byly: Compaq ProLiant 380 (Linux), Sun Enterprise 250 (Solaris) a Compaq AlphaServer (Tru64 Unix). Během příprav na jejich testování (srpen 2002) došlo bohužel v Praze k záplavám, které na několik týdnů vyřadily celou infrastrukturu NK (včetně Centrálního depozitáře v Hostivaři, kde je umístěn server projektu) z provozu. Před vypnutím proudu v NK stihli pracovníci ÚVT MU přerušit sběr, nedošlo tak naštěstí k závažnějším problémům.“

CZ 2001

„Při první, testovací sklizni českého webu, která proběhla v měsících září a říjen 2001, bylo staženo celkem 129 GB dat, a to i přesto, že stahování šlo do hloubky jen 25 zanoření a nebyly brány v potaz soubory na ftp serverech, ani dynamicky generované stránky s parametry. … Přes 90 procent dokumentů je tvořeno soubory typu jpg (fotografie, obrázky), gif (grafika webových stránek) a html (hypertext). Na druhou stranu je zde již znatelný nárůst počtu souborů mp3 (hudba, zvuk) a mpg (video).“

Nahoru
kontakt: webarchiv@nkp.cz
Poslední aktualizace: 8.9.2010