Pro vydavatele
- Základní informace
- Creative Commons
- Spolupracující vydavatelé
- Podpořte nás
- Navrhněte zdroj
- Generátory
O projektu
Obsah WebArchivu
Napsali o nás
Právní linka (5/2013)
Príma receptář (3/2013)
Základní škola Bruntál (2/2013)
Přibližovadla.cz (6/2012)
CzechFolks.com PLUS (5/2012)
Neviditelný pes (2/2012)
NETzin.cz (1/2012)
VysokeSkoly.cz (9/2011)
Honzíkovy vláčky (7/2011)
Biblio (4/2009)
Finanční noviny (6/2009)
30minut.cz (2/2009)
Živě.cz (12/2008)
ČRo Leonardo (11/2008)
Krimi servis Hlaváček (8/2008)
Lupa (7/2008)
Pozitivní noviny (1/2008)
Čertoděj (6/2007)
Ikaros (1/2006)
Lupa (12/2005)
Fakta
WebArchiv obsahuje 60,3 TB dat k 1. 6. 2012. První dokument byl archivován 3.9.2001.
Stáhněte si naše logo!
Umístětě si na své stránky naši ikonku. Klikněte na obrázek a vyberte si:
Náš web je pod licencí
Noví partneři
22.5.2013
Aktuálně byla uzavřena smlouva s autory těchto webových stránek:
Česká zoologická společnost
Zdravotnická záchranná služba Jihočeského kraje
Český svaz ochránců přírody Regionální sdružení Iris Prostějov
Ilustrátoři : nemají logo... zato ale mají svůj web
Ostravak : o jednom cypovi z Ostravy
Náš region
Krajská hygienická stanice Jihočeského kraje se sídlem v Českých Budějovicích
Obec Pěnčín
CELKEM:
3765 uzavřených smluv
Novinky
10.05.12
Článek o WebArchivu
Na stránkách CzechFolks.com PLUS publikoval český novinář a spisovatel Miroslav Sígl článek věnovaný WebArchivu.
26.04.12
Výroční zasedání IIPC 2012, Washington
Ve dnech 30. 4. až 4. 5. 2012 se koná ve Washingtonu výroční zasedání International Internet Preservation Consortium (IIPC) včetně jednodenní otevřené konference. Více informací a program konference na stránkách
IIPC.
4.04.12
Výběrová sklizeň duben 2012
Byla spuštěna výběrová sklizeň zdrojů se smlouvou s frekvencí sklízení 6x a 12x ročně. Více na našem blogu.
29.03.12
Přednáška o WebArchivu
Přednáška na téma “WebArchiv a jeho budoucnost” v rámci Jinonických informačních pondělků se uskuteční 2. 4. od 14 hod. v prostorách UISK FF UK v Jinonicích. Více na blogu.
14.03.12
Anketa
Na blogu můžete hlasovat o zařazení zdroje do výběrových sklizní WebArchivu. Je to poprvé, kdy používáme anketu pro hlasování. Více na blogu v článku.
Celoplošné sklizně
| Sklizeň: | Začátek: | Počet souborů: | Rozsah (MB): |
| CZ 2001 | září 2001 | 3 017 058 | 106 520 |
| CZ 2002 | duben 2002 | 10 272 093 | 315 756 |
| CZ 2004 | březen 2004 | 32 161 396 | 1 058 305 |
| CZ 2005 | červen 2005 | 9 336 123 | 253 785 |
| CZ 2006 | srpen 2006 | 70 741 016 | 3 465 016 |
| CZ 2007 | listopad 2007 | 81 300 000 | 3 600 000 |
| CZ 2008 | listopad 2008 | 78 203 483 | 3 900 000 |
| CZ 2009 | listopad 2009 | 178 342 230 | 6 600 654 |
| CZ 2010 | listopad 2010 | 373 178 080 | 9 720 367 |
| CZ 2011 | listopad 2011 | 345 232 271 | 10 914 568 |
| CELKEM: | 1 180 783 950 | 39 934 971 |
Kliknutím na název sklizně se zobrazí podrobnější informace
CZ 2011
Celoplošná sklizeň 2011 obsahuje 10,4 TB dat.CZ 2010
Celoplošná sklizeň 2010 obsahuje 9,3 TB dat.CZ 2009
Celoplošná sklizeň 2009 obsahuje 6,3 TB dat.CZ 2008
Celoplošná sklizeň 2008 obsahuje 3,9 TB dat.CZ 2007
V roce 2007 byla provedena dosud největší celoplošná sklizeň. Sbírky WebArchivu tak dosáhly celkové velikosti přesahující 8 TB dat.CZ 2006
Počet registrovaných domén v zóně .cz dosáhl v roce 2006 počtu 278 348. V celoplošné sklizni se podařilo zachytit z tohoto množství celkem 74%.
CZ 2005
Celoplošná sklizeň 2005 se potýkala s problémy: „Systém Heritrix totiž obvykle již po několika dnech provozu spotřeboval všechnu dostupnou paměť díky velkému množství odkazů, které se chystal navštívit.“ Problém byl vyřešen s novou verzí softwaru, a tak následující sklizně proběhly v pořádku.
CZ 2004
„V polovině března 2004 byla spuštěna celoplošná sklizeň domény cz pomocí programu NEDLIB Harvester. V průběhu prvního pololetí 2004 se velikost celého komprimovaného webového archivu uloženého na diskovém poli v MZK přiblížila hranici 1TB a volné místo na tomto poli se snížilo pod 250 MB a začala tak akutně hrozit kolize s vlastními potřebami MZK. Zároveň začaly od počátku roku vycházet veřejné verze nového volně dostupného archivního crawleru Heritrix (vývoj Internet Archive), který od verze 0.2.0 uveřejněné v lednu dospěl až do listopadové verze 1.2.0, která už se vykazuje značnou stabilitou a mnoha vlastnostmi, které nemá ani starší NEDLIB Harvester. Program Heritrix byl přitom testován na sklízení serverů, s jejichž vydavateli byla uzavřena smlouva (viz dále) a na kterých se také dalo snadněji sledovat jeho chování. Souběh obou těchto okolností způsobil, že byla v říjnu zcela přerušena a předčasně ukončena celoplošná sklizeň domény cz po stažení celkem 600 GB komprimovaných dokumentů s tím, že všechny nové sklizně budou již prováděny výhradně s pomocí systému Heritrix.“
CZ 2002
„…na jaře 2002 [byla] spuštěna nová sklizeň celé domény .cz. Na rozdíl od předchozího roku byly tentokrát okrajové podmínky nastaveny šířeji – stahují se i URL s parametrem, díky čemuž je možné pokrýt většinu zdrojů seriálového charakteru, maximální hloubka zanoření byla zvětšena z 25 na 50 odkazů. To mělo samozřejmě za následek výrazný nárůst objemu stahovaných dat. Během sklizně se bohužel ukázalo, že s rostoucí velikostí archivu začíná být výkonnost používaného serveru (PC architektura, IDE disky) limitujícím faktorem. Bylo proto nutné doporučit vhodnou platformu pro další provozování harvesteru. Na základě množství dostupných prostředků i na základě HW platforem, které NK provozuje, byly vytipovány tři platformy, které by pro další provoz harvesteru připadaly v úvahu. Těmito platformami byly: Compaq ProLiant 380 (Linux), Sun Enterprise 250 (Solaris) a Compaq AlphaServer (Tru64 Unix). Během příprav na jejich testování (srpen 2002) došlo bohužel v Praze k záplavám, které na několik týdnů vyřadily celou infrastrukturu NK (včetně Centrálního depozitáře v Hostivaři, kde je umístěn server projektu) z provozu. Před vypnutím proudu v NK stihli pracovníci ÚVT MU přerušit sběr, nedošlo tak naštěstí k závažnějším problémům.“
CZ 2001
„Při první, testovací sklizni českého webu, která proběhla v měsících září a říjen 2001, bylo staženo celkem 129 GB dat, a to i přesto, že stahování šlo do hloubky jen 25 zanoření a nebyly brány v potaz soubory na ftp serverech, ani dynamicky generované stránky s parametry. … Přes 90 procent dokumentů je tvořeno soubory typu jpg (fotografie, obrázky), gif (grafika webových stránek) a html (hypertext). Na druhou stranu je zde již znatelný nárůst počtu souborů mp3 (hudba, zvuk) a mpg (video).“



