Pro vydavatele
- Základní informace
- Creative Commons
- Spolupracující vydavatelé
- Podpořte nás
- Navrhněte zdroj
- Generátory
O projektu
Obsah WebArchivu
Napsali o nás
Biblio (4/2009)
Finanční noviny (6/2009)
30minut.cz (2/2009)
Živě.cz (12/2008)
ČRo Leonardo (11/2008)
Krimi servis Hlaváček (8/2008)
Lupa (7/2008)
Pozitivní noviny (1/2008)
Čertoděj (6/2007)
Ikaros (1/2006)
Lupa (12/2005)
Fakta
WebArchiv obsahuje 15,5 TB dat. První dokument byl archivován 3.9.2001.
Stáhněte si naše logo!
Umístětě si na své stránky naši ikonku. Klikněte na obrázek a vyberte si:
Náš web je pod licencí
Noví partneři
8.9.2010
Aktuálně byla uzavřena smlouva s autory těchto webových stránek:
Physiological Research
Savci : internetová encyklopedie savců
Jeroným Klimeš
Školní učení
Liga otevřených mužů
Výživné
Jak na doménový trh a internetové podnikání
CEMA : Central European Music Agency
CELKEM:
2063 uzavřených smluv
Novinky
21.06.10
Akvizice online časopisů
17. června proběhl 20. seminář akvizičních pracovníků, na kterém Libor Coufal přednesl příspěvek o možnostech automatizované akvizice elektronických online časopisů pomocí nástrojů pro archivaci webu. Prezentace k dispozici online.
13.05.10
2010 IIPC General Assembly
3.-7. května proběhlo v Singapuru výroční zasedání International Internet Preservation Consortium (IIPC) a Heritrix Expert User Group Forum.
21.04.10
Creative Commons ve vzdělávání
Libor Coufal přednesl na Open Source Conference příspěvek představující možnosti aplikace licencí Creative Commons ve školství a vzdělávání. Prezentace je k dispozici zde.
21.04.10
Archivace Twitteru
Libor Coufal, vedoucí projektu WebArchiv, byl hostem v pořadu Před polednem na ČT24. Okomentoval snahy Kongresové knihovny archivovat obsah sociální sítě Twitter. Záznam k dispozici: online.
7.07.09
Finanční noviny o archivaci webu
Finanční noviny publikovaly příspěvek o archivaci webu Festivalu politické písně. V této souvislosti je pojednáno i o aktivitách WebArchivu. Celý článek čtěte zde.
Celoplošné sklizně
| Sklizeň: | Začátek: | Počet souborů: | Rozsah (MB): |
| CZ 2001 | září 2001 | 3 017 058 | 106 520 |
| CZ 2002 | duben 2002 | 10 272 093 | 315 756 |
| CZ 2004 | březen 2004 | 32 161 396 | 1 058 305 |
| CZ 2005 | červen 2005 | 9 336 123 | 253 785 |
| CZ 2006 | srpen 2006 | 70 741 016 | 3 465 016 |
| CZ 2007 | listopad 2007 | 81 300 000 | 3 600 000 |
| CZ 2008 | listopad 2008 | 78 203 483 | 3 900 000 |
| CELKEM: | 285 031 169 | 12 699 382 |
Kliknutím na název sklizně se zobrazí podrobnější informace
CZ 2008
Celoplošná sklizeň 2008 obsahuje 3,9 TB dat.CZ 2007
V roce 2007 byla provedena dosud největší celoplošná sklizeň. Sbírky WebArchivu tak dosáhly celkové velikosti přesahující 8 TB dat.CZ 2006
Počet registrovaných domén v zóně .cz dosáhl v roce 2006 počtu 278 348. V celoplošné sklizni se podařilo zachytit z tohoto množství celkem 74%.
CZ 2005
Celoplošná sklizeň 2005 se potýkala s problémy: „Systém Heritrix totiž obvykle již po několika dnech provozu spotřeboval všechnu dostupnou paměť díky velkému množství odkazů, které se chystal navštívit.“ Problém byl vyřešen s novou verzí softwaru, a tak následující sklizně proběhly v pořádku.
CZ 2004
„V polovině března 2004 byla spuštěna celoplošná sklizeň domény cz pomocí programu NEDLIB Harvester. V průběhu prvního pololetí 2004 se velikost celého komprimovaného webového archivu uloženého na diskovém poli v MZK přiblížila hranici 1TB a volné místo na tomto poli se snížilo pod 250 MB a začala tak akutně hrozit kolize s vlastními potřebami MZK. Zároveň začaly od počátku roku vycházet veřejné verze nového volně dostupného archivního crawleru Heritrix (vývoj Internet Archive), který od verze 0.2.0 uveřejněné v lednu dospěl až do listopadové verze 1.2.0, která už se vykazuje značnou stabilitou a mnoha vlastnostmi, které nemá ani starší NEDLIB Harvester. Program Heritrix byl přitom testován na sklízení serverů, s jejichž vydavateli byla uzavřena smlouva (viz dále) a na kterých se také dalo snadněji sledovat jeho chování. Souběh obou těchto okolností způsobil, že byla v říjnu zcela přerušena a předčasně ukončena celoplošná sklizeň domény cz po stažení celkem 600 GB komprimovaných dokumentů s tím, že všechny nové sklizně budou již prováděny výhradně s pomocí systému Heritrix.“
CZ 2002
„…na jaře 2002 [byla] spuštěna nová sklizeň celé domény .cz. Na rozdíl od předchozího roku byly tentokrát okrajové podmínky nastaveny šířeji – stahují se i URL s parametrem, díky čemuž je možné pokrýt většinu zdrojů seriálového charakteru, maximální hloubka zanoření byla zvětšena z 25 na 50 odkazů. To mělo samozřejmě za následek výrazný nárůst objemu stahovaných dat. Během sklizně se bohužel ukázalo, že s rostoucí velikostí archivu začíná být výkonnost používaného serveru (PC architektura, IDE disky) limitujícím faktorem. Bylo proto nutné doporučit vhodnou platformu pro další provozování harvesteru. Na základě množství dostupných prostředků i na základě HW platforem, které NK provozuje, byly vytipovány tři platformy, které by pro další provoz harvesteru připadaly v úvahu. Těmito platformami byly: Compaq ProLiant 380 (Linux), Sun Enterprise 250 (Solaris) a Compaq AlphaServer (Tru64 Unix). Během příprav na jejich testování (srpen 2002) došlo bohužel v Praze k záplavám, které na několik týdnů vyřadily celou infrastrukturu NK (včetně Centrálního depozitáře v Hostivaři, kde je umístěn server projektu) z provozu. Před vypnutím proudu v NK stihli pracovníci ÚVT MU přerušit sběr, nedošlo tak naštěstí k závažnějším problémům.“
CZ 2001
„Při první, testovací sklizni českého webu, která proběhla v měsících září a říjen 2001, bylo staženo celkem 129 GB dat, a to i přesto, že stahování šlo do hloubky jen 25 zanoření a nebyly brány v potaz soubory na ftp serverech, ani dynamicky generované stránky s parametry. … Přes 90 procent dokumentů je tvořeno soubory typu jpg (fotografie, obrázky), gif (grafika webových stránek) a html (hypertext). Na druhou stranu je zde již znatelný nárůst počtu souborů mp3 (hudba, zvuk) a mpg (video).“



