Pro vydavatele
- Základní informace
- Creative Commons
- Spolupracující vydavatelé
- Podpořte nás
- Navrhněte zdroj
- Generátory
O projektu
Obsah WebArchivu
Napsali o nás
Biblio (4/2009)
Finanční noviny (6/2009)
30minut.cz (2/2009)
Živě.cz (12/2008)
ČRo Leonardo (11/2008)
Krimi servis Hlaváček (8/2008)
Lupa (7/2008)
Pozitivní noviny (1/2008)
Čertoděj (6/2007)
Ikaros (1/2006)
Lupa (12/2005)
Fakta
WebArchiv obsahuje 15,5 TB dat. První dokument byl archivován 3.9.2001.
Stáhněte si naše logo!
Umístětě si na své stránky naši ikonku. Klikněte na obrázek a vyberte si:
Náš web je pod licencí
Noví partneři
11.3.2010
Aktuálně byla uzavřena smlouva s autory těchto webových stránek:
Mogen Ovaus
Yerba Maté
Agora Metaphysica
Powwow.cz
AUUP : Asociace pro urbanismus a územní plánování
Přemysl Sobotka
Centrum pro regionální rozvoj České republiky
Deník nespokojeného hráče
CELKEM:
1738 uzavřených smluv
Novinky
7.07.09
Finanční noviny o archivaci webu
Finanční noviny publikovaly příspěvek o archivaci webu Festivalu politické písně. V této souvislosti je pojednáno i o aktivitách WebArchivu. Celý článek čtěte zde.
4.06.09
Sledujeme dění v Evropě
Po dobu trvání evropského předsednictví České republiky provádíme dlouhodobou tematickou sklizeň monitorující tuto událost. V kooperaci s dalšími evropskými knihovnami připravujeme také tematickou sklizeň u příležitosti voleb do evropského parlamentu.
4.06.09
O Creative Commons na Inforu
Lukáš Gruber představil na konferenci Inforum licence Creative Commons a seznámil účastníky s procesem tvorby jejich české verze. Více zde.
20.04.09
Ohlasy uvedení licence Creative Commons v češtině
Zajímavé články vyšly na těchto serverech: lupa.cz itbiz.cz lidovky.cz
15.04.09
Licence Creative Commons v češtině
Česká republika se stane padesátoudruhou zemí s národní lokalizací licence Creative Commons. Již nyní můžete českou verzi licence používat. Oficiální uvedení proběhne 16.4.2009 od 10:00 v aule DigiLabu.
Tisková zpráva v češtině [.pdf].
Tisková zpráva v angličtině [.pdf].
Charakteristika Webarchivu
WebArchiv vznikl v rámci programového projektu výzkumu a vývoje „Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet“ (Ministerstvo kultury ČR). Projekt je řešen od roku 2000 v Národní knihovně České republiky, financován téměř výhradně z grantové podpory. Spoluřešitelem odpovědným za informační technologie je Moravská zemská knihovna v Brně, externím spolupracovníkem je Ústav výpočetní techniky Masarykovy univerzity v Brně. V roce 2006 obdržel projekt WebArchiv cenu INFORUM.
Úloha projektu WebArchiv
V prostředí internetu průběžně narůstá obrovské množství publikovaných dokumentů, které se postupně mění nebo zcela mizí. Pokud nebudou průběžně archivovány, tato významná součást národního kulturního dědictví bude nenávratně ztracena. Odpovědnost za archivaci webových zdrojů a jejich registraci v národní bibliografii nesou národní knihovny, příp. další depozitní knihovny.
Úlohou projektu WebArchiv je řešení problematiky archivace národního webu, tj. bohemikálních dokumentů zveřejněných v prostředí sítě Internet – shromažďování webových zdrojů, jejich archivace a ochrana a zajištění dlouhodobého přístupu k těmto archivovaným dokumentům. Provádí se jednak kompletní archivace, tj. automatický sběr „celého“ českého webu. Souběžně probíhá výběrová archivace (na základě URL nejzajímavějších webových zdrojů vybraných na základě selekčních kritérií) a tématické archivace (zaměřené na určité aktuální téma, např. volby, povodně apod.). V současné době je stav řešení na úrovni výzkumu a testování. K provádění rutinních činností je zapotřebí jednak podstatné navýšení financování projektu, jednak řešení stávající legislativy zejména autorsko-právní tak, aby umožňovala zpřístupňování archivovaných zdrojů.
Získávání
Získávání dokumentů z webu je po technické stránce převážně automatický proces, kdy se na základě zadaných parametrů ve speciálním SW nástroji stahují data, indexují a ukládají do digitálního archivu. V současné době se používají a přizpůsobují volně dostupné SW nástroje s otevřeným zdrojovým kódem (Heritrix) na serveru vyčleněném pro archivaci. Nezbytnou součástí akvizice je stanovení kritérií výběru zdrojů a výběrová archivace jako intelektuální činnost s cílem registrace nejvýznamnější části publikací na Internetu v České národní bibliografii (ČNB). Praktické řešení získávání dokumentů je podmíněno řešením legislativy, zejména zákonné úpravy povinného výtisku.
Archivace a ochrana
Stažená data (webové zdroje a metadata) jsou ukládána v archivu v archivačních formátech, které by měly zajistit v rámci vývoje informačních technologií migraci dat a tím jejich trvalé zpřístupnění. Vedle serveru slouží pro archivaci diskové pole.
Zpřístupnění
Pro zpřístupnění je v současné době využíván druhý server, který je stěží dostačující pro současné experimentální zpřístupnění malého souboru dat. Pro fulltextovou indexaci je využíván volně dostupný systém Nutch a nad ním postavená rozšíření Nutchwax a WERA.
Standardy
Ve všech oblastech jsou důsledně aplikovány mezinárodní standardy – pro popis online zdrojů formáty MARC21, Dublin Core, XML; pro identifikaci zdrojů jednoznačné mezinárodní identifikátory (ISSN, URN); pro archivaci formát ARC.
Popisy dokumentů vybraných pro Českou národní bibliografii a konzervační fond jsou experimentálně ukládány v systému ALEPH, který disponuje podporou protokolu Z39.50 na úrovni klient i server a podporou OAI-PMH pro režim repository i harvesting s profilem pro MARC 21 a kvalifikovaný DC.
Legislativa
Současná legislativa upravující povinnost vydavatelů odevzdávat určeným knihovnám povinný výtisk je pro publikované online zdroje nevyhovující. Současná verze Autorského zákona neumožňuje zpřístupňování dat z digitálního archivu (konzervační fond). Pro zpřístupnění je zásadním problémem současná verze Autorského zákona.



