Národní knihovna uloží do WebArchivu český internet

WebArchiv.cz ukládá 138 milionů dokumentů internetových autorů

Napsal Patrick Zandl

Bez ohledu na to, zda se podle Kaplického návrhu někdy postaví nová budova Národní knihovny, poběží již několik let fungující, ač mediálně téměř neviděný projekt Národní knihovny nazvaný WebArchiv. Jeho cíl je nicméně ambiciosní: od roku 2000 se zde uchovává obsah českého internetu.

WebArchivWebArchiv je služba ochrany a uchovávání českých webových zdrojů a na světlo ramp ji dostala především poslední aktivita Národní knihovny. Ta totiž v poslední době začíná oslovovat jednotlivé vydavatele (jednotlivce i firmy) internetových stránek a uzavírá s nimi smlouvy na tuto činnost. Podle současného výkladu zákona totiž sice může obsah médií archivovat, ale zpřístupnit je může jen na speciálním terminálu v objektu knihovny a Národní knihovna si s tím zjevně láme hlavu více, než Google Cache. Proto Národní knihovna nyní začala rozesílat návrhy smluv, které by zpřístupnily obsahy serverů i přes běžné webové rozhraní.

h3. Má aktivita Národní knihovny v době vyhledávačů smysl?

Jistě, že má. Národní knihovna přínos WebArchivu sumarizuje níže uvedenými body, v podstatě nejdůležitější ale je, že řada autorů se projevuje již jen prostřednictvím webu a pokud jejich díla nebudou uchována a uchráněna před zničením, je pravděpodobné, že se naprosto ztratí. Přitom může jít o raná díla budoucích slavných autorů, která se prostě při běžné údržbě blogovacích systémů nebo zrušení pronajatého hostingu ztratí. Jen na Bloguje.cz vznikly dvě desítky knih na základě psaní weblogů a osud výmazu postihl i díla, u kterých je to vyložená škoda. Namátkou jmenuji Vosu na jazyku nebo Žertvův deníček – to z těch, které mi přirostly k srdci nejvíce.

V digitálním světě se domníváme, že ztráta dat není možná. Přitom je tak snadné při konverzi mezi redakčními systémy ztratit takové množství materiálu. Věřte mi, vím o čem mluvím, pár konverzí velkého rozsahu už jsem podstoupil :)

Právě tohle je to, co Národní knihovna v mezinárodní spolupráci s projektem Internet Archive a dalšími mezinárodními aktivitami slibuje zajistit: text bude dostupný nezávisle na tom, jak se změní formáty dat a úložných médií. A to je také z dlouhodobého hlediska společenský úkol Národní knihovny a podobný projekt je jeho naplněním, které možná dnes hned běžný uživatel neocení, ale v průběhu desetiletí bude nabývat na důležitosti i pro běžného občana.

Musím totiž konstatovat, že jako autor činný prakticky výhradně na internetu si všímám, že některá má raná díla už v podstatě nejsou dostupná a že je problém odkazovat na texty, které kdysi hýbaly českým internetem. Tím nemyslím nutně a namyšleně jen svoje – vzpomeňme například na Ladislava Zajíčka a jeho články věnované “kameníkům” – distribuci online hudby. Tento klasik teorie online distribuce hudby je dnes pro další studium prakticky nedostupný, protože jeho Netem.cz i Bajt.cz se dávno propadly digitálnímu peklu.

Jen na závěr si postesknu, že Národní knihovna rozesílá návrhy smluv i těm serverům, které samy omezují výkon svých autorských práv například respektováním úmluvy Creative Commons – a tedy například jako Čertoděj umožňují použití textů pro nekomerční použití a s uvedením autora.

Jaké jsou tedy přínosy WebArchivu definované Národní knihovnou:

# V případě, že by Váš zdroj byl zrušen, nahrazen apod., ručí Národní knihovna za to, že bude jeho archivní verze stále přístupná ve WebArchivu, a to ve stejné podobě v jaké byl zdroj přístupný na Internetu a navíc v několika časových verzích, které dokumentují jeho vývoj. # Knihovna ručí za to, že Váš zdroj bude dlouhodobě uchováván tak, aby byl přístupný veřejnosti i v tom případě, že průběhem času dojde ke změnám hardwarových či softwarových prostředků, které byly původně použity při vytvoření Vašeho zdroje (migrace formátů nebo emulace SW). # Váš zdroj bude zkatalogizován stejným způsobem jako např. knižní publikace a bude zařazen do České národní bibliografické databáze a do online katalogu Národní knihovny. Stane se tak viditelným pro zhruba 30.000 zaregis­trovaných uživatelů Národní knihovny a také pro všechny ostatní, kteří používají online katalog Národní knihovny pouze k vyhledávání. # Vydavatel a poskytnutý zdroj budou uvedeni na seznamu partnerů spolupracujících s Národní knihovnou (viz níže). Vydavatel i zdroj tak získají určitou prestiž a podíl na záchraně českého kulturního dědictví.

Odkazy:
WebArchiv.cz


Zalinkovat článek na české služby Linkuj.cz - Media Blog

Diskuse k článku Národní knihovna uloží do WebArchivu český internet

Pavel Vodička
Pavel Vodička dodává
(6 reputaces)

Mno podle mě to nemá moc význam. Teda význam to určitě má, ale rozhodně to není nic nového. Už přece máme jeden archív internetu. Ten si dokonce ani s nějakým dotazováním majitelů stránek neláme hlavu. Hlavně ale funguje a dokonce má v archívu i zmíněné Netem.cz ( http://web.archive.org/web/*/http://netem.cz ) i Bajt.cz ( http://web.archive.org/web/*/http://bajt.cz/ ).

Pavel Vodička
Pavel Vodička dodává
(6 reputaces)

Grr, nahrazuje to špatně url. Má to být ”... org.web/*/http …”

Patrick Zandl
Patrick Zandl dodává
(594 reputaces)

Pavel Vodička: Nového to vskutku nic není. Ostatně, funguje to už šest let. Podstatné je, že se v tomto případě uchovává jen tělo článku, ne balast okolo. A podstatné je, že je to zaměřené na Česko. A jak říkám, dnes to docení málokdo :)

Pavel Vodička
Pavel Vodička dodává
(6 reputaces)

Patrick Zandl: Jasně, určitě by to byl dobrý počin, jen kdyby to fungovalo. Popravdě jsem tam nenašel ani jeden web, co jsem jen tak zkusil, kdežto na web.archive.org jsem zatím našel vždy všechno, co jsem hledal.
A bohužel to není jen naší legislativou, na WebArchivu jen jediná url z těch, co jsem zkusil hledat, tam byla (a samozřejmě nepřístupná mimo terminály).
Pokud je teď, po 6 letech provozu, tenhle archiv tak omezený, nemyslím si že to bude pro budoucí generace nějakým větším přínosem.
Osobně si myslím, že udělat archív i jen českého internetu, je pro kohokoliv v ČR příliš velké sousto.
Ale určitě jsou zajímavé, tedy v budoucnu budou, tematické sbírky :)

Jarek Jesenský
Jarek Jesenský dodává
(9 reputaces)

Nějak nerozumím myšlence, proč bychom měli čtenářům Národní knihovny zpřístupňovat náš obsah bez “balastu kolem” (tedy reklamy), který má za úkol zaplatit alespoň náklady s vydáváním magazínu spojené?
Národní knihovna po nás chce podepsat souhlas už asi dva roky, ale tohle mi dodnes nějak nedokázali vysvětlit.

I autor blogu má dle mého názoru radost, když si jeho 4 roky starý článek najde zájemce u něj na blogu a třeba i klikne na reklamu, nebo si přečte dalších 20 autorových článků, o což by umístěním v archívu Národní knihovny mohl přijít.

Myslím si, že kdyby tohle Národní knihovna vyřešila, plnil by se jí archív podstatně rychleji.

Jaroslav Malina
Jaroslav Malina dodává
(1 reputace)

Pravdou ale zůstává, že blogy se rodí a zanikají, takže v těchto případech má určitě jakákoli archivace webu smysl. Archiv je prostě běh na dlouhou trať, ale o jeho užitečnosti nepochybuji. Osobně tedy používám Internet Archive, věřím ale, že i Webarchiv snad bude do budoucna uživatelsky přívětivější.

Lukas Matejka
Lukas Matejka dodává
(1 reputace)

>Pokud je teď, po 6 letech provozu, tenhle archiv tak omezený, >nemyslím si že to bude pro budoucí generace nějakým větším >přínosem.

Omezený je pouze přístup k datům, což znamená, že data se uchovávájí a v budoucnu mohou být zpřístupněna. Myslím, že právě za několik let se teprve docení uchované weby například z roku 2000.

Zásadní rozdíl mezi Internet Archive a Webarchiv je hlavně v tom, že webarchiv.cz sbírá české vybrané servery daleko častěji. Patrně není v silách IA aby sklízel “celý” svět tak často, jako webarchiv.cz, který se může soustředit pouze na Českou Republiku.

Jaroslav Malina
Jaroslav Malina dodává
(1 reputace)

Budu se těšit, na změny… Zatím pro mě ale není Webarchiv vůbec uživatelsky příjemný. Až se povede tu sbírku poskytovat online, asi se to zlepší. Prozatím pro občasného uživatele podobných služeb jasně vyhrává IA.

Libor Coufal
Libor Coufal dodává
(27 reputaces)

Děkujeme za skvělou propagaci a zájem o náš projekt. WA je zatím stále ve vývojové fázi, přesto se rozhodně nedá označit za omezený. K dnešnímu dni archivujeme téměř 137 mil. dokumentů z cca 350 tis. serverů. Při sklízení jsme alespoň jednou navštívili ¾ z celkového počtu domén v rámci .cz. Uložení a bezpečné uchování dat bylo samozřejmě od začátku prioritou.
Bohužel z důvodů autorského práva je veřejný přístup k archivovaným zdrojům omezen na prostory Národní knihovny. Pro okamžitý přístup vřele doporučujeme využít skvělý archiv našich partnerů z IA, který ale díky svému širokému záběru není schopen jít příliš do hloubky.
Archivace je však opravdu během na dlouhou trať, a my pevně věříme, že NK bude existovat i v době, kdy už autorská práva nebudou překážkou. Snad to bude platit i pro IA jako soukromou firmu.
V současnosti pracujeme na tom, abychom vylepšili uživatelské rozhraní a co nejvíce vám zpříjemnili přístup k veřejné části archivu. Chceme se také do budoucna více zaměřit na tématické kolekce.
Váš WebArchiv

Tomáš Síbek
Tomáš Síbek dodává
(1 reputace)

Jarek Jesenský: Neodstraňujeme cíleně nic z obsahu webů, tedy ani reklamu. Pokud je součástí stránek, bude se jako taková zobrazovat i z WebArchivu. Jinak je tomu ale v případě, že jde o externí odkazy ven ze stránek. U celoplošných sklizní by dokonce měly fungovat i externí odkazy. Otázkou ovšem zůstává dlouhodobý přínos reklamy (v řádu desítek nebo stovek let) – snad pro budoucí badatele, ale pro současné autory finančně zřejmě žádný.

Na druhou stranu archivace umožní dlouhodobý přístup k archivovaným materiálům, nejen za čtyři, ale i dvacet a možná sto let. Přístup k ostatním článkům autora, pokud jsou umístěny na tomtéž či jiném archivovaném webu, zůstane zachován. Zájemci tedy budou mít možnost vidět všechny články autora i poté, kdy se původní blog změní nebo úplně zanikne.

Za WebArchiv – TS

Chcete-li komentovat, zaregistrujte se nebo přihlašte