Chytrý nápad: reCaptcha řeší spam a digitalizuje knihy

Jak zdigitalizovat knihy? Podstrčit je jako Captcha otázku!

Napsal Patrick Zandl

Někdy je dobré pozastavit se i nad malým chytrým nápadem. ReCaptcha je příkladem takové malé silné myšlenky. Proč? Protože vám pomůže vyřešit spam a k tomu digitalizovat knihy. Jak to? To je právě ten chytrý nápad.

Logo ReCaptchaReCaptcha, jak už název napovídá, vychází z oblíbeného mechanismu Captcha, který se snaží znepříjemnit život spamerům nejrůznějších diskusních fór a služeb. Captcha nabídne čtenáři zdeformovaný text, který musí zadat, pokud chce, aby se jeho akce (například přidání příspěvku do diskusního fóra) provedla. Vtip je v tom, že za spamera jedná robot, který má s rozpoznáváním zdeformovaného textu problémy, zatímco člověk si i se silně zdeformovaným textem poradí.

ReCaptcha je vlastně systém, který je zpřístupněný pro ostatní servery a skrze API nebo nejrůznější pluginy (k dispozici z oblíbených je plugin do Wordpressu nebo třeba PhpBB) a nabízí ochranu proti spamu pomocí Captcha principu, tedy ověřením opisu zdeformovaného textu. V čem je ale podstatná odlišnost od jiných systémů: používáním reCaptcha pomáhají lidé digitalizovat knihy pro projekt alexandrijské knihovny Internet Archive.

h3. Jak reCaptcha funguje

Odhaduje se, že denně je 60 milionů použití captcha, což denně představuje 150 000 hodin, který někdo věnuje této práci. Práce představuje zanalyzování textu a 150 000 hodin je opravdu hodně, odpovídá to zhruba 17 000 pracovníkům na plný úvazek. A tak někoho chytrého napadlo, jak tuto práci, kterou lidé beztak vykonávají, využít ku prospěchu všech při projektu digitalizace knih Internet Archive.

Projekt digitalizace knih Internet Archive naráží na to, že OCR programy zejména u starších tisků mají značné problémy. Proč, vidno z obrázku pořízeném lidmi z reCaptcha.

Problémy s OCR

Skenované stránky s problematickým čtením jsou tedy automaticky rozřezány a přes ReCaptcha projekt distribuovány uživatelům, kteří je přečtou a zanalyzují jako captcha kód.

Vyzkoušet si to můžete zde:



Asi vás napadlo, kde je ta finta, když není známý text patřící k obrázku, což je přeci smysl captcha mechanismu. Všimněte si, že u ReCaptcha je třeba vyplnit dvě slova. U jednoho již ReCaptcha ví, jak ve skutečnosti zní, u druhého si uloží váš výsledek a porovná jej s výsledky dalších lidí, za správný se považuje převažující výskyt. Jedno slovo tedy musí ověřit více lidí a na vychytralosti vyhodnocovacího algorytmu a zároveň automatizaci rozřezávání nečitelných stránek je celá reCaptcha založená.

Na úvod jsem řekl, že bych chtěl vyzdvihnout zajímavou a jednoduchou myšlenku. Jak vidíte, je principiálně jednoduchá, ale její provedení nebylo jistě tak jednoduché a její význam může být dalekosáhlý, takže si vlastně trochu protiřečím. Jenže, v jednoduchosti je síla, že…

ReCaptcha je zatím horká novinka, web je v provozu vysloveně pár dní, takže i v zahraničí se příliš nestihla rozšířit. Za celou akcí stojí Carnegie Mellon University spolu s partnery/sponzory jako Intel nebo Novell. K uchycení v českém prostředí trochu vaší fakt, že texty na ikonce jsou v angličtině, ale zřejmě to půjde lokalizovat. Kdo bude u nás první?

Web ReCaptcha


Zalinkovat článek na české služby Linkuj.cz - Media Blog

Diskuse k článku Chytrý nápad: reCaptcha řeší spam a digitalizuje knihy

Jiří Hlaváč
Jiří Hlaváč dodává
(1 reputace)

Některé lidské výtvory jsou fakt chvályhodné. A tenhle je jeden z nich. Ve své podstatě jednoduché a efektivní.

Matěj Novák
Matěj Novák dodává
(1 reputace)

Opravdu geniální idea, nejlepší nápad, k kterém jsem poslední dlouhou dobu slyšel.
Bohužel to neřeší problémy captchy, ale než bude vymyšleno něco výrazně lepšího, určitě se přečte spousta knih…

jan korbel
jan korbel dodává
(1 reputace)
David Grudl
David Grudl dodává
(1 reputace)

To je v podstatě princip, jaký používají spammeři pro překonání Captcha na blozích. Přesměrovávají je na porno stránky, kde je nechávají opisovat lidmi a výsledek poté použijí na vložení komentáře.

Radek Hulán
Radek Hulán dodává
(-7 reputaces)

reCaptcha má problém:
- nedá se lokalizovat
- nedá se stylovat
- nefunguje pod application/xhtml+xml

Resumé: pro ČR zcela nepoužitelné.

Michal Wiglasz
Michal Wiglasz dodává
(0 reputaces)

Jak souvisí druhý a třetí argument s použitelností v ČR? Hlavně ten třetí…

jiri soumar
jiri soumar dodává
(-1 reputaces)

CAPTHCA celkove na prd. Zbytecne otravuje lidi a osobne me neskutecne stve. Ve firme mame ochranu na uplne jine bazi a rok co nam bezi, jsme nemeli ani jeden prulom, ze by byl v diskuzi SPAM.

Musim uznat, ze Radek Hulan ma pravdu.

Chcete-li komentovat, zaregistrujte se nebo přihlašte