Littera Deusto

Modern Languages, Basque Studies and Humanities

reCAPTCHA

noviembre 29th, 2010 · No hay Comentarios

Internet zehar dabilen edonor CAPTCHA delakoarekin aurkitu da noizbait. Akronimo honek ( Completely Automated Public Turing test to tell Computers and Humans Apart ) kontu batean izena hematerakoan agertzen zaizkizun irudidun hitzei egiten dio erreferentzia. Sistema honek Spam delakoa galerazten du, gure blogeko informazioa babesten du eta era berean bidali ahal dizkiguten milaka korreo desatzegini bidea itxi. Nahiz eta jendeak kontu hauei ez erreparatu, CAPTCHAk interneten funtzionamendurako ezinbestekoak dira. Munduan, egunean zehar ebazten diren 200 milioi CAPTCHetatik, 100 milioi reCAPTCHA sistemak bideratzen ditu.

reCAPTCHA milioika liburu eta dokumentu digitalizatzeko erabiltzen da. Adibidez, 2010aren bukaerarako New York Timesen artxibo guztia digitalizatuta eukiko dute, 1851. urtetik lanean ibili den egunkaria. Gainera, Googleren esku dagoenetik, empresa hortarako proiektuak digitalizatzeko erabiltzen da.

Zelan egiten dituzte irudi deformatu hauek? Prozesu tradizionala da, dokumentuak eskaneatu eta lortutako irudi horiei “reconocimiento óptico de caracteres (OCR)”  software bat aplikatzen zaie, ageri diren hitzak identifikatu eta testu formato batera igarotzeko. Eskaneoa gausatzeko, liburuaren horriak pasatzeko gai diren makina oso arin eta aurreratuak erabiltzen dituzte. Hala ere arazo bat dute, softwarea ez da hain zehatza eta argi ez dauden hitzak nahastu egiten dituzte. Hori dela eta, irudi bakoitza zehatz mehatz aztertzen dute. reCAPTCHAk babestutako orrialde batean sartzerakoan, holako irudiak agertuko zaizkigu:

Orrialde hortan bi hitz deformatu agertuko zaizkigu eta azpiko koadroan idatzi beharko dugu ulertzen duguna. Ikusteko zailtasunak izanez gero beste bi eskatu ahal ditugu edota soinu bidez atzeman. Bietariko bat sistemak ezagutzen du eta kontrol hitz bezala erabiltzen du. Beste hitza kontrol hitz hori ulertarazteko erabiltzen da.

ESTEKAK

reCAPTCHA: mucho mas de lo que aprecias a simple vista. Bildua (2010-11-29). Orrialdea: http://jmalarcon.es/post/reCAPTCHA-mucho-mas-de-lo-que-ves-a-simple-vista.aspx 

CAPTCHA: Orrialde ofiziala. http://www.captcha.net/

Reconocimiento óptico de caracteres: Wikipedian bildua (2010-11-29). Orrialdea: http://es.wikipedia.org/wiki/Reconocimiento_%C3%B3ptico_de_caracteres

Etiquetas:

  • Etiquetas