CAPTCHA ook ingezet voor tekstherkenning oude kranten

Iedereen heeft ze wel eens gezien en (verplicht) ingevuld: de CAPTCHA.


Noodzakelijk kwaad
Een noodzakelijk kwaad in een online wereld waar spammers elk beschikbaar reactieformulier voldumpen met advertenties voor porno en commerciƫle aanbiedingen. De CAPTCHA (een afkorting voor Completely Automated Public Turing test to tell Computer and Humans Apart) is een plaatje met letters, die moeten worden overgetypt voor de reactie online komt.

Nieuwe interpretatie
Mensen kunnen die teksten veelal ontcijferen, de spamrobots struikelen. Een nieuwe interpretatie van CAPTCHA wil uit de nood een deugd maken: gebruikers helpen meteen mee om digitale internetarchieven te ontsluiten. Het Internet Archive en de New York Times scannen momenteel oude kranten en documenten in, maar 20 procent wordt niet door de tekstherkenningssoftware begrepen.

ReCaptcha
De dienst ReCaptcha neemt deze onbegrepen stukken tekst en distribueert ze over ontelbare sites die spammers buiten de deur willen houden. Internetters herkennen het stukje tekst, typen het ter identificatie ‘als mens’ over, maar helpen direct mee de 20 procent onherkende tekst te reduceren.

Meer bij The Guardian


gerelateerde blogs met thumbnail