Tech techline.hu 2009. január. 01. 06:30

reCAPTCHA: építse hangyaként a Taj Mahalt!

A CAPTCHA-kat, ezeket az általában torzított betűket, számokat a neten...

A CAPTCHA-kat, ezeket az általában torzított betűket, számokat a neten garázdálkodó spamrobotok kiszűrésére találták ki, feltételezve, hogy az amúgy véletlenszerűen generált képeket csak az emberi felhasználók képesek pontosan felismerni. Egyébként a mi weboldalunkon is találnak ilyesfajta jeleket, mégpedig a kommenteknél, s korábban már részletesen is foglalkoztunk ezzel a védelmi technikával. A CAPTCHA-k olyannyira elterjedtek, hogy egy nem hivatalos statisztika szerint a felhasználók naponta több mint 100 millió CAPTHA-t “fejtenek meg”. Mindez óriási mentális erőt jelent, különösen annak fényében, hogy olyan feladatról van szó, amellyel a számítógép képtelen megbirkózni.

Erre a tényre figyeltek fel a Carnegie Mellon egyetem szakemberei, s úgy döntöttek, nem hagyják elveszni ezt a szellemi energiát, inkább megpróbálnak hasznot húzni belőle: az emberi CAPTCHA felismerő-képességgel próbálják meg kiegészíteni az optikai kerekter-felismerő programok tudását. Ehhez régebbi időkből származó szövegek beszkennelt változatait fésültetik át két különböző karakter-felismerő programmal, és azokban az esetekben, amikor a programok nem értenek egyet (nem tudnak megfejteni egy szót, esetleg másképpen értelmezik), akkor ezt a bizonyos szót CAPTCHA-vá alakítják, s szétküldik a kísérletben résztvevő weboldalaknak. Jelenleg több mint 40 ezer weboldal használ ilyesfajta, úgynevezett reCAPTCHA-kat. Azok az olvasók, akik ilyen oldalakra tévednek, miközben megfejtik a CAPTCHA-kat, kitalálják, mi is az a szó, amellyel nem boldogultak a karakter-felismerő programok.

Mi is hozzájárulhatunk a régi dokumentumok digitalizálásához

Persze azonnal adódik a kérdés: honnan tudja a rendszer, hogy tényleg jó volt-e a felhasználó által küldött “megfejtés”, hiszen nem áll rendelkezésére a megfelelő válasz. Nos, valójában nem csupán a megfejtésre váró szót küldik el, hanem egy másikat is, amelyet már felismertek a programok. Ilyenkor feltételezik, hogy ha ez utóbbit jól ismerte fel a felhasználó, akkor valószínűleg a másikkal is elboldogul.

A módszer pontosságára jellemző, hogy az egyik kísérletben több száz, különböző évekből származó New York Times cikkeket szkenneltek be és ismertettek fel. Az OCR szoftverek 84%-os pontossággal teljesítettek, ám amikor reCAPTCHA-val kombinálták a módszert, 99,1%-os lett a felismerési pontosság. Az is kiderült, hogy a reCAPTCHA-kat is éppen olyan gyorsan felismerik a felhasználók, mint hagyományos társaikat, ráadásul szívesebben fejtik meg az előbbieket, mivel a reCAPTCHA végre több, mint egy egyszerű biztonsági intézkedés.

A szakértők roppant ígéretesnek tartják a számítógép és az emberi agy teljesítőképességének ilyesfajta kombinálását egy olyan cél érdekében, amelynek kézzelfogható eredményei is lehetnek. Az egyikük érdekes hasonlattal jellemezte a projektet: “Olyan ez, mint amikor egy sereg hangya felépíti a Taj Mahalt”.

Hirdetés
Kult Balla István, Németh Róbert 2024. november. 30. 20:00

„Ez az első olyan lemezanyag, aminek az írása közben józan voltam” – Analog Balaton-interjú

„A leszaromság is abból jöhet, hogy csináljuk, amit szeretünk, és nem kell magunkat megerőltetni” – írja le a nemrég Repedés című albummal jelentkező Analog Balaton a hozzáállásukat a világhoz. Szomorú-e a mai popzene? Milyen volt a tagok – Zsuffa Aba és Vörös Ákos – híres Kinizsi utcai albérlete? Miben más józanul dalokat írni, mint a korábbi gyakorlat? Interjú.