Hogyan ismernek fel dolgokat az algoritmusok?

4 perc

2021.04.11. 17:15

Az ember magától értetődően felismeri, mi van egy-egy képen, de elmagyarázni egy gépnek, hogyan csináljuk, egyszerűen elképzelhetetlen feladatnak látszott. A feladatban a neurális hálózatok segíthetnek, amelyek működését Hannah Fry matematikus mutatja be közérthető módon az Emberek és gépek című könyvében. Részlet.

Képzeljük el, hogy utasításokat kell írnunk egy gép számára, miből ismerheti fel, hogy egy adott képen van-e kutya. Kezdhetjük a nyilvánvaló dolgokkal: például, hogy keresse meg, van-e négy lába, kajla füle, bundája stb. De mi a helyzet azokkal a fotókkal, ahol a kutya ül? Vagy ahol nem látszik a lába? Na és ha a kutyának hegyes, és nem kajla a füle? Vagy nem néz a kamerába? És a kutya bundája mennyiben más, mint egy puha szőnyeg? Vagy a bárány gyapja? Vagy a pázsit?

Mindezekre egyenként is adhatunk extra utasításokat, de ha minden egyes fültípust, bundafajtát vagy testhelyzetet be kell táplálnunk, algoritmusunk átláthatatlanul bonyolulttá, ezáltal pedig használhatatlanná válik, még mielőtt elkezdte volna megkülönböztetni a kutyákat az egyéb szőrös négylábú teremtményektől. Más megoldásra van szükségünk: el kell hagynunk a szabályokon alapuló (rule-based) megközelítést, és a „neurális hálózat” felé kell fordulnunk.

A neurális hálózat

A neurális hálózat olyan, mint valami hatalmas matematikai szerkezet rengeteg forgatógombbal és kapcsolóval. Az egyik végén beadjuk a képet, az áthalad a rendszeren, a másik végén pedig kijön a tipp, hogy mit ábrázol a fotó – egy valószínűséget mindkét kategóriára: kutya; nem kutya. A kezdet kezdetén a neurális hálózat teljesen hasznavehetetlen – elképzelése sincs arról, mi kutya és mi nem kutya. A forgatógombok és kapcsolók random helyzetben állnak. Ennek megfelelően a gép válaszai is teljesen véletlenszerűek – egyelőre teljesen alkalmatlan a képfelismerésre, még ha az áramellátása is múlik rajta.

Csakhogy minden egyes beadott kép állít valamelyest a gombokon és kapcsolókon. Lassanként elkezdődik a betanítás. Először beadjuk egy kutya képét, a hálózat pedig kiadja a tippjét. Minden egyes tipp után egy matematikai szabálykészlet állítja át a kapcsolókat, az előrejelzés pedig egyre közelebb kerül a helyes válaszhoz. A következő, majd az újabb és újabb képekre adott helyes vagy helytelen tippeket módosítások követik, megerősítve azokat az utakat, amelyek a helyes válaszhoz vezetnek, és gyengítve azokat, amelyek a helytelenhez.

Az információ, hogy egy kutyás kép mitől hasonlít egy másik kutyás képre, visszafelé áramlik a hálózaton keresztül. Ez a folyamat zajlik egészen addig, amíg – száz meg száz fénykép feldolgozása után – a tévedés minimálisra csökken. Végül már egy soha nem látott képről is igen jó találati aránnyal megmondja, kutyát ábrázol-e.

A neurális hálózatok legizgalmasabb tulajdonsága, hogy maga a működtetője sem érti pontosan, hogyan jut el az algoritmus a végkövetkeztetéshez. A neurális hálózat ugyanis nem azon jellegzetességek alapján ismeri fel a kutyákat, mint az ember. Működése jóval elvontabb: olyan mintázatokat fedez fel a körvonalakban vagy a fény-árnyék hatásokban, amelyek az emberi megfigyelő számára semmit sem jelentenek. Mivel a folyamat emberi elme számára nehezen megragadható, az algoritmus működtetője is csak annyit ért belőle, hogy a gép a helyes válasz megtalálására van programozva, azt azonban nem tudhatja, miként jut el oda.

A „gépi tanuló algoritmus” tehát nemcsak annyit tud, mint amennyit megalkotója beleprogramozott, hanem a beletáplált képek alapján maga is képes tanulni. Az algoritmust ez a tanulási képesség ruházza fel „mesterséges intelligenciával”. A sok-sok maga szabályozta forgatógomb és kapcsoló pedig mélystruktúrát biztosít számára, amely indokolja a „mély tanulás” elnevezést.

A nagy teljesítményű számítógépek adtak lökést

hvgkonyvek.hu

Neurális hálózatok már a 20. század közepe óta léteznek, a nagy teljesítményű számítógépek azonban csak az elmúlt pár évben terjedtek el annyira, hogy kihozhassuk ezekből a maximumot.

Amikor 2012-ben Geoffrey Hinton számítástudós két diákjával együtt újfajta neurális hálózattal nevezett be egy képfelismerő versenyre, a világ is felfigyelt végre a neurális hálózatokban rejlő végtelen lehetőségre. A feladat – többek között – az volt, hogy felismerjék egy kutya képét. Hintonék algoritmusa utcahosszal verte versenytársait, és ezzel kezdetét vette a mély tanulás reneszánsza.

Egy olyan algoritmus, amelyről még a készítői sem tudják, hogyan hoz döntést, boszorkányságnak tűnhet. De gondoljunk csak bele: mi magunk is épp így tanulunk. Egy kutatócsoport nemrégiben megtanította az algoritmusát arra, hogy képes legyen megkülönböztetni egy farkas és egy husky képét. Az alapján, hogyan állította saját kapcsolóit, kimutatták, hogy az algoritmus döntéshozás közben egyáltalán nem az állatokat figyelte. A válaszait arra alapozta, hogy lát-e havat a háttérben. Hó: farkas. Nincs hó: husky.

Nem sokkal a cikk megjelenése után Frank Kelly matematikus, a Cambridge-i Egyetem professzora egy anekdotát mesélt az unokájáról. Amikor egyik nap oviba kísérte a kisfiút, észrevettek egy husky kutyát. A gyerek megjegyezte, hogy a kutya „úgy néz ki”, mint egy farkas. Amikor Kelly megkérdezte, honnan tudja, hogy nem farkas, az unokája így felelt: „Onnan, hogy pórázon van”.

A fenti cikk Hannah Fry Emberek és gépek című könyvének szerkesztett részlete. A könyvben többek között választ kapunk arra, hogyan lopakodtak be az algoritmusok mindennapi életünk valamennyi színterére – az egészségügytől kezdve a bűnüldözésen át a politikáig. Tulajdonképpen fogalmunk sincs róla, mennyi hatalmat engedtünk át nekik eddig, és arról sincs, vajon nem mentünk-e már túl messzire. A könyvet itt rendelheti meg kedvezménnyel.