Először használtak amerikai kutatók fotonikus (fényalapú) eszközben mesterséges intelligenciát, hogy kiküszöbölve számos hardverelemet, elképesztő tempójú képfelismerést érjenek el.
Közel 2 milliárd képet képes osztályozni mindössze 570 pikoszekundum alatt (a pikoszekundum a milliomod másodperc milliomod része) a Pennsylvaniai Egyetem kutatóinak fotonikus mély neurális hálózata, azaz mesterséges intelligenciája. Hogy mennyire nagy dologról van szó, azt jól érzékelteti, hogy a folyamatos felvétel képsebessége 23 és 120 képkocka között van másodpercenként – helyezi perspektívába az adatokat a ZME Science. Az optikai adatok ilyen feldolgozásához nincsen szükség analóg-digitál átalakítóra, nagy memóriamodulra, ami gyorsabb és energiahatékonyabb megoldást tesz lehetővé.
A számítógépes látás, azaz a komputer végezte képfeldolgozás persze nem újdonság, azonban ezek a gépek még meglehetősen lassúak, legalábbis a világ egyik legjobb képfelismerő rendszeréhez, az emberi szemhez képest. A problémát a képfeldolgozáshoz szükséges hardverek jelentik, az információk állandóan ide-oda mozognak ezek között, nagy idő- és energiaráfordítással.
A Pennsylvaniai Egyetem villamosmérnökei megpróbálták utánozni a neuronok vizuális információfeldolgozási módját egy mély neurális hálózat kifejlesztésével, amely egy fotonikus chip segítségével közvetlenül osztályozza a képeket anélkül, hogy szükség lenne a szokásos érzékelőkre vagy memóriamodulokra.
A kilenc „neuronból” álló apró chip mindössze 9,3 négyzetmilliméternyi. A vizuális információ rögzítéséhez és feldolgozásához egy képet vetítenek egy 5x6-os tömbre, ahol minden képpont optikai csatornákon keresztül jut el a neuronokhoz. A fényjeleket folyamatosan módosítják, ahogy áthaladnak a mikrochip neuronrétegein, és mindez nagyon gyorsan történik. A fotonikus chip teszteléséhez a kutatók egy 216 betűből álló készletet p vagy d kategóriába soroltak, egy másik, 432 betűből álló készletet pedig p, d, a vagy t kategóriába. A chip és a mély neurális hálózat az első esetben 93,8 százalékos, míg a másodikban 89,8 százalékos pontosságú volt.
A kutatók először csak a koncepciójukat akarták bizonyítani, ezért csak néhány mesterséges neuront használtak. A beállítás azonban méretezhető, és videók vagy akár 3D-s objektumok osztályozására is használható. Ráadásul mivel a hang és a beszéd is konvertálható az optikai tartományba, ezek esetében is bevethető a módszer, amelyről a Nature folyóiratban számoltak be a szakemberek.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.