Aggasztóan olcsók és súlyos következményekkel járhatnak a gépi tanulási eszközök képzésére használt adatkészletek elleni támadások – figyelmeztetnek a mesterséges intelligenciával foglalkozó szakértők.
A mesterséges intelligencia mögött álló gépi eszközök „tudása” nem öröktől fogva adott, ezeket is tanítani kell, mint a gyerekeket, még ha nem is ugyanolyan módszerekkel. A mélytanulási modellek betanítására óriási adatkészleteket, képzési adatokat használnak, és akár ezek is lehetnek egy (vagy több) hackertámadás célpontjai.
A Google, az ETH Zurich, az Nvidia és a Robust Intelligence kutatói bebizonyították, hogy lehetőség van ilyen támadásra, azaz adatmérgezésre. Az adatmérgező támadások olyan támadások, amelyek a gépi tanulási modellek betanításához használt adatokat célozzák.
A támadó különféleképpen módosíthatja ezeket az adatokat, például hamis adatok beszúrásával, meglévő adatok módosításával vagy adott adatpontok súlyozásának manipulálásával. Az adatmérgezéses támadások súlyosak lehetnek, különösen azoknál a szervezeteknél, amelyek nagymértékben támaszkodnak gépi tanulási algoritmusokra a kritikus üzleti döntések meghozatalakor. Például egy adatmérgezési támadás a pénzügyi szektorban pontatlan hitelkockázat-értékelésekhez vagy csalárd tranzakciókhoz vezethet. Az egészségügyi ágazatban egy adatmérgezési támadás téves diagnózist vagy helytelen orvosi kezelést eredményezhet.
A kutatók – írja a ZDNet – azt állítják, hogy az általuk kidolgozott technikákkal kis erőfeszítéssel és alacsony költséggel lehet(ne) megmérgezni a kiemelkedő mélytanulási adatkészletek 0,01 százalékát. Bár ez nem tűnik túl nagy adathalmaznak, azonban már a lehetőség fennállása is ijesztő.
Az egyik mód, hogy a támadók elérjék az adatmérgezési céljukat, a lejárt domainnevek vásárlása. A gyanútlan felhasználó nem is sejti, hogy már megmásított adatokat kap a weboldalon. A szakemberek egy másmilyen támadást is demonstráltak, amelynél a támadó ugyan nem tudja teljes mértékben felügyelni az adatkészletet, viszont azt pontosan meg tudja jósolni, hogy a webes erőforrás mikor lesz elérhető egy adatkészlet-pillanatfelvétel készítése céljából. Ekkor a támadó közvetlenül az információgyűjtés előtt mérgezheti meg az adatkészletet.
MI mit tud a HVG-ben? Akinek van ötlete a mesterséges intelligencia hasznosítására, 1 milliót is kereshet vele a HVG pályázatán
Mindenki a mesterséges intelligenciáról beszél - de kinek van ötlete arra, hogy miként lehet kiaknázni az új technológiában rejlő lehetőségeket? A HVG Kiadó innovációs ötletpályázatára magánszemélyek és vállalkozások is nevezhetnek.
A kutatók egy példát is említenek: a Wikipédia-adatkészletek nem az élő oldalra támaszkodnak, hanem egy adott pillanatban készült felvételre, ami azt jelenti, hogy a beavatkozást helyesen időzítő támadók rosszindulatúan szerkeszthetik az oldalt. A szakemberek 6,5 százalékos sikerarányt jósolnak, ami nem magas, viszont a Wikipédia-oldalak nagy száma és a gépi tanulási adatkészletek betanításának módja azt jelenti, hogy pontatlan információkat lehet betáplálni a gépi tanulási eszközökbe.
Egyelőre még egyetlen élő Wikipedia-oldalt sem szerkesztettek, azonban a kutatók már értesítették a lehetőségről, illetve a védekezés lehetséges eszközeiről a Wikipédiát. Azt is megjegyzik, hogy vizsgálati eredményeik közzétételének célja nem az, hogy segítséget adjanak a hackereknek, hanem hogy másokat is arra ösztönözzenek, hogy végezzék el saját kutatásaikat azzal kapcsolatban, hogy miként védhetik meg a gépi tanulási rendszereket a rosszindulatú támadásoktól.
Összességében azért elmondható, hogy az adatmérgezéses támadások elleni védekezés sokoldalú megközelítést igényel, amely technikai és eljárási intézkedéseket is magában foglal. Íme néhány lépés, amelyet a szervezetek megtehetnek az adatmérgezés elleni védelem érdekében:
- Adatminőség-biztosítás: A szervezeteknek biztosítaniuk kell, hogy a gépi tanulási modellek betanításához használt adatok pontosak, teljesek és reprezentatívak legyenek a megoldandó problémára vonatkozóan.
- Adatfigyelés és -auditálás: A szervezeteknek figyelemmel kell kísérniük és auditálniuk kell a gépi tanulási modellek betanításához használt adatokat az anomáliák vagy gyanús tevékenységek észlelésére.
- Modellellenőrzés: A szervezeteknek rendszeresen ellenőrizniük kell a gépi tanulási modellek teljesítményét, hogy azok pontos eredményeket produkáljanak.
- Fenyegetésintelligencia: A szervezeteknek naprakésznek kell lenniük a gépi tanulási ökoszisztéma legújabb fenyegetéseivel és sebezhetőségeivel kapcsolatban, hogy azonosítsák a potenciális adatmérgezési támadásokat.
- Munkavállalói tudatosság: A szervezeteknek ki kell képezniük alkalmazottaikat az adatmérgezéses támadások kockázatairól és a megelőzésük érdekében megtehető lépésekről.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.