2011. november. 16. 06:55 hvg.hu Utolsó frissítés: 2011. november. 16. 10:11 Tech

Hogyan elemezzünk 800 milliárd GB-nyi adatot?

Az üzleti intelligenciával foglalkozó IDC becslése alapján 2009-ben a 800 milliárd gigának megfelelő 0,8 zetabájt volt a világszerte tárolt információ mennyisége. 2020-ra nagyságrendekkel többet, 35 zetabájtot prognosztizálnak, aminek jelentős része a felhasználókra vonatkozik. A mennyiségi növekedéssel párhuzamosan az elemző- és következtetőeszközök minősége is drasztikusan javul, finomodik, mind pontosabb lesz.

A vállalatok egyre többféleképpen, természetesnyelv-feldolgozással, gépi tanulással, szimultán keresésre alkalmas böngészéssel mind nagyobb mennyiségű információt gyűjtenek össze fogyasztókról, felhasználókról, illetve strukturálatlan adatok tömkelegéből nyernek ki. Korábban hajlamosak voltak megfeledkezni róluk, feleslegesnek minősültek, „porosodásra" kárhoztattak az adattárházakban. Manapság már semmi sem felesleges, minden megér egy adatbányász próbát, nemcsak a közösségi hálózatok generálta információsorok, profilok és bejegyzések - írja a Computerworld.

A Big Brother és a Big Cyber helyett a Big Data, a folyamatos információdömping korába léptünk. Online, sőt offline életünk gyakorlatilag teljes egészében nyomon követhető, szinte semmi nem rejthető el belőle.

A gyökerek

A szilícium-völgyi Color startup okostelefonok GPS-ét beépített giroszkóppal és gyorsulásmérővel kombinálva igyekszik a felhasználók helycímkékkel ellátott online megosztott képeit elemezni. A képek különböző aspektusaira ugyanúgy figyelnek, mint a mikrofon által megörökített környezeti zajokra, háttérzenére. Nemcsak az derül ki, hogy hol járunk éppen, hanem az is, hogy kivel, s milyen hangulatban vagyunk. Az efféle szolgáltatások egyrészt vonzzák a közösségi hálók mélyére ásó elemzőket, ott elmerülő fogyasztókat, másrészt „hívő" technofileket is elgondolkoztatnak.

Két évtizede csak a technológiai-tudományos közösség élcsapata foglalkozott adatfolyamok elemzésével. Egyszerű oknál fogva: másoknak nem állt érdekében a hatalmas mennyiség feldolgozása. Ennek ellenére (vagy talán pont ezért?) az adatbányászat és az ismeretfeltárás mérföldkőszerű eredményeket ért el, három évtizedes problémákat oldott meg.

Az internet gyors elterjedése mindent megváltoztatott. Az üzleti szféra előbb felfedezte, aztán birtokba vette az online világot. Tevékenységi körük egyre jelentősebb részét tölti ki a világháló, miközben elképesztő mennyiségű adatot gyűjtenek össze fogyasztókról, vásárlási és egyéb szokásaikról. Az adatbányászat a marketingtevékenység alapja lett; cseppet sem véletlen, hogy rendre növekszik a szakterületre befektetetett pénz mennyisége. Az üzleti szereplők érdeklődése át is alakította a diszciplínát: az 1990-es évek tudósai elsősorban gondosan és strukturált formában tárolt adatokkal dolgoztak, napjaink vállalatai viszont garmadával termelik a használhatatlannak tűnő strukturálatlan masszát. Amíg a korábbi szakértők általában ügyesen elkerülték, hogy ilyeneket generáljanak vagy kelljen feldolgozniuk, a mai cégek lépéskényszerbe kerültek: az elemzéshez teljesen új technológiákat kell kidolgozniuk.

Üzleti és ipari szereplők egyre nagyobb számban akarnak stratégiai előnyre szert tenni a munkájuk során kezelt adatokból, sőt szinte mindenből, ami a weben történik. Eladók komplex vásárlói szokás- és viselkedési mintákhoz jutnak hozzá, s termelnek nagyobb hasznot. Akadályok, dugók, időjárási viszonyok alapján közlekedési mintázatok mutathatók ki, a mintázatokhoz pedig optimális útvonalak tervezhetők, javasolhatók.

A Netfix egymillió dollárt ajánlott fel a felhasználókról információt gyűjtő és az információ alapján a leghatékonyabb - a jelenleginél jobb - ajánlórendszert felépítő kutatócsoportnak. A Facebook közösségi hirdetései, az Amazon webböngészője (Silk) és természetesen a Google is a terebélyesedő adatfolyamon alapul.

Adatbányászat

Ezek a példák a jéghegy csúcsai, az adatbányászat a már létezők sokasága mellett rengeteg egyéb potenciális alkalmazással kecsegtet. A mai adatok nemcsak régi megszokott formájukban, bázisokban „várják" a feldolgozást, hanem rohamsebesen érkeznek hozzánk különböző hálózati csatornákon. Csomópontok komplex kapcsolatrendszere mellett egyéb információkat is megjelenítő grafikonként, diagramként, kommentezett videóként és ábraként szembesülünk velük.

Mélyelemzésük a közösségi média térhódításával gyorsult fel, a kép azonban csak a hálózati adatok más fontos forrásaival (elektromos hálózattal, vízellátó, közlekedésirányító rendszerekkel stb.) teljes: az e rendszerek elosztott szenzorhálózatai által generált adatsorok egyértelműsítik, hogy a helyjellegű kapcsolódások legalább annyira fontosak, mint a személyek közti barátságok a Facebookon. Fenntarthatóságuk, optimalizálásuk csak akkor kivitelezhető, ha megértettük az összetevők bonyolult kapcsolatrendszerét.

Grafikonokkal és diagramokkal régóta dolgozunk, csakhogy a közösségi és szenzorhálózatok elterjedésével korábban elképzelhetetlen (és lassan kezelhetetlen) méretűre nőttek: az elemzőnek nemegyszer csomópontok millióit, linkek tízmillióit kell feldolgoznia, majd prediktív modelleket kidolgoznia. Szakértők szerint az analitika kihívásokban gazdag tudománya hamarosan eléri az emberi aggyal felfoghatatlan, a megértést meghaladó szintet.

Áldás és csapás

A gigantikus adatsorok egyrészt hatékony kutatási eszközök, másrészt viszont nem szabad a valósnál nagyobb jelentőséget tulajdonítani nekik, döntéshozáskor csak a belőlük kinyert információra építeni magabiztosan. Ugyanúgy működnek, mint bármely más fontos technológia: áldásként és csapásként is - ha meggondolatlanul kezeljük őket, veszélyes eredmények kerekedhetnek ki belőlük. Cseppet sem véletlen, hogy felsőoktatási és üzleti szereplők egyaránt óvatosan nyúlnak a témához, egyesek lassulást szeretnének gyorsulás helyett. Nemcsak azért, mert megsértve a privacy oly sokszor emlegetett szentségét, az adatsorokból féltve őrzött személyes titkokat szivárogtathatnak ki, juttathatnak illetéktelen kezekbe, hanem prózaibb, de ugyanannyira nyugtalanító okoknál fogva is: egyáltalán nem biztos, hogy az adatok teljesek, befejezettek, esetleg (hackerek és mások által) szándékosan torzítottak vagy önmagukban torzultak.

Különböző forrásokból származó adatok összekombinálása és az érintett személyekre vonatkozó nem várt eredmény szintén komoly etikai kérdéseket vet fel. Hiába anonimak egy-egy vállalattól érkező anyagok, összegyúrva a közösségi médiából származó személyes információval, viszonylag könnyen kideríthető, kire vonatkoznak.

A Microsoft új-angliai részlege kísérleti adatsorok elemzésében szerette volna a kutatókat versenyeztetni. Tanulva a múlt tapasztalataiból, gondosan ügyeltek az anonimitás megőrzésére, el akarva kerülni az adatok nyilvánosságra hozásából eredő botrányokat. Menet közben jöttek rá, hogy többen konkrét személyek azonosítására alkalmas - rájuk szabott, kifejezetten zavaró - keresőterminológiát (például: „XY nevű feleségem megcsal?" és hasonlókat) használtak. A laboratórium törölte a versenyt.

„Ekkor kezdtük felfogni, hogy korábban mennyire nem értettük a keresőmotorokkal kapcsolatos emberi viselkedést" - magyarázta a részleg menedzsmentjét vezető Jennifer Chayes.

Alessandro Acquisti, a pittsburghi Carnegie Mellon Egyetem kutatója szerint nagy adatsorokat szinte lehetetlen minden egyes személyiségi jogi aspektust figyelembe véve kezelni. A nyilvánosan hozzáférhetők is komoly aggályokat vetnek fel. Például, mit tegyünk a felhasználó által ugyan közkinccsé tett, de később törlésre ítéltetett bejegyzésekkel? Acquisti tudja, miről beszél: az adatsorokból „kivilágló" közvetett, háttér-információkat tanulmányozza. Szándékunktól függetlenül valamennyien hagyunk ilyen (azonosításra alkalmas) nyomokat magunk után.

Felelős magatartást!

Teljesen egyértelmű, hogy megkerülhetetlen a felelősség kérdése. Hiába népszerű az a nézet, mely szerint csak nagy mennyiségű adat kell, aztán megy minden, mint a karikacsapás, paradox helyzet áll fenn: egyszerre túl sok és túl kevés a hozzáférhető adat. A számok nem mondanak el mindent, önmagukban nem elegendők. Hibás következtetéseket eredményezhetnek, megtéveszthetnek. Legyen bármennyire is gigantikus egy sor, attól még soha nem lesz teljes.

Utóbbi feltevés különösen személyek viselkedésének vizsgálatakor érvényes. Gyakori és népszerű a Facebook valamilyen célú elemzése: a kutatók trendekről, szokásokról, kapcsolati szintekről stb. igyekeznek több, mélyebb információt összegyűjteni. Általános alapkoncepció, hogy a közösségi hálózaton belüli kapcsolódások fizikai közegünkben is érvényes, valódi kapcsolatoknak felelnek meg. Torzított kép az eredmény - sokszor pont azok maradnak ki legszorosabb hálózati viszonyrendszerünkből, akikhez legszorosabban kötődünk, akikkel a legtöbb időt töltjük együtt: idősebb szülők és nagyszülők, romantikus partnerek, naponta látott közeli barátok. Magyarán, a Facebook és a többi közösségi hálózat bizonyos szintig jól reprezentálja a világot, de reklámszövegek és technoevangélisták (egyébként meggyőzően hangzó) diskurzusai ellenére egyik sem maga a világ. Hasznosak, de nem egyedül üdvözítők.

A Big Data hatalmát legékesebben (talán) a Google szemlélteti. A cég hatékony hirdetési rendszerré alakította át a keresőmotorja jóvoltából összegyűjtött irdatlan mennyiségű adatot, miközben a világ információáramlásának nem csekély részét tartja ellenőrzés alatt. Kutatási igazgatójuk, a Mesterséges intelligencia - modern megközelítésben (2002) alapművet társszerzőként jegyző Peter Norvig egy augusztusi konferencián a gépi fordítás példájával mutatta be a nagy adatsorok jelentőségét. Algoritmusai automatizált böngészőrobotokhoz (web crawlers) hasonlóan barangoltak és gyűjtögettek az információözönben. Többnyelvű honlapok sokaságát fésülték át. Norvig következtetése: idővel drámai eredményeket produkálhatnak. Ha megfelelő mennyiségű adat áll a rendelkezésére, a legpocsékabb algoritmus is nagyságrendekkel jobban teljesít, mint ha kisebb adatsorokkal dolgozna.

Különösen akkor, ha a feldolgozást végzők kellő körültekintéssel és szenzibilitással viszonyulnak az adatokhoz. Egy másik közösségi médiumot, a Twittert például előszeretettel használják fel személyek lelkiállapotának, általános hangulatoknak, politikai irányvonalak megítélésének, a hétköznapi lét változatos aspektusainak tanulmányozására. A tweetek amellett, hogy magukért beszélnek, fontos információkat szolgáltatnak, a Facebooknál is kisebb felhasználói szegmenst fednek le. Egy amerikai felmérés alapján a fiókkal bírók 40 százaléka eleve inaktív, nem posztol, csak másokat figyel. Nem kizárt, hogy a bejegyzések túlnyomó többségét viszonylag hasonló személyiségjegyekkel rendelkező felhasználók írják. Bajosan tekinthetők random mintának. A mintánál maradva: kevés kutató fér hozzá az összes Twitter-bejegyzéshez, többségük cégek által szolgáltatott mintákkal dolgozik. Ha nem tudják, milyen elképzelések és kritériumok alapján gyűjtötték azokat, viszonylag szűk felhasználói körre alapuló eredményeik és következtetéseik eltorzíthatják a valóságot. Mindeközben arról sem szabad megfeledkezni, hogy a nagy (különösen a „közösségi") adatsorok olyan cégektől származnak, amelyek nem kötelesek támogatni tudományos kutatásokat. A hozzáférés nem mindig ingyenes, a vállalat nem tesz minden adatot elérhetővé, és kifejezetten örülnek, ha bizonyos típusú vizsgálódásokból kimaradnak.