Programnyelvtan
Az ismert internetes kereső- és a kulcsszavazó adatbázisprogramok a hagyományos könyvtári katalógusok srófjára járnak.
Az ismert internetes kereső- és a kulcsszavazó adatbázisprogramok a hagyományos könyvtári katalógusok srófjára járnak. A beírt szavak alapján a szoftverek (szakargóban: motorok) a kulcsszavakkal előre felcímkézett dokumentumokat (weboldalakat) találják meg és tálalják – többnyire ömlesztve. További keresésekkel szűkíthetők ugyan a találatok, ám azokból már alapvetően a felhasználónak kell kihüvelyeznie a kívánt információt. A szövegbányászati alkalmazások ezzel szemben nem konkrét dokumentumokat keresnek, hanem válaszokat a használójuk által feltett kérdésekre. Például arra, hogy egy kutatóorvos eredményeit hol, kik és hányszor használták fel a világon. A folyamat hasonlít a vírusirtó programok technológiájára. Vagyis a szövegbányászmotor is „rárepül” a kezelője által kijelölt szöveges adathalmazra, és az előre meghatározott szűrőkifejezések mentén átrágja magát a betűtengeren. Csakhogy – a beépített speciális algoritmusok révén – nem csupán azt jelzi, hogy hol és hány kifejezésre bukkant, hanem azok szövegkörnyezetét is felméri, osztályozza, hierarchiába állítja, majd kiértékeli őket például a gyakoriság vagy a szöveg-összefüggés alapján.
A nemzetközi adatbázisok – mint például az amerikai Nemzeti Könyvtár égisze alatt működő, több mint 14 millió orvosbiológiai publikációt tartalmazó MedLine –, a szakirodalmi könyvtárak és a kutatóhelyek saját adatai azonban nincsenek összekapcsolva. Így mindegyikben külön kell keresgélni, majd ezeket összevetni egymással, hogy értékelhető információhoz lehessen jutni. Az MTA Számítástechnikai és Automatizálási Kutatóintézete, az ELTE, a Szegedi Egyetem és két magáncég alkotta konzorcium által tavaly fejleszteni kezdett, várhatóan ez év végén elkészülő program készítői azt ígérik, hogy az ő szövegbányászati alkalmazásuk elsőként fogja a szakadatbázisokat és az internetet célirányosan, egyidejűleg szondázni. A Kampis György vezette tudósbrigád ugyanis össze kívánja kötni, illetve továbbfejleszteni a már piacon lévő szoftvereket, hogy minimális számítástechnikai ismeretet követelő, a természet- és társadalomtudományokban egyaránt használható eszközt hozzon létre. Szövegbányászati módszerekkel például Amerikában ma már nemcsak a kórházi és a patikai adatokat, illetve a Google gyógyszerkeresési toplistáját veszik alapul az influenzajárvány-terjedési előrejelzésekben, hanem azt is, hogy a bloggerek beszámoltak-e a betegségről internetes magánnaplóikban. A Kampisék fejlesztette eszközzel állítólag vizsgálható lesz az is, milyen változásokat generál a társadalomban egy-egy kormányzati döntés. Az internetes fórumok, blogok és hírportálok szövegtengeréből kimutatható a pozitív és negatív vélemények aránya, az elutasítás és az elfogadás mértéke, a különféle irattári nyilvántartások forgalmából és az adatbázisok tartalmi változásaiból pedig az, hogy szokatlanul nagy forgalmat generált-e a döntés az államgépezetben, keletkezett-e több peres ügy, vagy épp fordítva. Mindez akár egyből kördiagram vagy grafikon formájában. A kutatóknak szánt alkalmazás használata bonyolultabb lesz, mint egy átlagos keresőé, hiszen az említett kérdéseket egy áttekinthető, ámde összetett szűrő segítségével a különböző adatbázisok nyelvéhez kell igazítani.