Pdf-ból szöveget kinyerni igazán nem ördöngösség.
Pdf-ból szöveget kinyerni igazán nem ördöngösség. Ott van mindenekelőtt a jól bevált módszer: megnyitjuk a szóban forgó pdf állományt, például az ingyenes Adobe Readerben, ahol – feltéve persze, hogy nem védett a file – azután kijelöljük, majd a jól ismert Ctrl C + Vtrl V módszerrel áttesszük a szövegszerkesztőnkbe. Sőt, a Readerben arra is van lehetőség, hogy egyszerűen lementsük a szöveget .txt formátumba.
És persze vannak célszoftverek is erre a célra, amelyekből már jó párat bemutattunk, például itt és itt.
Nem állítjuk, hogy az A-PDF Text Extractor nevű program (letölthető innen) csodákra képes az előzőekhez képest, viszont gyorsaságban és egyszerűségben tényleg verhetetlen, kérdés persze, hogy ez utóbbi jellemzője (a végtelen egyszerűség) előnyös avagy inkább hátrányos.
A program letöltése után (amit persze előbb ellenőrizzünk a Dr. Web programmal, amiről itt írtunk), indítsuk el az .exe fájlt, s menjünk végig a telepítős varázslós procedúrán. Ez mindössze pár másodpercet vesz igénybe, s máris birtokba vehetjük a programot.
Ha rákattintunk asztali ikonjára, feltűnik a végletekig leegyszerűsített ablak, ahol csupán néhány lehetőség közül választhatunk.
Az Open opcióra kattintva választhatjuk ki a .pdf fájlt, majd az Extract text opció következik. Szinte egy szemvillanásnyi idő alatt előkerül a Mentés másként ablak, ahol eldönthetjük, hova is mentjük el a kinyert szöveget (.txt formátumban).
Mindebben semmi érdekes nincsen, s amiért egyáltalán érdemes szót vesztegetni a programra, az az Opciók (Options) gomb mögött rejlik. Ha ugyanis erre rákattintunk, több lehetőség közül választhatunk. Meghatározhatjuk például, hogy mely oldalakkal foglalkozzon a program (külön kijelölhetjük a páros és páratlan oldalakat), illetve azt is, hogy milyen formában vonja ki a szöveget (egymás után jöjjenek a sorok, függetlenül a hasábos elrendezéstől, maradjon meg az eredeti elhelyezés, illetve jelölje a program a szavak pozícióját is. Kérdés persze, hogy mindez elegendő érv amellett, hogy az Adobe Reader helyett inkább az A-PDF Text Extractorra voksoljunk.