Tech techline.hu 2009. július. 13. 05:45

Szövegkivonás pdf-ből a lehető leggyorsabban, Reader nélkül

Pdf-ból szöveget kinyerni igazán nem ördöngösség.

Pdf-ból szöveget kinyerni igazán nem ördöngösség. Ott van mindenekelőtt a jól bevált módszer: megnyitjuk a szóban forgó pdf állományt, például az ingyenes Adobe Readerben, ahol – feltéve persze, hogy nem védett a file – azután kijelöljük, majd a jól ismert Ctrl C + Vtrl V módszerrel áttesszük a szövegszerkesztőnkbe. Sőt, a Readerben  arra is van lehetőség, hogy egyszerűen lementsük a szöveget .txt formátumba.
És persze vannak célszoftverek is erre a célra, amelyekből már jó párat bemutattunk, például itt és itt.
Nem állítjuk, hogy az A-PDF Text Extractor nevű program (letölthető innen) csodákra képes az előzőekhez képest, viszont gyorsaságban és egyszerűségben tényleg verhetetlen, kérdés persze, hogy ez utóbbi jellemzője (a végtelen egyszerűség) előnyös avagy inkább hátrányos.

A fejlesztő weboldalán a pdf formátumhoz kapcsolódó programokból válogathatunk

A program letöltése után (amit persze előbb ellenőrizzünk a Dr. Web programmal, amiről itt írtunk), indítsuk el az .exe fájlt, s menjünk végig a telepítős varázslós procedúrán. Ez mindössze pár másodpercet vesz igénybe, s máris birtokba vehetjük a programot.
Ha rákattintunk asztali ikonjára, feltűnik a végletekig leegyszerűsített ablak, ahol csupán néhány lehetőség közül választhatunk.

Nem állítjuk, hogy túl sok lehetőséggel kényeztetne el a program

Az Open opcióra kattintva választhatjuk ki a .pdf fájlt, majd  az Extract text opció következik. Szinte egy szemvillanásnyi idő alatt előkerül a Mentés másként ablak, ahol eldönthetjük, hova is mentjük el a kinyert szöveget (.txt formátumban).

Ha akarjuk, azonnal elénk tárul a pdf-ből kivont szöveg

Mindebben semmi érdekes nincsen, s amiért egyáltalán érdemes szót vesztegetni a programra, az az Opciók (Options) gomb mögött rejlik. Ha ugyanis erre rákattintunk, több lehetőség közül választhatunk. Meghatározhatjuk például, hogy mely oldalakkal foglalkozzon a program (külön kijelölhetjük a páros és páratlan oldalakat), illetve azt is, hogy milyen formában vonja ki a szöveget (egymás után jöjjenek a sorok, függetlenül a hasábos elrendezéstől, maradjon meg az eredeti elhelyezés, illetve jelölje a program a szavak pozícióját is. Kérdés persze, hogy mindez elegendő érv amellett, hogy az Adobe Reader helyett inkább az A-PDF Text Extractorra voksoljunk.

Hirdetés