/ / Ako analyzujem PDF bez čítania obrázkov? - pdfbox, analýza textu

Ako môžem analyzovať PDF bez čítania obrázkov? - pdfbox, parsovanie textu

Analyzujem súbor PDF, ale nechcem extrahovať informácie uložené v obrázkoch a tabuľkách. Používam PDFBOX. Ako môžem odstrániť obrázky?

odpovede:

0 pre odpoveď č. 1
pdftotext -raw <pdf_name.pdf> <output.txt>

Tým sa odstráni všetky formátovanie a vrátia sa reťazce, ktoré sú v PDF, žiadne obrázky.