Analyzujem súbor PDF, ale nechcem extrahovať informácie uložené v obrázkoch a tabuľkách. Používam PDFBOX. Ako môžem odstrániť obrázky?
odpovede:
0 pre odpoveď č. 1pdftotext -raw <pdf_name.pdf> <output.txt>
Tým sa odstráni všetky formátovanie a vrátia sa reťazce, ktoré sú v PDF, žiadne obrázky.