Estou analisando um arquivo PDF, mas não quero extrair as informações armazenadas em imagens e tabelas. Eu estou usando o PDFBOX. Como posso remover as imagens?
Respostas:
0 para resposta № 1pdftotext -raw <pdf_name.pdf> <output.txt>
Isso removerá toda a formatação e retornará as cadeias que estão no PDF, sem imagens.