/ / Como faço para analisar um PDF sem ler as imagens? - pdfbox, análise de texto

Como faço para analisar um PDF sem ler as imagens? - pdfbox, análise de texto

Estou analisando um arquivo PDF, mas não quero extrair as informações armazenadas em imagens e tabelas. Eu estou usando o PDFBOX. Como posso remover as imagens?

Respostas:

0 para resposta № 1
pdftotext -raw <pdf_name.pdf> <output.txt>

Isso removerá toda a formatação e retornará as cadeias que estão no PDF, sem imagens.