/ / Comment analyser un PDF sans lire les images? - pdfbox, analyse de texte

Comment analyser un PDF sans lire les images? - pdfbox, analyse de texte

J'analyse un fichier PDF mais je ne souhaite pas extraire les informations stockées dans les images et les tableaux. J'utilise PDFBOX. Comment puis-je supprimer les images?

Réponses:

0 pour la réponse № 1
pdftotext -raw <pdf_name.pdf> <output.txt>

Cela supprimera toute la mise en forme et renverra les chaînes qui se trouvent dans le PDF, sans images.