/ / Extraer imágenes / textos de PDF usando Perl - perl, pdf, perl-module

Extraiga imágenes / textos de PDF utilizando Perl - perl, pdf, perl-module

Estoy tratando de extraer textos / imágenes / tablas de un archivo PDF usando Perl.

Traté de usar CAM::PDF que no se extrae en texto sino como algún otro formato.

¿Existe un método para extraer textos / imágenes / tablas de un PDF utilizando los módulos Perl?

Respuestas

1 para la respuesta № 1

@ priya ... probé este módulo, que funciona bien para la extracción de texto en PDF.

use strict;
use warnings;
use PDF::OCR::Thorough;


my $filename = "pdf.pdf";

my $pdf = PDF::OCR::Thorough->new($filename);
my $text = $pdf->get_text();
print "$text";

0 para la respuesta № 2

Utilizar CAM :: PDF. Tiene algunos métodos que te ayudarán a extraer imágenes u otros elementos:

$doc->getProperty($pagenum, $propertyname)
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).