Estoy tratando de extraer textos / imágenes / tablas de un archivo PDF usando Perl.
Traté de usar CAM::PDF
que no se extrae en texto sino como algún otro formato.
¿Existe un método para extraer textos / imágenes / tablas de un PDF utilizando los módulos Perl?
Respuestas
1 para la respuesta № 1@ priya ... probé este módulo, que funciona bien para la extracción de texto en PDF.
use strict;
use warnings;
use PDF::OCR::Thorough;
my $filename = "pdf.pdf";
my $pdf = PDF::OCR::Thorough->new($filename);
my $text = $pdf->get_text();
print "$text";
0 para la respuesta № 2
Utilizar CAM :: PDF. Tiene algunos métodos que te ayudarán a extraer imágenes u otros elementos:
$doc->getProperty($pagenum, $propertyname)
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).