Ich versuche, Texte / Bilder / Tabellen aus einer PDF-Datei mit Perl zu extrahieren.
Ich habe es versucht CAM::PDF
welches nicht im Text extrahiert wird, sondern als ein anderes Format.
Gibt es eine Methode, um Texte / Bilder / Tabellen mit Perl-Modulen aus einem PDF zu extrahieren?
Antworten:
1 für die Antwort № 1@ priya..i versuchte dieses Modul, das gut für die PDF-Text-Extraktion funktioniert.
use strict;
use warnings;
use PDF::OCR::Thorough;
my $filename = "pdf.pdf";
my $pdf = PDF::OCR::Thorough->new($filename);
my $text = $pdf->get_text();
print "$text";
0 für die Antwort № 2
Benutzen CAM :: PDF. Es gibt einige Methoden, mit denen Sie Bilder oder andere Elemente extrahieren können:
$doc->getProperty($pagenum, $propertyname)
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).