/ / Bilder / Texte aus PDF extrahieren mit Perl - Perl, PDF, Perl-Modul

Extrahieren Sie Bilder / Texte aus PDF mit Perl - Perl, PDF, Perl-Modul

Ich versuche, Texte / Bilder / Tabellen aus einer PDF-Datei mit Perl zu extrahieren.

Ich habe es versucht CAM::PDF welches nicht im Text extrahiert wird, sondern als ein anderes Format.

Gibt es eine Methode, um Texte / Bilder / Tabellen mit Perl-Modulen aus einem PDF zu extrahieren?

Antworten:

1 für die Antwort № 1

@ priya..i versuchte dieses Modul, das gut für die PDF-Text-Extraktion funktioniert.

use strict;
use warnings;
use PDF::OCR::Thorough;


my $filename = "pdf.pdf";

my $pdf = PDF::OCR::Thorough->new($filename);
my $text = $pdf->get_text();
print "$text";

0 für die Antwort № 2

Benutzen CAM :: PDF. Es gibt einige Methoden, mit denen Sie Bilder oder andere Elemente extrahieren können:

$doc->getProperty($pagenum, $propertyname)
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).