/ / PDF ťažba problém s apache PDFBox 1.3.1 - java, pdfbox

Problém s extrakciou súborov PDF s apache PDFBox 1.3.1 - java, pdfbox

Pri extrahovaní údajov čelím nejakému problémuPDF pomocou apache PDFBox. S PDFBox verzia 1.1 som bol schopný extrahovať dáta správne. Rovnaký kód však poskytuje odlišný výstup s verziou 1.3.1. Iba pre niekoľko PDF, Čelím tejto otázke.

Vzorka kódu

PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));

Tu je ukážkový výstup:

S verziou 1.1: Číslo účtu xxxxx xxxxxx-xx-x .....

Pri verzii 1.3.1: SCHDoe SISInrPnnvuttccraareillreuucfczeX dde, Pt reeF Hr rusdeDiIBc N dsDVeOe I: PiiTgdtlaYieutais Bll sXPuwF rn ew df ew l er .rdceo dS mwecritvhaiscte.cso 0 m 2/1 2 - 0431 / 01-1649-9105040.99 MURTgs Ac Bw TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00 $ 0T P9122a5 / 0 / g3117e198. / 4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .....

Niekto má predstavu, čo by mohlo byť problémom?

odpovede:

0 pre odpoveď č. 1

Odporúčam vyskúšať PDFBox 1.5.0 z tu - vyskytlo sa veľa problémov s extrakciou textu fixné v tomto vydaní.