Pomoc pri programovaní, odpovede na otázky / Jáva / PDF ťažba problém s apache PDFBox 1.3.1 - java, pdfbox

Problém s extrakciou súborov PDF s apache PDFBox 1.3.1 - java, pdfbox

Pri extrahovaní údajov čelím nejakému problémuPDF pomocou apache PDFBox. S PDFBox verzia 1.1 som bol schopný extrahovať dáta správne. Rovnaký kód však poskytuje odlišný výstup s verziou 1.3.1. Iba pre niekoľko PDF, Čelím tejto otázke.

Vzorka kódu

PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));

Tu je ukážkový výstup:

S verziou 1.1: Číslo účtu xxxxx xxxxxx-xx-x .....

Pri verzii 1.3.1: SCHDoe SISInrPnnvuttccraareillreuucfczeX dde, Pt reeF Hr rusdeDiIBc N dsDVeOe I: PiiTgdtlaYieutais Bll sXPuwF rn ew df ew l er .rdceo dS mwecritvhaiscte.cso 0 m 2/1 2 - 0431 / 01-1649-9105040.99 MURTgs Ac Bw TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00 $ 0T P9122a5 / 0 / g3117e198. / 4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .....

Niekto má predstavu, čo by mohlo byť problémom?

odpovede:

0 pre odpoveď č. 1

Odporúčam vyskúšať PDFBox 1.5.0 z tu - vyskytlo sa veľa problémov s extrakciou textu fixné v tomto vydaní.

Súvisiace otázky

Alternatíva k Tika / PDFBox na analýzu PDF v Solr (akákoľvek verzia neskôr ako 1.4) - solr, fulltextové indexovanie, pdfbox, apache-tika, prevod dokumentov

Nedá sa čítať vložené písmo ESNOYH + Calibri-Bold v pdf čítaní - scala, pdfbox, pdf-reader

Ako vložiť neviditeľný text do PDF? - pdf, itext, pdfbox

Ako vytvoriť priehľadný text vo formáte pdfBOX alebo pridať opacitu do textu pomocou pdfBOXu? - pdf, text, transparentný, pdfbox

PDFBox - dokument je po načítaní prázdny - pdf, pdfbox

NoClassDefFoundError pomocou škálovateľného pluginu - pdfbox

Ako čítať hodnotu polí v podpísanom PDF pomocou PDF Box API - pdfbox, docusignapi

Ako zobraziť obrázok v PdfBox 2.0.3 - pdfbox

Ako previesť PDF do PDF / A v jazyku Java - parsovanie, pdf, dokument, pdfbox, pdfa

Ako nahradiť reťazec pomocou adresy URL vo formáte PDFBOX? - java, pdf, pdfbox

Ako extrahovať fonty z PDDocument v PDFBox 2.0.2 - java, pdf, fonty, pdfbox

Java knižnica pre čítačku PDF podporujúca zvýrazňovanie - java, pdf, zvýraznenie

Rozšírenie stránky PageDrawer vo formáte pdfbox 2.0.x - java, pdfbox

Pdf analyzovať text pomocou java - java, arabic, pdf - extrakcie

Java PDFBox neudržiava vzhľad písma poľa, ak sa objaví nerozhodne vo formulári PDF - java, formuláre, pdf, pdfbox

Parse PDF zlyhá kvôli chýbajúcim tabuľkám rozloženia OpenType - java, pdfbox, true-type fonts

Ako vyplniť údaje do formátu PDF pomocou Java? - java, itext, pdfbox

Načítať určitú časť údajov z pdf - java, extrakcie

ako vytlačiť nezvyčajné znaky v PDF (pomocou pdfboxu) - java, encode, pdfbox

Text analyzátora PDF obsahuje - java, selenium-webdriver, pdfbox