/ / Używanie Apache Lucene do parsowania dużych plików PDF - parsowanie, pdf, lucene, pdfbox

Używanie Apache Lucene do parsowania dużych plików PDF - parsowanie, pdf, lucene, pdfbox

Próbuję znaleźć najlepszy sposóbwyszukaj / przeanalizuj zestaw dużego pliku pdf. Obecnie używam PDFBox do konwersji plików PDF na pliki tekstowe. Następnie używam Lucene do indeksowania tych plików tekstowych i wyszukiwania informacji. Przy takim podejściu mam do czynienia z problemami. (Zauważ, że używam obu tych technologii na bardzo podstawowym poziomie, aby zobaczyć, co potrafią).

Rozważ następującą linię z mojego pliku PDF, która daje łączną sumę wszystkich kolumn. Każda kolumna zawiera parę wartości, których suma jest wyświetlana w następujący sposób.

    Grand Total  $3,148.06 $484.80 $13.07 $8.90 $0.00 $69.90 $0.00 $0.00
$10.00    $5.15   $25.60 $0.00 $2.69 $0.00  $0.00 $0.00 $3,768.17

Podczas konwersji pliku pdf na plik tekstowy za pomocą TextStripper z PDFBox, powyższa linia z pliku pdf jest konwertowana na następujący tekst w pliku tekstowym.

    58.20$3,148.06 $484.80 $13.07 $0.00 $0.00 $0.00Grand Total $8.90 $69.90$10.00 $5.15 $25.60 $0.00 $2.69 $0.00 $0.00 $0.00 $3,768.17

Jak widać z powyższego pliku tekstowego, plikdane są rozproszone wokół etykiety Grand Total. W związku z tym trudno jest odzyskać całkowitą informację Grand, ponieważ wcięcie z pliku PDF nie jest zachowane w pliku tekstowym.

Chciałbym zatem wiedzieć, czy jest jakiś sposóbprzekonwertować plik PDF na plik tekstowy, tak aby plik tekstowy zachował wcięcia / format z pliku PDF. Chciałbym również wiedzieć, czy Lucene jest dobrym pomysłem na osiągnięcie mojego celu, czy też istnieje prostszy i szybszy sposób na uzyskanie informacji z zestawu dużych plików PDF?

Odpowiedzi:

0 dla odpowiedzi № 1

Możesz spróbować Tika. (Ogólnie rzecz biorąc, kiedy ludzie wyodrębniają dane z plików PDF do Lucene, używają Tika.)

Czy istnieje prostszy sposób? Solr ma silna integracja z Tika, co powinno ułatwić indeksowanie dokumentów PDF. (Solr jest otulaczem Lucene.)