Pomoc w programowaniu, odpowiedzi na pytania / Solr / Alternatywa dla Tika / PDFBox do parsowania PDF w Solr (dowolna wersja później niż 1.4) - solr, indeksowanie pełnotekstowe, pdfbox, apache-tika, konwersja dokumentów

Alternatywa dla Tika / PDFBox do parsowania PDF w Solr (dowolna wersja później niż 1.4) - solr, indeksowanie pełnotekstowe, pdfbox, apache-tika, konwersja dokumentów

Wygląda na to, że Solr nie analizuje moich plików PDFpoprawnie. Zastanawiam się, czy istnieje jakakolwiek alternatywa do używania Apache Tika (które, jak sądzę, używa wewnętrznie PDFBox) do parsowania plików PDF? Wydaje mi się, że podczas korzystania z tego uzyskuję losowe spacje między moimi treściami. Wyizolowałem problem, uruchamiając PDF bezpośrednio poprzez PDFBox (najnowsza wersja), który ma ten sam problem.

Niektóre komercyjne oprogramowanie OCR, takie jak Omnifind, działa dobrze na PDF, ale nie jesteśmy w stanie zintegrować ich z Solr w ten sam sposób, a kupowanie również nie jest opcją.

Odpowiedzi:

2 dla odpowiedzi № 1

Jako odpowiedź to pytanie SO wskazuje, że jest to spowodowane charakterem samego formatu PDF.

Jest możliwe, że opcje OCR lepiej radzą sobie z tym problemem niż PDFBox, są dostępne niektóre darmowe opcje OCR, takie jak Tesseract i Ocropus ale nie mam pojęcia, jak dobrze działają lub czy można je łatwo zintegrować z Solr.

1 dla odpowiedzi nr 2

Xpdf zawiera pdftotext, który konwertuje dokumenty o wiele lepiej niż Tika.

1 dla odpowiedzi nr 3

używam jpod jako bibliotekę rezerwową do wyodrębnienia z pdf, gdy pdfbox nie powiedzie się całkowicie (zawiesić się, zawiesić ...), więc przynajmniej w niektórych przypadkach działa lepiej niż pdbbox.