/ / Alternative zu Tika / PDFBox zum Parsen von PDF in Solr (jede Version nach 1.4) - solr, Volltextindizierung, pdfbox, apache-tika, Dokumentkonvertierung

Alternative zu Tika / PDFBox zum Analysieren von PDF in Solr (jede Version später als 1.4) - Solr, Volltextindizierung, pdfbox, Apache-Tika, Dokumentkonvertierung

Scheint, als würde Solr meine PDF-Dateien nicht analysierenkorrekt. Ich habe mich gefragt, ob es eine andere Alternative zur Verwendung von Apache Tika gibt (von der ich glaube, dass PDFBox intern verwendet wird), um PDF-Dateien zu analysieren? Wenn ich dies verwende, bekomme ich scheinbar zufällige Leerzeichen zwischen meinen Inhalten. Ich habe das Problem isoliert, indem ich PDF direkt durch PDFBox (neueste Version) laufen lasse, was dasselbe Problem hat.

Einige kommerzielle OCR-Software wie Omnifind funktionieren mit PDF Fine, aber wir können sie nicht auf dieselbe Weise in Solr integrieren, und der Kauf ist ebenfalls keine Option.

Antworten:

2 für die Antwort № 1

Als die Antwort auf diese SO Frage weist darauf hin, dass dies auf die Art des PDF-Formats selbst zurückzuführen ist.

Es ist möglich, dass OCR-Optionen bei diesem Problem besser als PDFBox sind. Es gibt einige kostenlose OCR-Optionen, wie z Tesserakt und Ocropus Ich habe jedoch keine Ahnung, wie gut sie funktionieren oder ob sie problemlos in Solr integriert werden können.


1 für die Antwort № 2

Xpdf enthält pdftotext, das Dokumente viel besser konvertiert als Tika.


1 für die Antwort № 3

ich benutze jpod als Fallback-Bibliothek zum Extrahieren von PDFs, wenn PDFbox vollständig ausfällt (hängen, abstürzen ...), so dass es in manchen Fällen für mich besser funktioniert als pdbbox.