Hilfe bei der Programmierung, Antworten auf Fragen / Apache Tika / Wie kann ich große Dateien mit TIka lesen? - Apache-Tika

Wie kann ich große Dateien mit TIka lesen? - Apache-Tika

Ich parse große PDF - und Word - Dokumente mit Tika, erhalte jedoch die folgende Fehlermeldung.

Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit. (Text up to the limit is however available).

Wie kann ich das Limit erhöhen?

Antworten:

16 für die Antwort № 1

Angenommen, Sie folgen im Wesentlichen dem Tika-Beispiel zum Extrahieren von TextDann brauchst du nur noch Erstellen Sie Ihren BodyContentHandler mit einem Schreiblimit von -1 um das Schreiblimit zu deaktivieren, wie in der Javadocs

Ihr Code würde dann ungefähr so aussehen (inspiriert durch das beispiel):

BodyContentHandler handler = new BodyContentHandler(-1);

InputStream stream = ContentHandlerExample.class.getResourceAsStream("test.doc");
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try {
parser.parse(stream, handler, metadata);
return handler.toString();
} finally {
stream.close();
}

1 für die Antwort № 2

Ich bin nicht einverstanden mit @Gagravarr mit der Schreibbeschränkung von -1, da die Standardeinstellung, die in -1-Fällen ausgewählt wird, genau 100000 ist.

Wenn ich mich nicht irre, heißt es in der Dokumentation von Tika BodyContentHandler> WriteOutContentHandler:

Der interne Zeichenfolgenpuffer ist auf 100.000 Zeichen begrenzt.

Am besten erreichen Sie dies, indem Sie ein Objekt von StringWriter anstelle von -1 als Argument übergeben.

StringWriter any = new StringWriter();

und dann

BodyContentHandler handler = new BodyContentHandler(any);

Verwandte Fragen

Solr indiziert keine Blob-Dateien - solr, blob, plone, zodb, blobstorage

Beste Tika Integration auf Solr oder Nutch - Solr, Nutch, Apache-Tika

Tika Parser analysiert nicht die ganze Datei - pdf, Apache-Tika

Verwenden von Apache Lucene zum Analysieren großer PDF-Dateien - Parsing, PDF, Lucene, pdfbox

Parsing Outlook PST mit Tika - Outlook, Apache-Tika

Tika: MIME-Typ-Erkennung von Js, Css - Mime-Typen, Apache-Tika

Apache Tika: Docx-Dateien werden über Rest in Java analysiert - Java, Rest, Apache-Tika, Tika-Server

Welche Version von Apache Tika wurde verwendet, um den folgenden Tika-Code zu erstellen? - Java, Apache, Apache-Tika

Wie konvertiert man docx mit Tika oder POI in docx? - Java, MS-Wort, Apache-Poi, Apache-Tika

Dateien überprüfen / True Dateityp in Java / Groovy abrufen - Java, Datei-Upload, Groovy, Inhaltstyp

Wie man folgende ECM-Technologien nutzt - Vergleich - Java, Content-Management-System, Solr, Jackrabbit, Apache-Tika

Tika in Action Buchbeispiele Lucene StandardAnalyzer funktioniert nicht - Java, Lucene, Apache-Tika

Abrufen von Informationen zum Zellenstil (speziell Farbe) mit POI-Ereignis api - Java, Ereignisse, Ereignisbehandlung, Listener, Apache-Poi

Gescannte PDFs können nicht mit TesseractOCRConfig Apache Tika extrahiert werden - Java, Parsen, PDF, OCR, Apache-Tika

Integrieren einer Open-Source-Java-Bibliothek auf Grails-Anwendung - Java, Grals, Apache-Tika

Java-Programm kompilieren mit Apache Tika Bibliothek - Abhängigkeiten - Java, Maven, Ameise, Apache-Tika

Wie kann ich beim Indexieren große Dateien ausschließen? - Indizierung, Solr, Web-Crawler

Welche Dateitypen können Crafter Search indizieren? - Handwerker-cms

Wie erstelle ich ein Sprachprofil in Tika um eine andere Sprachkennung hinzuzufügen? - Apache, Apache-Tika, Spracherkennung

Kann Apache solr tatsächliche Dateien speichern, die darauf hochgeladen werden? - Apache, Solr, Lucene, Apache-Tika