Ayuda en la programación, respuestas a preguntas / Apache tika / ¿Cómo leer archivos grandes usando TIka? - apache-tika

¿Cómo leer archivos grandes usando TIka? - apache-tika

Estoy analizando documentos PDF y Word de gran tamaño utilizando Tika, pero recibo el siguiente mensaje de error.

Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit. (Text up to the limit is however available).

¿Cómo puedo aumentar el límite?

Respuestas

16 para la respuesta № 1

Suponiendo que estás siguiendo básicamente el Ejemplo de Tika para extraer a texto plano., entonces todo lo que necesitas hacer es crea tu BodyContentHandler con un límite de escritura de -1 para desactivar el límite de escritura, como se explica en la Javadocs

Tu código se vería comoinspirado en el ejemplo)

BodyContentHandler handler = new BodyContentHandler(-1);

InputStream stream = ContentHandlerExample.class.getResourceAsStream("test.doc");
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try {
parser.parse(stream, handler, metadata);
return handler.toString();
} finally {
stream.close();
}

1 para la respuesta № 2

No estoy de acuerdo con @Gagravarr usando el límite de escritura de -1, ya que el valor predeterminado que se seleccionará en el caso -1 es de hecho 100000 para ser exactos.

Si no estoy equivocado, la documentación de Tika BodyContentHandler> WriteOutContentHandler establece que:

El búfer interno de la cadena está limitado a 100k caracteres.

Sin embargo, la mejor manera de lograr esto es pasar un objeto de StringWriter como un argumento en lugar de -1.

StringWriter any = new StringWriter();

y entonces

BodyContentHandler handler = new BodyContentHandler(any);

preguntas relacionadas

Solr no indexa archivos blob - solr, blob, plone, zodb, blobstorage

La mejor integración de Tika en Solr o Nutch - solr, nutch, apache-tika

El analizador de Tika no está analizando todo el archivo - pdf, apache-tika

Uso de Apache Lucene para analizar grandes archivos PDF: análisis, pdf, lucene, pdfbox

Analizando Outlook pst con tika - outlook, apache-tika

Tika: Detección tipo MIME de Js, Css - mime-types, apache-tika

Apache Tika: análisis de archivos docx a través de Rest in java - java, rest, apache-tika, tika-server

¿Qué versión de Apache Tika se ha utilizado para crear el siguiente ejemplo de código Tika? - java, apache, apache-tika

¿Cómo convertir doc a docx usando Tika o POI? - java, ms-word, apache-poi, apache-tika

¿Validar archivos / obtener un tipo de archivo verdadero en Java / Groovy? - java, carga de archivos, groovy, tipo de contenido

Cómo utilizar las siguientes tecnologías ECM - comparación - java, content-management-system, solr, jackrabbit, apache-tika

Ejemplos de libros de Tika in Action Lucene StandardAnalyzer no funciona - java, lucene, apache-tika

Recuperación de la información del estilo de la celda (específicamente el color) mediante el evento de PDI api - java, eventos, manejo de eventos, oyente, apache-poi

No se puede extraer el PDF escaneado utilizando TesseractOCRConfig Apache Tika - java, parsing, pdf, ocr, apache-tika

Integrando una aplicación java lib open source en grails - java, grails, apache-tika

Programa Java compilado usando la librería Apache Tika - dependencias - java, maven, horm, apache-tika

¿Cómo puedo excluir archivos grandes durante la indexación? - indexación, solr, web-crawler

¿Qué tipo de archivos puede Crafter Search index? - crafter-cms

¿Cómo crear un perfil de idioma en tika para agregarle otra identificación de idioma? - apache, apache-tika, detección de lenguaje

¿Apache solr almacena los archivos reales que se cargan en él? - apache, solr, lucene, apache-tika