Ajuda na programação, respostas a perguntas / Pdf / Tika parser não está analisando todo o arquivo - pdf, apache-tika

Tika parser não está analisando todo o arquivo - pdf, apache-tika

Eu tenho um arquivo pdf que tem 122 páginas. Quando eu analiso usando Tika (versão 1.17), ele não retorna todo o texto no campo string.

Eu uso o seguinte código simples para obter o texto:

    String content = new Tika().parseToString(file);

O texto que recebo com esse código termina na página 118. Ou seja, as últimas páginas são ignoradas.

Respostas:

2 para resposta № 1

Promovendo um comentário para uma resposta ...

O Apache Tika irá, por padrão, definir um tamanho máximo detexto permitirá um analisador gerar, para evitar acidentalmente um usuário. No seu caso, parece que você está atingindo esse limite quando você realmente quer mais!

Como usuário da aula auxiliar de fachada da Tika, você só precisa ligar Tika.setMaxStringLength (int) com um limite superior ou -1 apenas para desativar totalmente os limites

Se você está usando as classes do analisador Tika diretamente, então você deve definir um limite de escrita maior (ou -1) para o seu manipulador de conteúdo, por exemplo BodyContentHandler (int writeLimit)

Perguntas relacionadas

Melhor integração Tika em Solr ou Nutch - solr, nutch, apache-tika

Resume Parsing usando Solr e TIKA - parsing, solr, nlp, apache-tika

Parsing do Outlook pst com tika - outlook, apache-tika

Tika: Detecção do tipo MIME de Js, Css - tipos mime, apache-tika

Apache Tika: arquivos docx analisados via Rest em java - java, rest, apache-tika, tika-server

Qual versão do Apache Tika foi usada para criar o seguinte exemplo de código Tika? - java, apache, apache-tika

Tika - recuperar o conteúdo principal dos documentos - java, apache-tika

Validando arquivos / obtendo o tipo de arquivo true em Java / Groovy? - java, upload de arquivo, groovy, tipo de conteúdo

Como utilizar as seguintes tecnologias ECM - comparação - java, sistema de gerenciamento de conteúdo, solr, jackrabbit, apache-tika

Recuperar informações de estilo de célula (especificamente cor) usando a API de evento de POI - java, eventos, manipulação de eventos, ouvinte, apache-poi

Não é possível extrair o pdf digitalizado usando o TesseractOCRConfig Apache Tika - java, parsing, pdf, ocr, apache-tika

Integrando uma biblioteca java open source no aplicativo grails - java, grails, apache-tika

Java / Apache Tika: Como obter o último atributo modificado / criado de um arquivo da URL - java, apache, http, metadados, apache-tika

Compilação do programa Java usando a biblioteca do Apache Tika - dependências - java, maven, ant, apache-tika

Como posso excluir arquivos grandes durante a indexação? - indexação, solr, rastreador da Web

Obtenção de metadados e indexação de arquivos de imagem para o Solr usando o TikaEntityProcessor - image, apache, solr, indexing, metadata

Que tipos de arquivos podem indexar o Crafter Search? - crafter-cms

como criar um perfil de linguagem na tika para adicionar outra identificação de idioma a ele? - apache, apache-tika, detecção de idioma

O Apache Solr pode armazenar arquivos reais que são carregados nele? - apache, solr, lucene, apache-tika

Como ler arquivos grandes usando o TIka? - apache-tika