/ / Tika parser não está analisando todo o arquivo - pdf, apache-tika

Tika parser não está analisando todo o arquivo - pdf, apache-tika

Eu tenho um arquivo pdf que tem 122 páginas. Quando eu analiso usando Tika (versão 1.17), ele não retorna todo o texto no campo string.

Eu uso o seguinte código simples para obter o texto:

    String content = new Tika().parseToString(file);

O texto que recebo com esse código termina na página 118. Ou seja, as últimas páginas são ignoradas.

Respostas:

2 para resposta № 1

Promovendo um comentário para uma resposta ...

O Apache Tika irá, por padrão, definir um tamanho máximo detexto permitirá um analisador gerar, para evitar acidentalmente um usuário. No seu caso, parece que você está atingindo esse limite quando você realmente quer mais!

Como usuário da aula auxiliar de fachada da Tika, você só precisa ligar Tika.setMaxStringLength (int) com um limite superior ou -1 apenas para desativar totalmente os limites

Se você está usando as classes do analisador Tika diretamente, então você deve definir um limite de escrita maior (ou -1) para o seu manipulador de conteúdo, por exemplo BodyContentHandler (int writeLimit)