/ / Fazer o Jsoup carregar apenas o recurso necessário? - java, jsoup

Fazendo o Jsoup carregar apenas o recurso necessário? - java, jsoup

Eu gostaria de carregar um código de site para fins de raspagem.

O site está repleto de imagens irrelevantes e várias conexões para diferentes sites (como o facebook). Isso obviamente aumenta o tempo de carregamento.

Eu realmente gostaria apenas de ler o conteúdo da página, sem todos os outros conteúdos desnecessários. Existe uma maneira de desativar o carregamento de recursos externos?

Eu posso fornecer código, mas seria uma única linha com Jsoup.connect nela (por razões óbvias).

Respostas:

1 para resposta № 1

Você não pode filtrar (remover) partes da página antes de carregá-lo com o Jsoup.
O Jsoup carregará apenas o HTML, por isso não serácarregue as imagens ou o Javascript. Antes de carregar a página, você pode verificar se está obtendo o conteúdo certo - muitos sites contêm mais de um arquivo HTML, então abra as ferramentas de desenvolvedor do seu navegador, acesse o site, veja quais arquivos você recebe quando acessa o site e verifique cada um deles para decidir se você precisa ou não.
Isto é o que eu recebo quando eu navego para o SO:

Tráfego SO Como você pode ver - ele tem 14 arquivos, mas é fácil saber qual deles é HTML e, em seguida, se ele tem algum conteúdo interessante.