/ / parsing HTML com spark - html, scala, html-parsing, apache-spark

analisando HTML com spark - html, scala, html-parsing, apache-spark

Eu quero fazer o seguinte:

  1. Carregar fontes html de um arquivo csv
  2. escrever um monte de funções que irá extrair algunsrecursos da fonte html. Eu costumava fazer isso em Python quando empregava o BeautifulSoup para fazer o trabalho. Agora estou usando faísca e escrevo meu código em scala. Eu tenho procurado um bom exemplo de como fazer isso, mas não encontrei muito.

Eu apreciaria uma resposta exaustiva de como fazer isso, mas se não, talvez vocês possam pelo menos responder uma das seguintes perguntas para mim:

  1. Eu tenho alguma flexibilidade sobre o formato de dados de entrada, mas eu pensei que o csv seria o simples. Então eu tenho que escapar do delimitador embora. Como faço para ler o arquivo usando sparkContext.textFile?
  2. Que biblioteca / funções usar para construir o DOMárvore para cada fonte (que estará em uma linha do meu RDD). Está usando algum analisador XML bem? Eu não tenho certeza se eu entendo como os analisadores de HTML são diferentes dos XML. Eu pensei HTML era um subconjunto de XML, mas eu li que não é bem verdade e que os analisadores XML não são realmente adequados para html (porque HTML é mais leniente). Então, como analisar HTML?

Dicas apreciadas, obrigado!

Respostas:

3 para resposta № 1

Para a parte de análise da sua pergunta, eu sugeriria jsoup : um analisador de HTML escrito em Java. É um equivalente a BeautifulSoup.