Ajuda na programação, respostas a perguntas / Html / parsing HTML com spark - html, scala, html-parsing, apache-spark

analisando HTML com spark - html, scala, html-parsing, apache-spark

Eu quero fazer o seguinte:

Carregar fontes html de um arquivo csv
escrever um monte de funções que irá extrair algunsrecursos da fonte html. Eu costumava fazer isso em Python quando empregava o BeautifulSoup para fazer o trabalho. Agora estou usando faísca e escrevo meu código em scala. Eu tenho procurado um bom exemplo de como fazer isso, mas não encontrei muito.

Eu apreciaria uma resposta exaustiva de como fazer isso, mas se não, talvez vocês possam pelo menos responder uma das seguintes perguntas para mim:

Eu tenho alguma flexibilidade sobre o formato de dados de entrada, mas eu pensei que o csv seria o simples. Então eu tenho que escapar do delimitador embora. Como faço para ler o arquivo usando sparkContext.textFile?
Que biblioteca / funções usar para construir o DOMárvore para cada fonte (que estará em uma linha do meu RDD). Está usando algum analisador XML bem? Eu não tenho certeza se eu entendo como os analisadores de HTML são diferentes dos XML. Eu pensei HTML era um subconjunto de XML, mas eu li que não é bem verdade e que os analisadores XML não são realmente adequados para html (porque HTML é mais leniente). Então, como analisar HTML?

Dicas apreciadas, obrigado!

Respostas:

3 para resposta № 1

Para a parte de análise da sua pergunta, eu sugeriria jsoup : um analisador de HTML escrito em Java. É um equivalente a BeautifulSoup.

Perguntas relacionadas

Transformação de dataframe (preparação de dados) em scala de faísca do apache - scala, join, apache-spark, classificação de multicamadas

Versão Scala compatível para o Spark 2.2.0? - scala, apache-faísca

Scala e Spark: como passar por uma imagem? - scala, apache-spark

erro org.apache.spark.ml.feature.IDF - scala, apache-spark, apache-spark-mllib

IntelliSense em Intellij com bibliotecas de faíscas - scala, apache-spark, intellij-idea

pacote spark-java como usar o Spark do Scala? - scala, faísca-java

faísca de scala 2.10.4 para 2.11 - scala, eclipse-plugin, apache-faísca, apache-spark-sql

Scala não é capaz de salvar como arquivo de seqüência no RDD, conforme o documento é permitido - scala, rdd, sequencefile

Eu recebo um java.lang.NoClassDefFoundError quando tento executar o exemplo de contagem de palavras em Spark - scala, apache-spark

erro para importar biblioteca graphx no projeto scala - scala, maven, intellij-idea, sbt, spark-graphx

Como a regressão logística é paralelizada no Spark? - scala, apache-faísca, aprendizado de máquina, apache-spark-mllib

Como executar o Kafka como um fluxo para o Apache Spark usando o Scala 2.11? - scala, apache-faísca, apache-kafka

compreensão da dependência do maven da faísca - maven, apache-faísca

Apache Spark: problema com o exemplo do Scala - java, scala, ubuntu, apache-spark

como obter o número de dias entre dois campos java.sql.timestamp em scala - java, scala, apache-faísca, apache-spark-sql, sql-timestamp

A biblioteca Scala Breeze pode ser usada a partir do código Groovy? - java, scala, groovy, apache-faísca, scala-brisa

Erro de citação única do Spark SQL - java, sql, scala, apache-faísca, apache-spark-sql

Um arquivo CSV pode ser convertido em gráfico usando GraphX em Java - java, scala, apache-spark

ClassNotFoundException ao tentar executar o exemplo do SparkPi - apache-spark, scala-2.10

O envio do Spark gera um erro ao usar as tabelas do Hive - apache-spark, hive, spark-dataframe