Ajuda na programação, respostas a perguntas / Scala / Processa um arquivo de texto grande usando o Zeppelin e Spark - scala, apache-spark, apache-zeppelin, bigdata

Processo de arquivo de texto grande usando Zeppelin e Spark - scala, apache-faísca, apache-zeppelin, bigdata

Estou tentando analisar (visualizar realmente) algumasdados de um arquivo de texto grande (mais de 50 GB) usando o Zeppelin (scala). Os exemplos da Web usam arquivos csv com cabeçalho e tipos de dados conhecidos de cada coluna. No meu caso, tenho linhas de dados puros com "" delimitador. Como consigo colocar meus dados no DataFrame como no código abaixo ?:

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}

myFile1.toDF() // DataFrame will have columns "id" and "name"

P.S. Quero dataframe com as colunas "1", "2" ... valeu

Respostas:

1 para resposta № 1

Você pode usar csv:

spark.read.option("delimiter", ";").csv(inputPath)

Perguntas relacionadas

No Hortonworks Sandbox 2.4, o uso de Spark do driver SQLServer resulta em “Nenhum driver adequado encontrado” - sql-server, jdbc, apache-faísca, hortonworks-data-platform, apache-zeppelin

Como posso imprimir um quadro de dados no Zeppelin / Spark / Scala? - scala, apache-faísca, apache-zeppelin

Posso carregar automaticamente cabeçalhos csv de um arquivo separado para uma janela scala spark no Zeppelin? - scala, csv, apache-faísca, apache-zeppelin

Converta pandas dataframe para RDD em zeppelin - python, apache-spark, apache-zeppelin

Tentando carregar um jar e uma classe externa - mysql, jdbc, apache-spark, apache-zeppelin

Configuração do Apache Zeppelin com Spark - linux, ubuntu, apache-spark, apache-zeppelin

Erro ao importar alguns pacotes de visualização de hélio no Zeppelin - highcharts, npm, apache-zeppelin

Por que estou recebendo essa exceção de IO ao consultar uma tabela do Hive usando o SparkSQL no Zeppelin? - hadoop, apache-faísca, colmeia, amazon-emr, apache-zeppelin

O que é o apache zeppelin? [fechado] - hadoop, apache-faísca, bigdata, apache-zeppelin

ZEPPELIN: Não foi possível localizar ou carregar a classe principal org.apache.zeppelin.server.ZeppelinServer - hadoop, apache-zeppelin

Carregar um Dataframe que demorou 2 minutos no Spark-shell está demorando muito no Zeppelin - emr, amazon-emr

Problema no acesso ao contexto do zeppelin no Apache Livy Interpreter para Zeppelin - apache-zeppelin, livy

Problema ao adicionar dependências do Repositório local ao Apache Livy Interpreter for Zeppelin - apache-zeppelin, livy

faísca dataframe união dataframe em faísca-faísca - apache-faísca, solr, apache-spark-sql, faísca-dataframe

Zeppelin - Spark 1.6 questões com dependências - apache-spark, apache-zeppelin

Não é possível conectar o Apache Zeppelin com os nós do DSE Cassandra Analytics - apache-spark

Como instalar corretamente o Zeppeling e carregar o PySpark? - apache-faísca, pyspark, apache-zeppelin

Apache Zeppelin não carrega libmesos.so - apache-spark, mesos, mesosfera, apache-zeppelin

Como definir spark.driver.memory para Spark / Zeppelin em EMR - apache-faísca, emr, amazon-emr, apache-zeppelin

Como instalar o Apache Zeppelin no cluster autônomo existente do Apache Spark - amazon-web-services, apache-spark, bigdata, apache-spark-sql, apache-zeppelin