/ / Processa um arquivo de texto grande usando o Zeppelin e Spark - scala, apache-spark, apache-zeppelin, bigdata

Processo de arquivo de texto grande usando Zeppelin e Spark - scala, apache-faísca, apache-zeppelin, bigdata

Estou tentando analisar (visualizar realmente) algumasdados de um arquivo de texto grande (mais de 50 GB) usando o Zeppelin (scala). Os exemplos da Web usam arquivos csv com cabeçalho e tipos de dados conhecidos de cada coluna. No meu caso, tenho linhas de dados puros com "" delimitador. Como consigo colocar meus dados no DataFrame como no código abaixo ?:

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}

myFile1.toDF() // DataFrame will have columns "id" and "name"

P.S. Quero dataframe com as colunas "1", "2" ... valeu

Respostas:

1 para resposta № 1

Você pode usar csv:

spark.read.option("delimiter", ";").csv(inputPath)