Estou tentando analisar (visualizar realmente) algumasdados de um arquivo de texto grande (mais de 50 GB) usando o Zeppelin (scala). Os exemplos da Web usam arquivos csv com cabeçalho e tipos de dados conhecidos de cada coluna. No meu caso, tenho linhas de dados puros com "" delimitador. Como consigo colocar meus dados no DataFrame como no código abaixo ?:
case class Record()
val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}
myFile1.toDF() // DataFrame will have columns "id" and "name"
P.S. Quero dataframe com as colunas "1", "2" ... valeu
Respostas:
1 para resposta № 1Você pode usar csv:
spark.read.option("delimiter", ";").csv(inputPath)