Ajuda na programação, respostas a perguntas / Json / Converta BSON para JSON para remover ObjectId - json, scala, apache-spark

Converter BSON para JSON para remover ObjectId - json, scala, apache-spark

Estou trabalhando com um conjunto de dados BSON com eragerado a partir de um aplicativo que estava usando mongodb, agora eu quero ser capaz de realizar alguns cálculos nele usando Spark, mas porque ele tem alguns atributos apenas em um BSON que é uma extensão de JSON e inclui algumas expressões inválidas como ObjectId e ISODate. Eu quero ser capaz de remover aqueles, por exemplo, a partir de:

"_id" : ObjectId("589895e123c572923e69f5e7"),

para

"_id" : "589895e123c572923e69f5e7",.

Eu fiz algo assim:

val rawText = spark.sparkContext.wholeTextFiles(path)
val rawString = rawText.take(1)(0)._2
val newText = rawString.replaceAll("""ObjectId(([^)]+))""", ""$1"")
val newTextRDD = spark.sparkContext.parallelize(newText)
newTextRDD.saveAsTextFile("newSample")

Isso funciona logicamente, mas o problema é que o arquivo de texto resultante é salvo como um único caractere em uma única linha.

{

"

_

i

d

"

:

"

"

5

8

9

8

9

5

e

1

2

3

c

5

7

2

9

2

3

e

6

9

f

5

e

7

"

"

,

Como posso fazer isso com elegância?

Respostas:

1 para resposta № 1

Não "t rawText.take(1)(0)._2 e parallelize

Em vez de:

rawText
.values  // Drop file name
// Replace
.map(_.replaceAll("""ObjectId(([^)]+))""", ""$1""))
// Save directly without collecting
.saveAsTextFile("newSample")

Perguntas relacionadas

Transformação de dataframe (preparação de dados) em scala de faísca do apache - scala, join, apache-spark, classificação de multicamadas

Versão Scala compatível para o Spark 2.2.0? - scala, apache-faísca

IntelliSense em Intellij com bibliotecas de faíscas - scala, apache-spark, intellij-idea

pacote spark-java como usar o Spark do Scala? - scala, faísca-java

faísca de scala 2.10.4 para 2.11 - scala, eclipse-plugin, apache-faísca, apache-spark-sql

spark scala - converte json string para json struct - scala, apache-spark, spark-dataframe

Eu recebo um java.lang.NoClassDefFoundError quando tento executar o exemplo de contagem de palavras em Spark - scala, apache-spark

Spark Scala flatMap sobre um documento bson com subdocumento de Mongo - mongodb, scala, apache-spark

mgo encontrar converter uma matriz de valor único para string - mongodb, vá, mgo

Estruturas anônimas retornam valor de campo vazio - mongodb, ir, struct, incorporação, mgo

Substituindo ObjectId pelo json incorporado ao estruturar o marshaling - json, mongodb, go

como converter arquivo json aninhado em csv em scala - json, scala, csv, apache-faísca

Não é possível indexar o JSON a partir do HDFS usando SchemaRDD.saveToES () no Elasticsearch-hadoop-json, scala, elasticsearch, apache-faísca, apache-spark-sql

Por que o Play Framework usa JSON por que o MongoDb usa BSON - json, mongodb, scala, playframework, bson

Como posso ler com eficiência vários arquivos json em um Dataframe ou JavaRDD? - java, json, apache-spark

Novo no Spark e Spark SQL com Java - java, apache-faísca, apache-spark-sql, migração de dados, bigdata

_bson ObjectId converter em objeto JSON? - javascript, json, node.js, bson

Pesquisa baseada em expressão regular em mgo não dá resultado exigido - vá, mgo

como converter string em array no Spark Scala - matrizes, json, scala, apache-spark

ClassNotFoundException ao tentar executar o exemplo do SparkPi - apache-spark, scala-2.10