/ / Spark Dataframe преобразува в RDD с карта функция - apache-spark, dataframe, pyspark

Spark Dataframe превръщайки се в RDD с функция на картата - apache-spark, dataframe, pyspark

Опитвам се да разделя колоната в sprak кадър с данни в стойности. Така разделих колоната, която исках да разделя, и проверих вида му:

I: type(TopicModelVectorSplit)
O: pyspark.sql.dataframe.DataFrame

Когато разделям низа с:

TopicModelVectorSplit = TopicModelVector.select("TopicModelVector").map(lambda line: line.text.split())

Преобразува се в пилотен RDD и с тях не може да се работи.

I: type(TopicModelVectorSplit)
O: pyspark.rdd.PipelinedRDD

Как мога да разделим тази колона и да запазя непокътната собственост на рамката с данни?

Благодаря милион

Отговори:

0 за отговор № 1

Винаги можете да го конвертирате обратно в dataframe, използвайки .toDF, но RDD не е невъзможно да се работи с, може и добре да оправи това, което искаш да го държиш като такова.

Split = TopicModelVector.select("TopicModelVector").map(lambda line: line.text.split()).toDF