Опитвам се да разделя колоната в sprak кадър с данни в стойности. Така разделих колоната, която исках да разделя, и проверих вида му:
I: type(TopicModelVectorSplit)
O: pyspark.sql.dataframe.DataFrame
Когато разделям низа с:
TopicModelVectorSplit = TopicModelVector.select("TopicModelVector").map(lambda line: line.text.split())
Преобразува се в пилотен RDD и с тях не може да се работи.
I: type(TopicModelVectorSplit)
O: pyspark.rdd.PipelinedRDD
Как мога да разделим тази колона и да запазя непокътната собственост на рамката с данни?
Благодаря милион
Отговори:
0 за отговор № 1Винаги можете да го конвертирате обратно в dataframe, използвайки .toDF, но RDD не е невъзможно да се работи с, може и добре да оправи това, което искаш да го държиш като такова.
Split = TopicModelVector.select("TopicModelVector").map(lambda line: line.text.split()).toDF