プログラミングの助け、質問への回答 / Java / Dataset Apache Sparkでの変換の適用 - java、apache-spark、spark-dataframe

データセットApache Sparkでの変換の適用 - java、apache-spark、spark-dataframe

私は Dataset<Row>Apache SparkではJavaを使用しています。このデータセットのすべての列に対する数学的変換のカップルです。基本的に変換の1つは、このデータセットに格納されているすべての値のログを取得し、 Dataset<Row>。私は明らかにそれを行う方法を参照してください map RDDの機能ですが、どうすれば Dataset<Row>？

コンテキスト： Dataset<Row> old 2つの列を含む a そして b。私は新しい Dataset<Row> new 両方の列で a = log(a) そして b = log(b)

回答：

回答№1は1

あなたは、パラメータとしてa [column]とb [column]の型の値をとり、ログ値を返すメソッドを作成することができます。

列aと列bがlong型であるとします

public long getLog(long value){
// yourlogic to generate log
}

データセット上にマップ関数を適用します。マップ関数の下では、型として値を取得します Row 適用 getLong/getAs() メソッドを呼び出して対応する値を取得し、この値をカスタムログ計算メソッドに渡します。 getLog 私たちの場合、結果の値を返します。

あなたが戻ってくる必要があるかもしれない Tuple2 値aとbの両方の列

または作成することができます udf ユーザがspqrk sqlの関数を定義してから適用する withcoumn 適用する方法 udf

注意 udfは引数としてa [列]とb [列]の値をとり、ログ値を返します。

この仕事はうまくいきたい

spark csv - scala、csv、apache-sparkの複数のnullValues

インテル®IntelliSenseのSparkライブラリ - scala、apache-spark、intellij-idea

spark-javaパッケージScalaからSparkを使用する方法は？ - スカラ、スパーク・ジャワ

Apache Sparkリスト/配列から新しい列をSpark dataframeに追加する方法 - scala、apache-spark、spark-dataframe

ClassNotFound例外Apacheのjavaプログラムを実行しているときにSpark - java、hadoop、apache-spark、pyspark

sparkとスパークSQLの新機能 - java、apache-spark、apache-spark-sql、data-migration、bigdata

スパークSQL - データセットの列のUUIDにキャストして例外をスローする - apache-spark、apache-spark-sql

スパークアプリケーションをSparkSessionインスタンスからリンクするリンククランチスパークパイプライン - apache-spark、apache-crunch

apache spark bluemix impossible - apache-spark、ibm-cloud

Apache Sparkは私のマシンのすべてのRAMを表示しません - apache-spark、google-compute-engine、apache-spark-mllib

Apache spark- bigdata [閉鎖] - apache-spark、bigdata

アプリケーションIDがわかっている場合、スパークジョブを強制終了するにはどうすればいいですか？ - apache-spark、datastax-enterprise

リモートコンピュータ（自宅）からSparkのWebUIにアクセスしますか？ - apache-spark

任意のJavaマシン学習とApache Sparkの統合 - apache-spark、機械学習、並行性

新しい列の問題を追加するSparkデータフレーム - 構造化ストリーミング - apache-spark、spark-structured-streaming

スパークは4コアしかないのになぜ8コアを検出するのですか？ - apache-spark、cpu-cores、webui

異なるSparkSessionからDataFrameにアクセスできますか？ - apache-spark、apache-spark-sql、spark-dataframe

Spark DFまたはDSを使って ".gz"圧縮ファイルを読み込むには？ - apache-spark、apache-spark-sql、spark-dataframe、gzip、apache-spark-dataset

spark-SQLのテーブルの更新方法 - apache-spark-sql、hiveql

データセットApache Sparkでの変換の適用 - java、apache-spark、spark-dataframe

回答：

関連する質問