Pomoc pri programovaní, odpovede na otázky / výnimka / Spark DataFrame groupBy a agregácia vrhá NegativeArraySizeException - výnimka, apache-spark, dataframe

Spark DataFrame groupBy a agregácia je hádzanie NegativeArraySizeException - výnimka, apache-spark, dataframe

Robím nasledujúci dotaz na Spark DataFrame

  input
.select("id")
.groupBy("id")
.agg(count("*").as("count"))

Mám java.lang.NegativeArraySizeException

at org.apache.spark.unsafe.types.UTF8String.getBytes(UTF8String.java:234)
at org.apache.spark.unsafe.types.UTF8String.toString(UTF8String.java:827)
at org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificMutableProjection.apply(Unknown Source)
at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator$$anonfun$generateProcessRow$1.apply(TungstenAggregationIterator.scala:276)
at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator$$anonfun$generateProcessRow$1.apply(TungstenAggregationIterator.scala:273)
at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator.processInputs(TungstenAggregationIterator.scala:533)

odpovede:

0 pre odpoveď č. 1

Nižšie by mal fungovať

input.groupBy("id").count()

Súvisiace otázky

percento filtrovaných stĺpcov po aplikácii groupBy v jadre Dataframe - sql, scala, apache-spark, dataframe

Transformácia dátového rámca (príprava dát) v apache scala scala - scala, join, apache-spark, multilabel-klasifikácia

Viacnásobné nullValues v spark csv - scala, csv, apache-spark

Skupina SparkBy nepracuje podľa očakávania - scala, apache-spark, dataframe, aggregate-functions

Aký je rozdiel medzi df.select () a df.agg ()? - scala, apache-spark, apache-spark-sql, scart-dataframe

Konvertujte spark DataFrame na MlLib Matrix - scala, apache-spark, spark-dataframe, apache-spark-mllib

Apache Spark ako pridať nový stĺpec zo zoznamu / poľa do Spark dataframe - scala, apache-spark, spark-dataframe

preformulovať dátový rámec zo stĺpca na riadky v scala - scala, apache-spark, pivot, spark-dataframe

Efektívne operácie PairRDD na aplikácii DataFrame s programom Spark SQL GROUP BY - scala, apache-spark, apache-spark-sql, rdd

Ako zoskupiť údaje podľa dvoch polí? - python, apache-spark, pyspark, infračervený dátový rámec

Prevod pandasového dátového rámca na RDD v zeppeline - python, apache-spark, apache-zeppelin

Spark: ako zmeniť dátový rámec Array [String] na RDD [Array [String]] - pole, scala, apache-spark

Je možné spustiť viac agregačných úloh v jednom dátovom rámci paralelne v iskre? - apache-spark, paralelné spracovanie, pyspark, et

vysielanie () niekoľkokrát rovnaké df. Je to uložené v cache? - apache-spark, apache-spark-sql, spark-dataframe

Výber kľúča mapy ako stĺpca v dátovom rámci v scenári spark - apache - spark, spark - dataframe

Výpočetný rozdiel medzi Spark DataFrames - apache-spark

by sme mali používať groupBy na dátovom rámci alebo reduBy [duplicate] - apache-spark, group-by, spark-dataframe

Môžem získať DataFrame z rôznych SparkSessions? - apache-spark, apache-spark-sql, spark-dataframe

Mala by som sa vyhnúť skupinovému () v Dataset / Dataframe? [duplicitné] - apache-spark, optimalizácia, skupina-by, dataset, spark-dataframe

ako urobiť aktualizáciu v tabuľke v spark-SQL? - apache-spark-sql, hiveql