Pomoc w programowaniu, odpowiedzi na pytania / Jawa / Jak wygenerować unikalny identyfikator dla każdej iskry rekordu - java, apache-spark

Jak wygenerować unikalny identyfikator dla każdej iskry rekordu - java, apache-spark

Mam ogromne zbiory danych z rekordami MM + i jestempróbuje przypisać unikalny identyfikator do każdego rekordu. Próbowałem poniżej kodu, ale zajmuje to dużo czasu, ponieważ identyfikator wiersza jest sekwencyjny. Próbowałem dostosować parametry pamięci, aby zoptymalizować zadanie, ale nie mogłem uzyskać dużej wydajności.

przykładowy fragment:

JavaRDD<String> rawRdd=......
rawRdd.zipWithIndex()
.mapToPair(t->new Tuple2<Long,String>(t._2,t._1))

Czy istnieje lepszy sposób przypisania unikalnego identyfikatora? dzięki

Odpowiedzi:

1 dla odpowiedzi № 1

Podejście 1: jeśli wymagasz tylko przypisania unikalnego identyfikatora, możesz użyć UUID jako unikalnego identyfikatora wiersza:

rawRdd.mapToPair(t->new Tuple2<String,String>(t,UUID.randomUUID().toString()));

Jedyną wadą jest to, że długość identyfikatora wynosi 36 bajtów.

Podejście 2: Utwórz scentralizowany system, aby przypisać unikalny identyfikator. Korzystam z interfejsu API opartego na REST, który kieruje się wzorcem w celu wygenerowania identyfikatora, a każda operacja mapowania wywołuje usługę REST w celu uzyskania unikalnego identyfikatora.

Drugie podejście daje pełną kontrolę nad zaprojektowaniem wzoru dla id.

Powiązane pytania

Intellisense w Intellij z bibliotekami iskrowymi - scala, apache-spark, intellij-idea

pakiet iskrow-java jak używać Sparka ze Scala? - scala, iskra-java

Zrozumienie zależności między iskrowcami - maven, apache-spark

Jak połączyć Cassandrę ze Spark za pomocą Javy. - Jawa, Kasandra, iskra apache

Wyjątek ClassNotFound Podczas uruchamiania programu java z Apache Spark - java, hadoop, apache-spark, pyspark

Nowość w Spark i Spark SQL z Javą - java, apache-spark, apache-spark-sql, migracja danych, bigdata

Jak sprawdzić, czy Spark jest zainstalowany, czy nie korzysta z kodu Java? - java, apache-spark

Czy plik CSV można przekonwertować na wykres za pomocą GraphX w Javie - java, scala, apache-spark

Link iskierki z iskrowym crunchem zaczynającym się od instancji SparkSession - apache-spark, apache-crunch

Instalacja iskry Apache i db_metastore - apache-spark

Apache iskry bluemix impossible - apache-spark, ibm-cloud

Apache Spark nie widzi całego barana moich maszyn - apache-spark, google-compute-engine, apache-spark-mllib

Apache isc-bigdata [zamknięty] - apache-spark, bigdata

Jak zabić zadanie iskier, jeśli identyfikator aplikacji jest znany? - apache-spark, datastax-enterprise

Spark sql numer_wiersza lub numer kolejny? - apache-spark, apache-spark-sql

Uzyskaj dostęp do webUI Sparka ze zdalnego komputera (do domu)? - iskierka apache

Dlaczego iskrowiące executory strumieniowe zaczynają się w innym czasie? - iskierka apache, strumień iskier, oś czasu

Jak utworzyć zadanie wsadowe do obsługi iskry w ramach Bluemix - apache-spark, ibm-cloud

Integracja Arbitralnego uczenia maszynowego Java z Apache Spark - apache-spark, machine-learning, concurrency

Dlaczego Spark wykrywa 8 rdzeni, kiedy mam tylko 4? - apache-iskra, cpu-rdzenie, webui