Pomoc w programowaniu, odpowiedzi na pytania / Iskierka Apache / Apache iskr - bigdata [zamknięty] - apache-spark, bigdata

Apache isc-bigdata [zamknięty] - apache-spark, bigdata

Załóżmy, że mamy 100 gb pliku. A mój system ma 60 gb. Jak iskra Apache poradzi sobie z tymi danymi? Wszyscy wiemy, że iskra wykonuje partycje samodzielnie na podstawie klastra. Ale wtedy, gdy jest mniejsza ilość pamięci, chcę wiedzieć, jak to się dzieje

Odpowiedzi:

5 dla odpowiedzi № 1

W skrócie: Spark nie wymaga, aby pełny zestaw danych mieścił się w pamięci naraz. Jednak niektóre operacje mogą wymagać, aby cała partycja zestawu danych pasowała do pamięci. Zauważ, że Spark pozwala kontrolować liczbę partycji (i, w konsekwencji, ich rozmiar).

Widzieć to temat szczegółów.

Warto również zauważyć, że obiekty Java zwykle zajmują więcej miejsca niż dane pierwotne, dlatego warto przyjrzeć się to.

Również polecam na to patrzeć Apache Spark: Zarządzanie pamięcią i Wdzięczna degradacja

Powiązane pytania

Uruchamianie programu Apache Spark master nie powiodło się - scala, apache-spark, bigdata

Intellisense w Intellij z bibliotekami iskrowymi - scala, apache-spark, intellij-idea

Nowość w Spark i Spark SQL z Javą - java, apache-spark, apache-spark-sql, migracja danych, bigdata

Spark-Submit przez linię poleceń nie wymusza kodowania UTF-8 - java, apache-iskra, kodowanie, utf-8, bigdata

Jaka jest korzyść z używania CDH (cloudera)? [zamknięty] - hadoop, bigdata, apache-iskra, cloudera, cloudera-cdh

jak zapisać plik tekstowy do ula za pomocą tabeli kontekstu jako schematu - hadoop, apache-spark, spark-dataframe, bigdata

Log4j w spark2-shell - hadoop, apache-spark, apache-spark-sql, spark-streaming, bigdata

Ustrukturyzowana i nieustrukturyzowana integracja danych z silnikiem przetwarzania danych na dużą skalę [zamknięta] - apache-iskra, bigdata, przetwarzanie danych, integracja danych, apache-migacz

Link iskierki z iskrowym crunchem zaczynającym się od instancji SparkSession - apache-spark, apache-crunch

Apache iskry bluemix impossible - apache-spark, ibm-cloud

Apache Spark nie widzi całego barana moich maszyn - apache-spark, google-compute-engine, apache-spark-mllib

Jak zabić zadanie iskier, jeśli identyfikator aplikacji jest znany? - apache-spark, datastax-enterprise

Ilu odbiorców Spark rozpoczyna dla strumienia Kinesis? - iskierka apache, iskra, amazon-kinezy

Spark - Co to jest pracownik? (dogłębnie) - apache-spark, bigdata

Spark sql numer_wiersza lub numer kolejny? - apache-spark, apache-spark-sql

Uzyskaj dostęp do webUI Sparka ze zdalnego komputera (do domu)? - iskierka apache

Dlaczego iskrowiące executory strumieniowe zaczynają się w innym czasie? - iskierka apache, strumień iskier, oś czasu

W jaki sposób Spark zapisze plik 500GB / 1TB Data - apache-spark, bigdata

Dlaczego Spark wykrywa 8 rdzeni, kiedy mam tylko 4? - apache-iskra, cpu-rdzenie, webui

Jak zainstalować Apache Zeppelin na istniejącym już samodzielnym klastrze Apache Spark - amazon-web-services, apache-spark, bigdata, apache-spark-sql, apache-zeppelin