/ / Apache iskr - bigdata [zamknięty] - apache-spark, bigdata

Apache isc-bigdata [zamknięty] - apache-spark, bigdata

Załóżmy, że mamy 100 gb pliku. A mój system ma 60 gb. Jak iskra Apache poradzi sobie z tymi danymi? Wszyscy wiemy, że iskra wykonuje partycje samodzielnie na podstawie klastra. Ale wtedy, gdy jest mniejsza ilość pamięci, chcę wiedzieć, jak to się dzieje

Odpowiedzi:

5 dla odpowiedzi № 1

W skrócie: Spark nie wymaga, aby pełny zestaw danych mieścił się w pamięci naraz. Jednak niektóre operacje mogą wymagać, aby cała partycja zestawu danych pasowała do pamięci. Zauważ, że Spark pozwala kontrolować liczbę partycji (i, w konsekwencji, ich rozmiar).

Widzieć to temat szczegółów.

Warto również zauważyć, że obiekty Java zwykle zajmują więcej miejsca niż dane pierwotne, dlatego warto przyjrzeć się to.

Również polecam na to patrzeć Apache Spark: Zarządzanie pamięcią i Wdzięczna degradacja