/ / Prečo Numpy a Pandy zaplňujú viac pamäte ako zdrojové dáta? [zatvorené] - python, numpy, pandy, bigdata

Prečo sú súbory Numpy a Pandas vyčerpávajúce viac pamäte ako zdrojové údaje? [uzavretý] - python, numpy, pandas, bigdata

Som nováčikom bigdaty, chcem rozobrať celokdáta, takže nemôžem rozdeliť, keď sa snažím používať numpy pole pre spracovanie 1 GB dát to trvá 4 GB pamäte (V reálnom čase som sa zaoberajú obrovské dáta). Existuje nejaký optimalizovaný spôsob, ako použiť tieto pole pre toľko dát alebo akúkoľvek špeciálnu funkciu pre spracovanie obrovských dát.

odpovede:

5 pre odpoveď č. 1

Spotreba pamäte závisí vo veľkej miere od spôsobu ukladania údajov. Napríklad 1 ako reťazec trvá len jeden bajt, ako int trvá dva bajty a osem bajtov ako dvojité. Potom existuje réžia vytvorenia ako v objekte DaataFrame a Series, To všetko sa robí pre efektívne spracovanie.
Všeobecne platí, že obnovenie údajov v pamäti bude mať väčšiu veľkosť ako v pamäti.

BigData znamená dáta, ktoré sú príliš veľké, aby sa zmestili do pamäte (alebo proces v jednom stroji). Takže nemá zmysel analyzovať celé dáta a nahrať ich do pamäte.

Všetky procesory BigData závisia na rozdelení dát na kúsky a spracovaní kusov jednotlivo (a paralelne), potom kombinovanie týchto priebežných výsledkov do jedného.