Som nováčikom bigdaty, chcem rozobrať celokdáta, takže nemôžem rozdeliť, keď sa snažím používať numpy pole pre spracovanie 1 GB dát to trvá 4 GB pamäte (V reálnom čase som sa zaoberajú obrovské dáta). Existuje nejaký optimalizovaný spôsob, ako použiť tieto pole pre toľko dát alebo akúkoľvek špeciálnu funkciu pre spracovanie obrovských dát.
odpovede:
5 pre odpoveď č. 1Spotreba pamäte závisí vo veľkej miere od spôsobu ukladania údajov. Napríklad 1
ako reťazec trvá len jeden bajt, ako int trvá dva bajty a osem bajtov ako dvojité. Potom existuje réžia vytvorenia ako v objekte DaataFrame
a Series
, To všetko sa robí pre efektívne spracovanie.
Všeobecne platí, že obnovenie údajov v pamäti bude mať väčšiu veľkosť ako v pamäti.
BigData znamená dáta, ktoré sú príliš veľké, aby sa zmestili do pamäte (alebo proces v jednom stroji). Takže nemá zmysel analyzovať celé dáta a nahrať ich do pamäte.
Všetky procesory BigData závisia na rozdelení dát na kúsky a spracovaní kusov jednotlivo (a paralelne), potom kombinovanie týchto priebežných výsledkov do jedného.