Pomoc pri programovaní, odpovede na otázky / krajta / Prečo Numpy a Pandy zaplňujú viac pamäte ako zdrojové dáta? [zatvorené] - python, numpy, pandy, bigdata

Prečo sú súbory Numpy a Pandas vyčerpávajúce viac pamäte ako zdrojové údaje? [uzavretý] - python, numpy, pandas, bigdata

Som nováčikom bigdaty, chcem rozobrať celokdáta, takže nemôžem rozdeliť, keď sa snažím používať numpy pole pre spracovanie 1 GB dát to trvá 4 GB pamäte (V reálnom čase som sa zaoberajú obrovské dáta). Existuje nejaký optimalizovaný spôsob, ako použiť tieto pole pre toľko dát alebo akúkoľvek špeciálnu funkciu pre spracovanie obrovských dát.

odpovede:

5 pre odpoveď č. 1

Spotreba pamäte závisí vo veľkej miere od spôsobu ukladania údajov. Napríklad 1 ako reťazec trvá len jeden bajt, ako int trvá dva bajty a osem bajtov ako dvojité. Potom existuje réžia vytvorenia ako v objekte DaataFrame a Series, To všetko sa robí pre efektívne spracovanie.
Všeobecne platí, že obnovenie údajov v pamäti bude mať väčšiu veľkosť ako v pamäti.

BigData znamená dáta, ktoré sú príliš veľké, aby sa zmestili do pamäte (alebo proces v jednom stroji). Takže nemá zmysel analyzovať celé dáta a nahrať ich do pamäte.

Všetky procesory BigData závisia na rozdelení dát na kúsky a spracovaní kusov jednotlivo (a paralelne), potom kombinovanie týchto priebežných výsledkov do jedného.

Súvisiace otázky

Pip nainštalujte chyby Numpy - python, panda, numpy, pip

Priraďte štítky stĺpcov a riadkov zlúčeným maticovým poliam? - python, polia, numpy

Ako previesť pandasovú sériu, ktorá je viacrozmerná k dátovému rámcu pandas - python, pandas, numpy, dataframe

Pandy nesprávne vykresľujú dáta, ale numpy je - python, pandas, numpy, matplotlib, scikit-learn

Pandas read_csv: previesť špecifický reťazec na numpy.inf - python, pandas

Má objekt DataFrame z pandy superceded ostatné alternatívy pre heterogénne dátové typy? - python, numpy, scipy, pandy

Je možné nainštalovať pythonové knižnice ako Numpy, Scipy, Pandas a Matplotlib a statsmodels do Eclipse - python, eclipse, numpy, panda, scipy

Extrahovať numpy polia z pandas dataframe ako matrix - python, arrays, panda, numpy

python-operate matica so znakmi - python, numpy, types

Python - Aktualizácia pandy - python, pandy

Môžem spustiť numpy a pandy s Jython - python, numpy, pandas, jython

Ako uložiť pole numpy v stĺpci dátového rámca Pandas? - python, python-2.7, numpy, panda

Ako previesť numpy matice pandy série?-python, polia, numpy pandy

Pandas Panel ako početné multidimenzionálne pole - python, pandy, panel

Môže Django dobre pracovať s pandami a málo? python, django, pandy, numpy

Čo je ekvivalent pythonu R na NA? - python, numpy, panda, scikit-learn, čistenie dát

numpy / pandas NaN rozdiel zmätok - python, panda, numpy

Metóda na krájanie v stĺpcoch, ktorá funguje tak na početných poliach, ako aj na dátových rámčekoch panda - python, arrays, panda, numpy

Možnosť previesť všetky pythonové pandy / numpy kód na základňu python - python, panda, numpy

Ako používať pandy v dátovom toku Google cloud? - pandy, google-cloud-dataflow, apache-beam