Помощ при програмиране, отговори на въпроси / Питон / Защо Numpy и Pandas масиви консумират повече памет, отколкото източник на данни? [затворен] - питон, нупи, панда, bigdata

Защо Numpy и Pandas масивите консумират повече памет от данните от източника? [затворен] - питън, мръсен, панда, голям

Аз съм нов за bigdata, искам да анализирам цялотоданни, така че не мога да го разделя, когато се опитвам да използвам numpy масив за обработка на 1 GB данни отнема 4GB памет (в реално време се занимавам с огромни данни). Има ли някакъв оптимизиран начин за използване на тези масиви за толкова много данни или някаква специална функция за обработка на огромни данни.

Отговори:

5 за отговор № 1

Потреблението на памет зависи до голяма степен от начина, по който се съхраняват данните. Например 1 като низ отнема само един байт, като int отнема два байта и осем байта като двойни. Тогава има и главата за нейното създаване, както в Object of DaataFrame и Series, Всичко това се прави за ефективна обработка.
Като общо правило за палеца данните за представянето им в паметта ще имат по-голям размер, отколкото в паметта.

BigData означава данни, които са твърде голям, за да се побере в паметта (или процес в една машина). Така че няма смисъл да се анализира цялата информация и да се зарежда в паметта.

Всички двигатели за обработка на BigData изискват разделяне на данните на парчета и обработка на парчетата поотделно (и паралелно), след което комбинирането на тези междинни резултати в едно.