Аз съм нов за bigdata, искам да анализирам цялотоданни, така че не мога да го разделя, когато се опитвам да използвам numpy масив за обработка на 1 GB данни отнема 4GB памет (в реално време се занимавам с огромни данни). Има ли някакъв оптимизиран начин за използване на тези масиви за толкова много данни или някаква специална функция за обработка на огромни данни.
Отговори:
5 за отговор № 1Потреблението на памет зависи до голяма степен от начина, по който се съхраняват данните. Например 1
като низ отнема само един байт, като int отнема два байта и осем байта като двойни. Тогава има и главата за нейното създаване, както в Object of DaataFrame
и Series
, Всичко това се прави за ефективна обработка.
Като общо правило за палеца данните за представянето им в паметта ще имат по-голям размер, отколкото в паметта.
BigData означава данни, които са твърде голям, за да се побере в паметта (или процес в една машина). Така че няма смисъл да се анализира цялата информация и да се зарежда в паметта.
Всички двигатели за обработка на BigData изискват разделяне на данните на парчета и обработка на парчетата поотделно (и паралелно), след което комбинирането на тези междинни резултати в едно.