/ / Как да балансирам данните между Datanodes в Hadoop? - hadoop, hdfs, hadoop2, namenode

Как да балансираме данните между Datanodes в Hadoop? - хаоп, hdfs, hadoop2, namenode

Имам многоноден клъстер в Hadoop, състоящ се от две машини (един възел с име и два възела за данни във всяка машина).

Използвам:

hadoop fs -put dir1 hdfspath

В горната команда: ще се разпространяват ли данни и в двете машини или само в една машина?

Какъв е начинът за балансиране: чрез използването на инструмента за балансиране на hadoop или може да има автоматичен начин за това?

Отговори:

0 за отговор № 1

Това ще зависи от два фактора:

  • Размер на данните, които съхранявате
  • Размер на блока, определен за вашите възли за данни.

Ако размерът на данните, които се съхраняват, е повече от размера на блока, данните ще бъдат разделени на размер на блока и ще се съхраняват в различни възли за данни.