Имам многоноден клъстер в Hadoop, състоящ се от две машини (един възел с име и два възела за данни във всяка машина).
Използвам:
hadoop fs -put dir1 hdfspath
В горната команда: ще се разпространяват ли данни и в двете машини или само в една машина?
Какъв е начинът за балансиране: чрез използването на инструмента за балансиране на hadoop или може да има автоматичен начин за това?
Отговори:
0 за отговор № 1Това ще зависи от два фактора:
- Размер на данните, които съхранявате
- Размер на блока, определен за вашите възли за данни.
Ако размерът на данните, които се съхраняват, е повече от размера на блока, данните ще бъдат разделени на размер на блока и ще се съхраняват в различни възли за данни.