/ / ¿Cuántos datos puede manejar mi clúster Hadoop? - hadoop, hdfs

¿Cuántos datos puede manejar mi clúster Hadoop? - hadoop, hdfs

Tengo un cluster de 4 nodos configurado para tener 1Namenode y 3 datanodes. Estoy realizando un punto de referencia de TPCH y me gustaría saber cuántos datos cree que puede manejar mi grupo sin afectar los tiempos de respuesta de las consultas. Mi tamaño total de HD disponible es de aproximadamente 700 GB, cada nodo tiene CPU con 8 núcleos y 16 GB de RAM.

Vi algunos cálculos que podríamos hacer para encontrarel límite de volumen, pero no lo entendía, si alguien pudiera explicar de forma sencilla cómo calcular el volumen de datos que un clúster puede manejar sería muy útil.

Gracias

Respuestas

0 para la respuesta № 1

Puede utilizar del 70 al 80% del espacio en su clúster para almacenar los datos, el resto se utilizará para el procesamiento y para almacenar resultados intermedios en su clúster.

De esta manera el rendimiento no se verá afectado.


0 para la respuesta № 2

Como mencionaste, ya configuraste tu clúster de 4 nodos. Puede ir y consultar en NN webUI -> Sección de capacidad configurada para averiguar los detalles de almacenamiento. Avíseme si encuentra alguna dificultad.