/ / ¿Cuál es el beneficio de usar CDH (cloudera)? [cerrado] - hadoop, bigdata, apache-spark, cloudera, cloudera-cdh

¿Cuál es el beneficio de usar CDH (cloudera)? [cerrado] - hadoop, bigdata, apache-spark, cloudera, cloudera-cdh

¿Por qué usamos CDH (cloudera) en lugar de usar Apache-Hadoop o Apache-Spark ets? ¿solamente? ¿Qué ventajas tiene?

Si quiero usar Apache-Spark para el análisis de datos, ¿es mejor usar CDH o Apache-Spark Framework Solely?

Gracias

Respuestas

4 para la respuesta № 1

Bueno, CDH es una "distribución de Hadoop". Para mí, es "una forma sencilla de instalar Hadoop" y tener una interfaz web agradable para la administración. Así que no puedes usar CDH en lugar de Hadoop. (Así como no puede usar Red Hat en lugar de Linux).

Spark también puede ejecutarse como un clúster independiente sin Hadoop. Sin embargo, entonces no podrá utilizar la información de la localidad del recurso HDFS y la programación de YARN.

Para empezar con Spark, te recomendaríaPruebe primero el clúster independiente, ya que Hadoop es una bestia para comenzar. Sin embargo, si necesita la funcionalidad HDFS desde el principio, supongo que tendrá que configurar Hadoop (de cualquier forma) de todos modos.