/ / Algunas dudas sobre HDFS, HBase y Hive - hadoop, hive, hdfs

Algunas dudas sobre HDFS, HBase y Hive - hadoop, hive, hdfs

Tengo varias dudas sobre el ecosistema Hadoop. Con ganas de entender bien los conceptos.

  1. ¿Dónde almacenan los datos las tablas de Hive?
  2. Para Datawarehouse, ¿necesitamos tener los mismos datos en las tablas Hive y Hbase?
  3. ¿Cómo podemos insertar, actualizar, leer datos de Hbase?
  4. lo que todos los formatos de archivo puede HDFS almacenar que no sea csv.
  5. ¿Podemos tener PIG en Hbase.
  6. ¿Puedo omitir las tablas de Hbase si tengo Hive.

Respuestas

2 para la respuesta № 1

Respuestas, en orden:

  1. Normalmente, Hive almacena datos en directorios con nombres de tablas bajo su directorio de sistema de archivos configurado, generalmente un directorio HDFS de /user/hive/warehouse, tweak-capaz a través de la hive-site.xml propiedad de hive.metastore.warehouse.dir.
  2. Hive y HBase son dos tablas de almacenamiento diferentes.conceptos. El primero no tiene noción de registros o lecturas / escrituras aleatorias. Lo único común entre ellos es un conector que Hive tiene que leer los datos de la tabla almacenados en los servidores / formatos de HBase.
  3. Esto está cubierto por el Guía de referencia de HBase con todo detalle La forma más sencilla sería utilizar un hbase shell.
  4. HDFS es un sistema de archivos simple (solo distribuido)similar a sus sistemas de archivos Unix o Windows y, por lo tanto, no le importa el tipo de datos que almacena en él. Puede almacenar lo que quiera, siempre que tenga también la lógica de lector / escritor disponible para digerirlo más tarde.
  5. Cerdo proporciona un Almacenamiento de HBase método de acceso de almacenamiento incorporado como parte de su núcleo, para permitirle acceder y representar datos de filas HBase en scripts de Pig.
  6. Ver (2). Ambos no están relacionados a menos que quieras que estén, por lo que la respuesta es un sí.