Tengo varias dudas sobre el ecosistema Hadoop. Con ganas de entender bien los conceptos.
- ¿Dónde almacenan los datos las tablas de Hive?
- Para Datawarehouse, ¿necesitamos tener los mismos datos en las tablas Hive y Hbase?
- ¿Cómo podemos insertar, actualizar, leer datos de Hbase?
- lo que todos los formatos de archivo puede HDFS almacenar que no sea csv.
- ¿Podemos tener PIG en Hbase.
- ¿Puedo omitir las tablas de Hbase si tengo Hive.
Respuestas
2 para la respuesta № 1Respuestas, en orden:
- Normalmente, Hive almacena datos en directorios con nombres de tablas bajo su directorio de sistema de archivos configurado, generalmente un directorio HDFS de
/user/hive/warehouse
, tweak-capaz a través de lahive-site.xml
propiedad dehive.metastore.warehouse.dir
. - Hive y HBase son dos tablas de almacenamiento diferentes.conceptos. El primero no tiene noción de registros o lecturas / escrituras aleatorias. Lo único común entre ellos es un conector que Hive tiene que leer los datos de la tabla almacenados en los servidores / formatos de HBase.
- Esto está cubierto por el Guía de referencia de HBase con todo detalle La forma más sencilla sería utilizar un
hbase shell
. - HDFS es un sistema de archivos simple (solo distribuido)similar a sus sistemas de archivos Unix o Windows y, por lo tanto, no le importa el tipo de datos que almacena en él. Puede almacenar lo que quiera, siempre que tenga también la lógica de lector / escritor disponible para digerirlo más tarde.
- Cerdo proporciona un Almacenamiento de HBase método de acceso de almacenamiento incorporado como parte de su núcleo, para permitirle acceder y representar datos de filas HBase en scripts de Pig.
- Ver (2). Ambos no están relacionados a menos que quieras que estén, por lo que la respuesta es un sí.