/ / Einige Zweifel an HDFS, HBase und Hive - hadoop, hive, hdfs

Einige Zweifel an HDFS, HBase und Hive - Hadoop, Bienenstock, hdfs

Ich habe einige Zweifel am Hadoop Ecosystem. Eifrig, die Konzepte gut zu verstehen.

  1. Wo speichern Hive-Tabellen Daten?
  2. Für Datawarehouse benötigen wir dieselben Daten sowohl in Hive- als auch in Hbase-Tabellen.
  3. Wie können wir Daten von Hbase einfügen, aktualisieren, lesen?
  4. was alle Dateiformate können HDFS außer csv speichern.
  5. Können wir PIG auf Hbase haben?
  6. kann ich Hbase-Tabellen weglassen, wenn ich Hive habe.

Antworten:

2 für die Antwort № 1

Antworten in der Reihenfolge:

  1. In der Regel speichert Hive Daten in tabellennamensdefinierten Verzeichnissen unter seinem konfigurierten Dateisystemverzeichnis, normalerweise einem HDFS-Verzeichnis von /user/hive/warehouse, zwickbar über die hive-site.xml Eigentum von hive.metastore.warehouse.dir.
  2. Hive und HBase sind zwei verschiedene TabellenspeicherKonzepte. Ersteres hat keine Vorstellung von Datensätzen oder zufälligen Lese- / Schreibvorgängen. Das einzige, was ihnen gemeinsam ist, ist ein Connector. Hive muss die Tabellendaten lesen, die unter den Servern / Formaten von HBase gespeichert sind.
  3. Dies ist durch die abgedeckt HBase Referenzhandbuch im Detail. Der einfachste Weg wäre, a zu verwenden hbase shell.
  4. HDFS ist ein einfaches Dateisystem (nur verteilt)ähnlich wie bei Ihren Unix- oder Windows-Dateisystemen und deshalb ist es egal, welche Art von Daten Sie darauf speichern. Sie können speichern, was Sie wollen, vorausgesetzt, Sie verfügen auch über eine Lese- / Schreib-Logik, um sie später zu verarbeiten.
  5. Schwein bietet ein HBaseAufbewahrung integrierte Speicherzugriffsmethode als Teil des Kerns, damit Sie auf HBase-Zeilendaten in Pig-Skripten zugreifen und diese darstellen können.
  6. Siehe (2). Beide sind nicht verwandt, es sei denn, Sie wollen sie haben, also ist die Antwort ein Ja.