Ich habe einige Zweifel am Hadoop Ecosystem. Eifrig, die Konzepte gut zu verstehen.
- Wo speichern Hive-Tabellen Daten?
- Für Datawarehouse benötigen wir dieselben Daten sowohl in Hive- als auch in Hbase-Tabellen.
- Wie können wir Daten von Hbase einfügen, aktualisieren, lesen?
- was alle Dateiformate können HDFS außer csv speichern.
- Können wir PIG auf Hbase haben?
- kann ich Hbase-Tabellen weglassen, wenn ich Hive habe.
Antworten:
2 für die Antwort № 1Antworten in der Reihenfolge:
- In der Regel speichert Hive Daten in tabellennamensdefinierten Verzeichnissen unter seinem konfigurierten Dateisystemverzeichnis, normalerweise einem HDFS-Verzeichnis von
/user/hive/warehouse
, zwickbar über diehive-site.xml
Eigentum vonhive.metastore.warehouse.dir
. - Hive und HBase sind zwei verschiedene TabellenspeicherKonzepte. Ersteres hat keine Vorstellung von Datensätzen oder zufälligen Lese- / Schreibvorgängen. Das einzige, was ihnen gemeinsam ist, ist ein Connector. Hive muss die Tabellendaten lesen, die unter den Servern / Formaten von HBase gespeichert sind.
- Dies ist durch die abgedeckt HBase Referenzhandbuch im Detail. Der einfachste Weg wäre, a zu verwenden
hbase shell
. - HDFS ist ein einfaches Dateisystem (nur verteilt)ähnlich wie bei Ihren Unix- oder Windows-Dateisystemen und deshalb ist es egal, welche Art von Daten Sie darauf speichern. Sie können speichern, was Sie wollen, vorausgesetzt, Sie verfügen auch über eine Lese- / Schreib-Logik, um sie später zu verarbeiten.
- Schwein bietet ein HBaseAufbewahrung integrierte Speicherzugriffsmethode als Teil des Kerns, damit Sie auf HBase-Zeilendaten in Pig-Skripten zugreifen und diese darstellen können.
- Siehe (2). Beide sind nicht verwandt, es sei denn, Sie wollen sie haben, also ist die Antwort ein Ja.