/ / Replikacja vs migawka w HBase - hadoop, mapreduce, hbase, cloudera

Replikacja a Migawka w HBase - hadoop, mapreduce, hbase, cloudera

Mamy dwa systemy - jeden offlinesystem (Wydajność nie jest tu kluczowa), w której zadania MapReduce działają w klastrze HBase. Drugim jest system online (wydajność ma tutaj bardzo duże znaczenie), w którym API odczytuje z tego samego klastra HBase. Ponieważ jednak zadania MapReduce działające w tym samym klastrze występują problemy z wydajnością w systemie online. Próbujemy więc skonfigurować osobny klaster HBase dla systemu Offline, który jest replikacją kilku nazwisk rodzinnych z klastra Source. Tak więc w źródle wykonuje się duże zadanie MapReduce. W replikowanym klastrze działa tylko system online zapewniający najlepszą wydajność. Moje pytanie tutaj: Czy nie możemy użyć funkcji Snap shot w HBase do robienia tego samego? Chciałem też wiedzieć, jaka jest między nimi różnica?

Odpowiedzi:

1 dla odpowiedzi № 1

Jeśli używasz funkcji migawki do mapreduce, towyda również procesor, pamięć i dysk io również na węzłach klastra Live Hbase. Więc jeśli dysk IO lub CPU jest dla Ciebie wąskim gardłem, oddzielnym klastrem dla zadań mapreduce jest lepszym rozwiązaniem.