/ / मैप रिड्यूस एंड आरडीबीएमएस - हडूप, मैप्रेड्यूस

नक्शा कम करें और आरडीबीएमएस - हडूप, मैप्रिडस

मैं हडूप निश्चित गाइड पढ़ रहा था, यह थालिखित मानचित्र में कमी डेटाबेस के बड़े हिस्से को अपडेट करने के लिए अच्छी है, और यह उस डेटाबेस के पुनर्निर्माण के लिए सॉर्ट एंड मर्ज का उपयोग करता है जो हस्तांतरण के समय पर निर्भर है।

इसके अलावा आरडीबीएमएस एक बड़े डेटाबेस के केवल छोटे हिस्से को अपडेट करने के लिए अच्छा है, यह एक बी-ट्री का उपयोग करता है जो कि समय की तलाश द्वारा सीमित है

क्या कोई भी इन दोनों दावों का वास्तव में मतलब निकाल सकता है?

उत्तर:

जवाब के लिए 0 № 1

मुझे वास्तव में यकीन नहीं है कि पुस्तक का क्या मतलब है, लेकिन आप आम तौर पर एक नक्शा को कम कर देंगे पूरे डेटाबेस / कुछ भी फिर से बनाने के लिए यदि आपके पास अभी भी कच्चा डेटा है।

हडूप के बारे में असली अच्छी बात यह है कि यह वितरित किया गया है, इसलिए प्रदर्शन वास्तव में एक समस्या नहीं है क्योंकि आप बस अधिक मशीनें जोड़ सकते हैं।

एक उदाहरण लेते हैं, आपको एक पुनर्निर्माण करने की आवश्यकता है1 अरब पंक्तियों के साथ जटिल तालिका। RDBMS के साथ, आप केवल लंबवत पैमाने पर कर सकते हैं, इसलिए आप सीपीयू की शक्ति के आधार पर अधिक होंगे, और एल्गोरिथ्म कितना तेज है। आप इसे कुछ SQL कमांड के साथ कर रहे होंगे। आपको कुछ डेटा का चयन करने, उन्हें संसाधित करने, सामान करने आदि की आवश्यकता होगी, इसलिए आपको अधिकांश समय की तलाश द्वारा सीमित किया जाएगा।

हडप मानचित्र कम होने के साथ, आप अधिक जोड़ सकते हैंमशीनों, इसलिए प्रदर्शन समस्या नहीं है। मान लें कि आप 10000 मैपर्स का उपयोग करते हैं, इसका मतलब है कि कार्य को 10000 मैपर कंटेनरों में विभाजित किया जाएगा, और हडॉप की प्रकृति के कारण, इन सभी कंटेनरों में आमतौर पर पहले से ही स्थानीय रूप से संग्रहीत हार्डड्राइव पर डेटा है। प्रत्येक मैपर का आउटपुट हमेशा उनके स्थानीय हार्डड्राइव पर एक महत्वपूर्ण मूल्य संरचित प्रारूप होता है। ये डेटा मैपर द्वारा कुंजी का उपयोग करके सॉर्ट किए जाते हैं।

अब समस्या यह है, उन्हें डेटा को संयोजित करने की आवश्यकता हैएक साथ, इसलिए ये सभी डेटा एक रिड्यूसर को भेजे जाएंगे। यह नेटवर्क के माध्यम से होता है, आमतौर पर सबसे बड़ा हिस्सा होता है यदि आपके पास बड़ा डेटा है। Reducer सभी डेटा प्राप्त करेगा और आगे की प्रक्रिया के लिए उन्हें मर्ज-सॉर्ट करेगा। अंत में आपके पास एक फाइल है जिसे सिर्फ आपके डेटाबेस में अपलोड किया जा सकता है।

मैपर से रेड्यूसर में स्थानांतरण आमतौर पर होता हैयदि आपके पास बहुत अधिक डेटा है, तो सबसे लंबा समय ले रहा है, और नेटवर्क आमतौर पर आपकी अड़चन है। हो सकता है कि स्थानांतरण समय के आधार पर इसका क्या मतलब है।