विषयसूची:
- Hadoop की शुरुआत कैसे हुई?
- Hadoop के बारे में इतना महत्वपूर्ण क्या है?
- क्या है स्कीमा रीड पर?
- हाइव क्या है?
- Hadoop किस तरह के डेटा का विश्लेषण करता है?
- क्या आप हडोप की वास्तविक दुनिया का उदाहरण दे सकते हैं?
- क्या हडोप पहले से ही अप्रचलित है या सिर्फ मॉर्फिंग है?
Hadoop क्या है? यह पीले खिलौने वाला हाथी है। वह नहीं जो आप उम्मीद कर रहे थे? इस बारे में कैसे: डौग कटिंग - इस ओपन-सोर्स सॉफ्टवेयर प्रोजेक्ट के सह-निर्माता - ने अपने बेटे से नाम उधार लिया था, जो उसके खिलौने हाथी हडोप को कॉल करने के लिए हुआ था। संक्षेप में, हडोप एक अपाचे सॉफ्टवेयर फाउंडेशन द्वारा विकसित एक सॉफ्टवेयर ढांचा है जिसका उपयोग डेटा-गहन, वितरित कंप्यूटिंग को विकसित करने के लिए किया जाता है। और यह अन्य buzzword पाठकों में एक महत्वपूर्ण घटक है: कभी भी पर्याप्त डेटा प्राप्त करने के लिए प्रतीत नहीं हो सकता है। यहाँ सात चीजें हैं जो आपको इस अनूठी, स्वतंत्र रूप से लाइसेंस प्राप्त सॉफ़्टवेयर के बारे में पता होनी चाहिए।
Hadoop की शुरुआत कैसे हुई?
बारह साल पहले, Google ने एकत्रित किए गए डेटा की भारी मात्रा में हेरफेर करने के लिए एक मंच बनाया था। जैसा कि कंपनी अक्सर करती है, Google ने अपने डिजाइन को दो पेपरों के रूप में जनता के लिए उपलब्ध कराया: Google फाइल सिस्टम और मैपरेड।
उसी समय, डग कटिंग और माइक कैफ़ेरेला एक नए खोज इंजन, नच पर काम कर रहे थे। बड़ी मात्रा में डेटा को कैसे संभालना है, इस बात से भी दोनों जूझ रहे थे। तब दोनों शोधकर्ताओं को गूगल के कागजात की हवा मिली। सौभाग्यशाली चौराहे ने कटिंग और कैफेरेला को एक बेहतर फ़ाइल सिस्टम और डेटा पर नज़र रखने का एक तरीका पेश करके सब कुछ बदल दिया, अंत में हेडोप के निर्माण का नेतृत्व किया।
Hadoop के बारे में इतना महत्वपूर्ण क्या है?
आज, डेटा एकत्र करना पहले से कहीं ज्यादा आसान है। यह सब डेटा होने से कई अवसर मिलते हैं, लेकिन साथ ही चुनौतियां भी हैं:- बड़ी मात्रा में डेटा को प्रसंस्करण के नए तरीकों की आवश्यकता होती है।
- कैप्चर किया जा रहा डेटा एक असंरचित प्रारूप में है।
इसके बाद, उन्हें बिना प्रारूप वाले डेटा या डेटा को उन प्रारूपों से निपटना पड़ा जो मानक रिलेशनल डेटाबेस सिस्टम को संभालने में असमर्थ थे। कटिंग और कैफेरेला ने किसी भी प्रकार के डेटा के साथ काम करने के लिए Hadoop को डिज़ाइन किया: संरचित, असंरचित, चित्र, ऑडियो फ़ाइलें, यहां तक कि पाठ भी। यह क्लोडेरा (हडोप इंटीग्रेटर) श्वेत पत्र बताता है कि यह महत्वपूर्ण क्यों है:
-
"अपने सभी डेटा को प्रयोग करने योग्य बनाने से, न कि आपके डेटाबेस में क्या है, हैडोप आपको छिपे हुए रिश्तों को उजागर करने देता है और उन उत्तरों को प्रकट करता है जो हमेशा पहुंच से बाहर रहे हैं। आप कूबड़ के बजाय कठिन डेटा के आधार पर अधिक निर्णय लेना शुरू कर सकते हैं, और देखो। पूर्ण डेटा सेट पर, न केवल नमूने और सारांश। "
क्या है स्कीमा रीड पर?
जैसा कि पहले उल्लेख किया गया था, Hadoop के फायदों में से एक असंरचित डेटा को संभालने की क्षमता है। एक अर्थ में, यह "सड़क को नीचे गिरा सकता है।" अंततः डेटा को विश्लेषण करने के लिए किसी प्रकार की संरचना की आवश्यकता होती है।
यही वह जगह है जहाँ रीड पर स्कीमा खेल में आती है। स्कीमा पढ़ने में डेटा किस प्रारूप में है, इस बात का पता लगाना है कि डेटा कहां मिलेगा (याद रखें कि डेटा कई सर्वरों में बिखरा हुआ है), और डेटा का क्या किया जाना है - एक सरल कार्य नहीं है। यह कहा गया है कि एक Hadoop प्रणाली में डेटा में हेरफेर करने के लिए एक व्यवसाय विश्लेषक, एक सांख्यिकीविद और एक जावा प्रोग्रामर के कौशल की आवश्यकता होती है। दुर्भाग्य से, उन योग्यताओं के साथ बहुत से लोग नहीं हैं।
हाइव क्या है?
यदि Hadoop सफल होने वाला था, तो डेटा के साथ काम करना सरल होना था। इसलिए, ओपन-सोर्स भीड़ को काम मिला और उसने हाइव बनाया:-
"हाइव इस डेटा पर प्रोजेक्ट संरचना को एक तंत्र प्रदान करता है और एचक्यूक्यूएल नामक एक एसक्यूएल जैसी भाषा का उपयोग करके डेटा को क्वेरी करता है। साथ ही यह भाषा पारंपरिक मानचित्र / प्रोग्रामर को अपने कस्टम मैपर्स और रिड्यूसर में प्लग करने की अनुमति देती है जब यह असुविधाजनक होता है या। HiveQL में इस तर्क को व्यक्त करने के लिए अक्षम। "
हाइव दोनों दुनिया के सर्वश्रेष्ठ को सक्षम करता है: SQL कमांड से परिचित डेटाबेस कर्मी डेटा में हेरफेर कर सकते हैं, और रीड प्रक्रिया पर स्कीमा से परिचित डेवलपर्स अभी भी अनुकूलित प्रश्न बनाने में सक्षम हैं।
Hadoop किस तरह के डेटा का विश्लेषण करता है?
वेब एनालिटिक्स पहली चीज है जो वेबसाइटों को अनुकूलित करने के लिए वेब लॉग और वेब ट्रैफ़िक का विश्लेषण करते हुए दिमाग में आती है। उदाहरण के लिए, फेसबुक निश्चित रूप से वेब एनालिटिक्स में है, Hadoop का उपयोग करके कंपनी द्वारा जमा किए गए डेटा के टेराबाइट्स के माध्यम से सॉर्ट करने के लिए।
जोखिम विश्लेषण, धोखाधड़ी का पता लगाने और ग्राहक-आधार विभाजन करने के लिए कंपनियां Hadoop समूहों का उपयोग करती हैं। यूटिलिटी कंपनियां अपने इलेक्ट्रिकल ग्रिड से सेंसर डेटा का विश्लेषण करने के लिए Hadoop का उपयोग करती हैं, जिससे उन्हें बिजली के उत्पादन का अनुकूलन करने की अनुमति मिलती है। टारगेट, 3 एम और मेड्रोनिक्स जैसी प्रमुख कंपनियां उत्पाद वितरण, व्यापार जोखिम आकलन और ग्राहक-आधार विभाजन को अनुकूलित करने के लिए Hadoop का उपयोग करती हैं।
Hadoop में भी विश्वविद्यालयों का निवेश किया जाता है। यूनिवर्सिटी ऑफ सेंट थॉमस ग्रेजुएट प्रोग्राम्स इन सॉफ्टवेयर के एक एसोसिएट प्रोफेसर ब्रैड रुबिन ने उल्लेख किया कि विश्वविद्यालय में अनुसंधान समूहों द्वारा संकलित डेटा की प्रचुर मात्रा के माध्यम से उनकी हडॉप विशेषज्ञता में मदद मिल रही है।
क्या आप हडोप की वास्तविक दुनिया का उदाहरण दे सकते हैं?
बेहतर उदाहरणों में से एक TimesMachine है। न्यू यॉर्क टाइम्स में पूर्ण पृष्ठ के समाचार पत्र टीआईएफएफ चित्रों, संबद्ध मेटाडेटा और 1951 के लेख लेख से लेकर डेटा के टेराबाइट्स तक का संग्रह है। NYT के डेरेक गॉटफ्रिड, EC2 / S3 / Hadoop सिस्टम और विशेष कोड का उपयोग करते हुए:-
"405, 000 बहुत बड़ी TIFF छवियों को सम्मिलित किया, SGML में 3.3 मिलियन लेख और TIFF में आयताकार क्षेत्रों के लिए 405, 000 xml फ़ाइलों की मैपिंग की गई। इस डेटा को अधिक वेब-फ्रेंडली 810, 000 PNG छवियों (थंबनेल और पूर्ण छवियों) और 405, 000 JavaScript फ़ाइलों में परिवर्तित किया गया। "
अमेज़ॅन वेब सर्विसेज क्लाउड में सर्वरों का उपयोग करते हुए, गॉटफ्रीड ने उल्लेख किया कि वे 36 घंटों से भी कम समय में TimesMachine के लिए आवश्यक सभी डेटा को संसाधित करने में सक्षम थे।
क्या हडोप पहले से ही अप्रचलित है या सिर्फ मॉर्फिंग है?
Hadoop अब लगभग एक दशक से अधिक समय से है। कई लोगों ने कहा कि यह अप्रचलित है। एक विशेषज्ञ, डॉ। डेविड रिको ने कहा है कि "आईटी उत्पाद अल्पकालिक हैं। कुत्ते के वर्षों में, Google के उत्पाद लगभग 70 हैं, जबकि Hadoop 56 है।"
रिको जो कहता है, उसमें कुछ सच्चाई हो सकती है। ऐसा प्रतीत होता है कि हाडोप एक प्रमुख ओवरहाल से गुजर रहा है। इसके बारे में अधिक जानने के लिए, रूबिन ने मुझे एक ट्विन सिटीज़ हडॉप उपयोगकर्ता समूह की बैठक में आमंत्रित किया, और चर्चा का विषय यारो से परिचय था:
-
"Apache Hadoop 2 में एक नया MapReduce इंजन शामिल है, जिसमें पिछले कार्यान्वयन पर कई फायदे हैं, जिसमें बेहतर मापनीयता और संसाधन उपयोग शामिल है। नया कार्यान्वयन YARN नामक वितरित अनुप्रयोगों को चलाने के लिए एक सामान्य संसाधन प्रबंधन प्रणाली पर बनाया गया है।"
