घर रुझान क्या $ @! हूप है?

क्या $ @! हूप है?

विषयसूची:

Anonim

हर किसी के बारे में बात कर रहे हैं, Hadoop, हॉट नई तकनीक जो डेवलपर्स के बीच अत्यधिक बेशकीमती है और बस दुनिया को बदल सकती है (फिर से)। लेकिन यह क्या है, वैसे भी? क्या यह एक प्रोग्रामिंग भाषा है? एक डेटाबेस? एक प्रसंस्करण प्रणाली? एक भारतीय चाय आरामदायक?


व्यापक उत्तर: Hadoop इन सभी चीजों (चाय को छोड़कर), और अधिक है। यह एक सॉफ्टवेयर लाइब्रेरी है जो एक अन्य आधुनिक बज़ के सस्ते, उपयोगी प्रसंस्करण के लिए एक प्रोग्रामिंग फ्रेमवर्क प्रदान करता है: बड़ा डेटा।

Hadoop कहाँ से आया है?

Apache Hadoop, Apache Software Foundation की एक गैर-लाभकारी संस्था, जिसका मिशन "जनता की भलाई के लिए सॉफ़्टवेयर प्रदान करना" है, से फाउंडेशन प्रोजेक्ट का हिस्सा है। जैसे, Hadoop लाइब्रेरी सभी डेवलपर्स के लिए मुफ्त, ओपन-सोर्स सॉफ्टवेयर उपलब्ध है।


Hadoop को शक्ति प्रदान करने वाली अंतर्निहित तकनीक वास्तव में Google द्वारा आविष्कार की गई थी। शुरुआती दिनों में, बहुत-से-विशाल-विशाल खोज इंजन को इंटरनेट से एकत्रित किए जाने वाले डेटा की भारी मात्रा को अनुक्रमित करने और इसे अपने उपयोगकर्ताओं के लिए सार्थक, प्रासंगिक परिणामों में बदलने का एक तरीका चाहिए था। अपनी आवश्यकताओं को पूरा करने वाले बाजार पर कुछ भी उपलब्ध नहीं होने के कारण, Google ने अपना मंच बनाया।


उन नवाचारों को एक ओपन-सोर्स प्रोजेक्ट में जारी किया गया था जिसे नच कहा जाता है, जिसे हडोप ने बाद में एक नींव के रूप में इस्तेमाल किया। अनिवार्य रूप से, Hadoop Google की शक्ति को बड़े डेटा पर लागू करता है जो सभी आकारों की कंपनियों के लिए सस्ती है।

Hadoop कैसे काम करता है?

जैसा कि पहले उल्लेख किया गया है, Hadoop एक बात नहीं है - यह कई चीजें हैं। सॉफ़्टवेयर लाइब्रेरी जो Hadoop में चार प्राथमिक भाग (मॉड्यूल), और कई ऐड-ऑन सॉल्यूशंस (जैसे डेटाबेस और प्रोग्रामिंग लैंग्वेज) हैं, जो इसके वास्तविक-विश्व उपयोग को बढ़ाते हैं। चार मॉड्यूल हैं:

  • Hadoop Common: यह सामान्य उपयोगिताओं (सामान्य पुस्तकालय) का संग्रह है जो Hadoop मॉड्यूल का समर्थन करता है।
  • Hadoop वितरित फ़ाइल सिस्टम (HDFS): संग्रहीत डेटा पर कोई प्रतिबंध के साथ एक मजबूत वितरित फ़ाइल सिस्टम (जिसका अर्थ है कि डेटा संरचित या असंरचित और योजनाबद्ध हो सकता है, जहां कई DFS केवल संरचित डेटा संग्रहीत करेंगे) जो अतिरेक के साथ उच्च-थ्रूपुट एक्सेस प्रदान करता है ( HDFS डेटा को कई मशीनों पर संग्रहीत करने की अनुमति देता है - इसलिए यदि एक मशीन विफल हो जाती है, तो अन्य मशीनों के माध्यम से उपलब्धता बनाए रखी जाती है)।
  • Hadoop YARN: यह रूपरेखा नौकरी निर्धारण और क्लस्टर संसाधन प्रबंधन के लिए जिम्मेदार है; यह सुनिश्चित करता है कि अतिरेक को बनाए रखने के लिए कई मशीनों पर डेटा पर्याप्त रूप से फैला हुआ है। YARN वह मॉड्यूल है जो Hadoop को बड़ा डेटा प्रोसेस करने का एक किफायती और किफायती तरीका बनाता है।
  • Hadoop MapReduce: Google तकनीक पर बनाया गया यह YARN- आधारित सिस्टम, बड़े डेटा सेट (संरचित और असंरचित) के समानांतर प्रसंस्करण करता है। MapReduce को आज के अधिकांश बड़े डेटा प्रोसेसिंग फ्रेमवर्क में भी पाया जा सकता है, जिसमें MPP और NoSQL डेटाबेस शामिल हैं।
एक साथ काम करने वाले ये सभी मॉड्यूल बड़े डेटा सेट के लिए वितरित प्रसंस्करण उत्पन्न करते हैं। Hadoop ढांचे में सरल प्रोग्रामिंग मॉडल का उपयोग किया जाता है, जिसे कंप्यूटर के समूहों में दोहराया जाता है, जिसका अर्थ है कि सिस्टम एकल सर्वर से हजारों की संख्या में बढ़े हुए प्रसंस्करण शक्ति के लिए, केवल हार्डवेयर पर निर्भर होने के बजाय स्केल कर सकता है।


हार्डवेयर जो बड़े डेटा के साथ काम करने के लिए आवश्यक प्रसंस्करण शक्ति की मात्रा को संभाल सकता है, महंगा है, इसे हल्के ढंग से डालने के लिए। यह Hadoop का सच्चा नवाचार है: विफलताओं को रोकने के लिए आवेदन स्तर पर अंतर्निहित अतिरेक के साथ-साथ कई स्थानीय मशीनों और प्रत्येक में अपने स्वयं के स्थानीय कम्प्यूटेशन और भंडारण के साथ भारी मात्रा में प्रसंस्करण शक्ति को तोड़ने की क्षमता।

Hadoop क्या करता है?

बस कहा जाता है, Hadoop बड़े डेटा को सुलभ और सभी के लिए उपयोगी बनाता है।


Hadoop से पहले, बड़े डेटा का उपयोग करने वाली कंपनियों ने ज्यादातर रिलेशनल डेटाबेस और एंटरप्राइज़ डेटा वेयरहाउस (जो महंगे हार्डवेयर का बड़े पैमाने पर उपयोग करते हैं) के साथ ऐसा किया था। जबकि ये उपकरण संरचित डेटा को संसाधित करने के लिए महान हैं - जो डेटा पहले से ही सॉर्ट और व्यवस्थित तरीके से व्यवस्थित है - असंरचित डेटा को संसाधित करने की क्षमता बेहद सीमित थी, इसलिए यह व्यावहारिक रूप से अस्तित्वहीन थी। प्रयोग करने योग्य होने के लिए, डेटा को पहले संरचित करना था ताकि यह बड़े करीने से तालिकाओं में फिट हो जाए।


Hadoop फ्रेमवर्क उस आवश्यकता को बदलता है, और सस्ते में ऐसा करता है। Hadoop के साथ, 10 से 100 गीगाबाइट्स और इससे अधिक के डेटा की संरचना, दोनों संरचित और असंरचित, को साधारण (कमोडिटी) सर्वर का उपयोग करके संसाधित किया जा सकता है।


Hadoop हर उद्योग में सभी आकार के व्यवसायों के लिए संभावित बड़े डेटा अनुप्रयोग लाता है। ओपन-सोर्स फ्रेमवर्क वित्त कंपनियों को पोर्टफोलियो मूल्यांकन और जोखिम विश्लेषण के लिए परिष्कृत मॉडल बनाने की अनुमति देता है, या ऑनलाइन खुदरा विक्रेताओं को उनके खोज उत्तरों को ठीक करने और ग्राहकों को उन उत्पादों की ओर इंगित करने के लिए है, जिन्हें वे खरीदने की अधिक संभावना रखते हैं।


Hadoop के साथ, संभावनाएं वास्तव में असीम हैं।

क्या $ @! हूप है?