विषयसूची:
- बिग डेटा कैसे उपयोग किया जाता है
- वास्तविक मूल्य कहां है?
- कभी-कभी छोटे डेटा एक बड़ा (और कम खर्चीला) प्रभाव डालता है
बिग डेटा एक कंबल शब्द है जिसका उपयोग डेटा की बड़ी मात्रा को संभालने के लिए किया जाता है। हम सभी समझते हैं कि डेटा की मात्रा जितनी अधिक होगी, यह उतना ही जटिल हो जाएगा। पारंपरिक डेटाबेस समाधान अक्सर उनकी जटिलता और आकार के कारण डेटा के बड़े संस्करणों को ठीक से प्रबंधित करने में विफल होते हैं। इसलिए, बड़ी मात्रा में डेटा का प्रबंधन और वास्तविक अंतर्दृष्टि को निकालना एक चुनौतीपूर्ण कार्य है। वही "मूल्य" अवधारणा छोटे डेटा पर भी लागू होती है।
बिग डेटा कैसे उपयोग किया जाता है
RDBMS अवधारणा पर आधारित परम्परागत डेटाबेस समाधान बहुत अच्छी तरह से लेनदेन डेटा का प्रबंधन कर सकते हैं और व्यापक रूप से विभिन्न अनुप्रयोगों में उपयोग किया जाता है। लेकिन जब डेटा का एक बड़ा सेट (डेटा जो संग्रहीत है और टेराबाइट्स या पेटाबाइट्स में है) को संभालने की बात आती है, तो ये डेटाबेस समाधान अक्सर विफल होते हैं। ये डेटा सेट बहुत बड़े हैं और ज्यादातर समय, वे पारंपरिक डेटाबेस की वास्तुकला में फिट नहीं होते हैं। इन दिनों, बड़े डेटा डेटा के बड़े सेट को संभालने के लिए एक लागत प्रभावी दृष्टिकोण बन गया है। संगठनात्मक दृष्टिकोण से, बड़े डेटा के उपयोग को निम्नलिखित श्रेणियों में विभाजित किया जा सकता है, जिसमें बड़े डेटा का वास्तविक मूल्य रहता है:- विश्लेषणात्मक उपयोग
बड़े डेटा के विश्लेषकों ने डेटा के कई महत्वपूर्ण छिपे हुए पहलुओं का खुलासा किया है जो प्रक्रिया के लिए बहुत महंगा हैं। उदाहरण के लिए, यदि हमें एक निश्चित नए विषय पर छात्रों की प्रवृत्ति रुचि की जांच करनी है, तो हम दैनिक उपस्थिति रिकॉर्ड और अन्य सामाजिक और भौगोलिक तथ्यों का विश्लेषण करके ऐसा कर सकते हैं। इन तथ्यों को डेटाबेस में कैद किया जाता है। यदि हम इस डेटा को एक कुशल तरीके से एक्सेस नहीं कर सकते हैं, तो हम परिणाम नहीं देख सकते हैं।
- नए उत्पाद सक्षम करें
हाल के दिनों में, फेसबुक जैसी कई नई वेब कंपनियों ने नए उत्पादों को लॉन्च करने के लिए एक समाधान के रूप में बड़े डेटा का उपयोग करना शुरू कर दिया है। हम सभी जानते हैं कि फेसबुक कितना लोकप्रिय है - इसने बड़े डेटा का उपयोग करके उच्च प्रदर्शन वाले उपयोगकर्ता अनुभव को सफलतापूर्वक तैयार किया है।
वास्तविक मूल्य कहां है?
अलग-अलग बड़े डेटा समाधान उस दृष्टिकोण में भिन्न होते हैं जिसमें वे डेटा संग्रहीत करते हैं, लेकिन अंत में, वे सभी डेटा को एक फ्लैट फ़ाइल संरचना में संग्रहीत करते हैं। सामान्य तौर पर, Hadoop में फ़ाइल सिस्टम और कुछ ऑपरेटिंग-सिस्टम-स्तरीय डेटा सार होते हैं। इसमें एक MapReduce इंजन और Hadoop डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (HDFS) शामिल है। एक साधारण Hadoop क्लस्टर में एक मास्टर नोड और कई कार्यकर्ता नोड्स शामिल हैं। मास्टर नोड में निम्नलिखित शामिल हैं:- टास्क ट्रैकर
- नौकरी ट्रैकर
- नाम नोड
- डेटा नोड
- टास्क ट्रैकर
- डेटा नोड
कुछ कार्यान्वयन में केवल डेटा नोड है। डेटा नोड वास्तविक क्षेत्र है जहां डेटा निहित है। HDFS कई मशीनों में वितरित बड़ी फ़ाइलों (टेराबाइट्स से पेटाबाइट्स की सीमा में) को संग्रहीत करता है। प्रत्येक होस्ट पर डेटा की प्रतिकृति बनाकर प्रत्येक नोड पर डेटा की विश्वसनीयता प्राप्त की जाती है। इस प्रकार, डेटा तब भी उपलब्ध होता है जब नोड में से एक नीचे होता है। इससे प्रश्नों के प्रति तीव्र प्रतिक्रिया प्राप्त करने में मदद मिलती है। फेसबुक जैसे विशाल अनुप्रयोगों के मामले में यह अवधारणा बहुत उपयोगी है। एक उपयोगकर्ता के रूप में, हमें अपने चैट अनुरोध का जवाब मिलता है, उदाहरण के लिए, लगभग तुरंत। एक परिदृश्य पर विचार करें जहां एक उपयोगकर्ता को चैट करते समय लंबे समय तक इंतजार करना पड़ता है। यदि संदेश और उसके बाद की प्रतिक्रिया तुरंत वितरित नहीं की जाती है, तो वास्तव में कितने लोग इन चैटिंग टूल का उपयोग करेंगे?
फेसबुक कार्यान्वयन पर वापस जा रहा है, यदि डेटा क्लस्टर में दोहराया नहीं गया है, तो एक आकर्षक कार्यान्वयन होना संभव नहीं होगा। Hadoop एक बड़े क्लस्टर में मशीनों में डेटा वितरित करता है, और ब्लॉक के अनुक्रम के रूप में फ़ाइलों को संग्रहीत करता है। ये ब्लॉक अंतिम ब्लॉक को छोड़कर समान आकार के होते हैं। ब्लॉक और प्रतिकृति कारक का आकार आवश्यकतानुसार अनुकूलित किया जा सकता है। HDFS की फाइलें राइट-वन्स अप्रोच का सख्ती से पालन करती हैं और इसलिए इसे केवल एक समय में एक उपयोगकर्ता द्वारा लिखा या संपादित किया जा सकता है। ब्लॉकों के प्रतिकृति के संबंध में निर्णय नाम नोड द्वारा किए जाते हैं। नाम नोड प्रत्येक डेटा नोड से रिपोर्ट और पल्स प्रतिक्रिया प्राप्त करता है। नाड़ी प्रतिक्रियाएं संबंधित डेटा नोड की उपलब्धता सुनिश्चित करती हैं। रिपोर्ट में डेटा नोड पर ब्लॉक का विवरण है।
एक और बड़ा डेटा कार्यान्वयन, कैसेंड्रा भी एक समान वितरण अवधारणा का उपयोग करता है। कैसेंड्रा भौगोलिक स्थिति के आधार पर डेटा वितरित करता है। इसलिए, कैसंड्रा में, डेटा उपयोग की भौगोलिक स्थिति के आधार पर डेटा को अलग किया जाता है।
कभी-कभी छोटे डेटा एक बड़ा (और कम खर्चीला) प्रभाव डालता है
ओपन नॉलेज फाउंडेशन के रुफस पोलक के अनुसार, बड़े डेटा के आसपास प्रचार बनाने का कोई मतलब नहीं है, जबकि छोटा डेटा अभी भी वह जगह है जहां वास्तविक मूल्य निहित है।
जैसा कि नाम से पता चलता है, छोटा डेटा, डेटा के एक बड़े सेट से लक्षित डेटा का एक समूह है। छोटा डेटा डेटा उपयोग से फ़ोकस को स्थानांतरित करने का इरादा रखता है और इसका उद्देश्य बड़े डेटा की ओर बढ़ने के रुझान का मुकाबला करना है। छोटा डेटा दृष्टिकोण कम प्रयास का उपयोग करके विशिष्ट आवश्यकताओं के आधार पर डेटा इकट्ठा करने में मदद करता है। नतीजतन, यह व्यापार खुफिया को लागू करते समय अधिक कुशल व्यवसाय अभ्यास है।
इसके मूल में, छोटे डेटा की अवधारणा उन व्यवसायों के इर्द-गिर्द घूमती है, जिन्हें ऐसे परिणामों की आवश्यकता होती है जो आगे के कार्यों की आवश्यकता होती है। इन परिणामों को जल्दी लाने की आवश्यकता है और बाद की कार्रवाई को भी तुरंत निष्पादित किया जाना चाहिए। इस प्रकार, हम बड़े डेटा एनालिटिक्स में आमतौर पर उपयोग किए जाने वाले सिस्टम के प्रकार को समाप्त कर सकते हैं।
सामान्य तौर पर, अगर हम कुछ विशिष्ट प्रणालियों पर विचार करते हैं जो बड़े डेटा अधिग्रहण के लिए आवश्यक हैं, तो एक कंपनी बहुत सारे सर्वर स्टोरेज स्थापित करने में निवेश कर सकती है, परिष्कृत हाई-एंड सर्वर का उपयोग कर सकती है और डेटा के विभिन्न बिट्स को संभालने के लिए नवीनतम डेटा माइनिंग एप्लिकेशन का उपयोग कर सकती है।, जिसमें उपयोगकर्ता क्रियाओं, जनसांख्यिकीय जानकारी और अन्य जानकारी शामिल हैं। यह संपूर्ण डेटा सेट एक केंद्रीय डेटा वेयरहाउस में जाता है, जहाँ विस्तृत रिपोर्ट के रूप में प्रदर्शित करने के लिए डेटा को सॉर्ट करने और संसाधित करने के लिए जटिल एल्गोरिदम का उपयोग किया जाता है।
हम सभी जानते हैं कि इन समाधानों ने स्केलेबिलिटी और उपलब्धता के मामले में कई व्यवसायों को लाभान्वित किया है; ऐसे संगठन हैं जो पाते हैं कि इन दृष्टिकोणों को अपनाने के लिए पर्याप्त प्रयास की आवश्यकता होती है। यह भी सच है कि कुछ मामलों में, कम-मजबूत डेटा माइनिंग रणनीति का उपयोग करके समान परिणाम प्राप्त किए जाते हैं।
लघु डेटा संगठनों के लिए नवीनतम और नवीनतम तकनीकों के साथ जुनून से वापस आने का एक तरीका प्रदान करता है जो अधिक परिष्कृत व्यापार प्रक्रियाओं का समर्थन करते हैं। छोटे डेटा को बढ़ावा देने वाली कंपनियों का तर्क है कि अपने संसाधनों का कुशल तरीके से उपयोग करने के लिए व्यापार के दृष्टिकोण से यह महत्वपूर्ण है, ताकि तकनीक पर निगरानी करने से कुछ हद तक बचा जा सके।
हमने बड़े डेटा और छोटी डेटा वास्तविकताओं के बारे में बहुत चर्चा की है, लेकिन हमें यह समझना चाहिए कि सही प्लेटफ़ॉर्म (बड़ा डेटा या छोटा डेटा) का सही उपयोग करना पूरे अभ्यास का सबसे महत्वपूर्ण हिस्सा है। और सच्चाई यह है कि जबकि बड़ा डेटा बहुत सारे लाभ प्रदान कर सकता है, यह हमेशा सबसे अच्छा नहीं होता है।
