घर ऑडियो Hadoop विश्लेषिकी: कई डेटा स्रोतों में इतना आसान नहीं है

Hadoop विश्लेषिकी: कई डेटा स्रोतों में इतना आसान नहीं है

विषयसूची:

Anonim

Hadoop एनालिटिक्स प्रोसेसिंग के लिए डेटा को ऑफ़लोड करने या किसी एकल डेटा स्रोत के बड़े वॉल्यूम को मॉडल करने के लिए एक शानदार जगह है जो मौजूदा सिस्टम के साथ संभव नहीं है। हालांकि, जैसा कि कंपनियां कई स्रोतों से डेटा को Hadoop में लाती हैं, विभिन्न स्रोतों में डेटा के विश्लेषण की बढ़ती मांग है, जिसे हासिल करना बेहद मुश्किल हो सकता है। यह पोस्ट तीन-भाग की श्रृंखला में पहली है, जो मुद्दों के संगठनों का वर्णन करती है, क्योंकि वे विभिन्न डेटा स्रोतों और प्रकारों का विश्लेषण करने का प्रयास करते हैं, और इन चुनौतियों को कैसे हल किया जाए। आज की पोस्ट उन समस्याओं पर केंद्रित है जो कई आंतरिक स्रोतों को मिलाते समय होती हैं। अगले दो पोस्ट बताते हैं कि ये समस्याएं जटिलता में क्यों बढ़ जाती हैं, क्योंकि बाहरी डेटा स्रोत जोड़े जाते हैं, और नए दृष्टिकोण उन्हें हल करने में कैसे मदद करते हैं।

विभिन्न स्रोतों से डेटा कनेक्ट और मैप करने के लिए मुश्किल है

विविध स्रोतों के डेटा में अलग-अलग संरचनाएं होती हैं, जो डेटा प्रकारों को एक साथ जोड़ना और मैप करना मुश्किल बनाती हैं, यहां तक ​​कि आंतरिक स्रोतों से डेटा भी। यदि ग्राहकों के पास कई खाता संख्या हैं या संगठन ने अन्य कंपनियों के साथ अधिग्रहण या विलय किया है, तो डेटा का संयोजन विशेष रूप से कठिन हो सकता है। पिछले कुछ वर्षों में, कुछ संगठनों ने Hadoop में संग्रहीत कई स्रोतों से डेटा का विश्लेषण करने के लिए डेटा खोज या डेटा विज्ञान अनुप्रयोगों का उपयोग करने का प्रयास किया है। यह दृष्टिकोण समस्याग्रस्त है क्योंकि इसमें बहुत अधिक अनुमान शामिल है: उपयोगकर्ताओं को यह तय करना होगा कि डेटा मॉडल ओवरले बनाते समय विभिन्न डेटा स्रोतों को जोड़ने के लिए कौन सी विदेशी कुंजियों का उपयोग करें और धारणाएं बनाएं। इन अनुमानों का परीक्षण करना कठिन है और जब पैमाने पर लागू किया जाता है, तो अक्सर गलत होता है, जिससे दोषपूर्ण डेटा विश्लेषण और स्रोतों का अविश्वास होता है।

Hadoop एक्सपर्ट्स एक साथ डाटा को मर्ज करने का प्रयास करते हैं

इसलिए, जो संगठन डेटा स्रोतों में डेटा का विश्लेषण करना चाहते हैं, उन्होंने डेटा सेट को एक साथ मर्ज करने के लिए कस्टम, स्रोत-विशिष्ट स्क्रिप्ट बनाने के लिए Hadoop विशेषज्ञों को काम पर रखने का सहारा लिया है। ये Hadoop विशेषज्ञ आमतौर पर डेटा एकीकरण या इकाई रिज़ॉल्यूशन विशेषज्ञ नहीं होते हैं, लेकिन वे संगठन की तात्कालिक ज़रूरतों को पूरा करने के लिए सबसे अच्छा काम करते हैं। ये विशेषज्ञ आमतौर पर कठिन या तेज़ नियमों को लिखने के लिए सुअर या जावा का उपयोग करते हैं जो यह निर्धारित करते हैं कि विशिष्ट स्रोतों से संरचित डेटा को कैसे संयोजित किया जाए, जैसे कि एक खाता संख्या के आधार पर रिकॉर्ड मिलान। एक बार दो स्रोतों के लिए एक स्क्रिप्ट लिखी गई है, अगर किसी तीसरे स्रोत को जोड़ने की आवश्यकता है, तो पहले स्क्रिप्ट को फेंकना होगा और तीन विशिष्ट स्रोतों को संयोजित करने के लिए डिज़ाइन की गई एक नई स्क्रिप्ट। यदि कोई अन्य स्रोत जोड़ा जाता है और इसी तरह से ऐसा ही होता है। न केवल यह दृष्टिकोण अक्षम है, बल्कि यह तब भी विफल हो जाता है जब बड़े पैमाने पर लागू किया जाता है, किनारे के मामलों को खराब तरीके से संभालता है, परिणामस्वरूप बड़ी संख्या में डुप्लिकेट रिकॉर्ड हो सकते हैं, और अक्सर कई रिकॉर्डों को मिलाते हैं जिन्हें संयुक्त नहीं किया जाना चाहिए।

Hadoop विश्लेषिकी: कई डेटा स्रोतों में इतना आसान नहीं है