विषयसूची:
- विभिन्न स्रोतों से डेटा कनेक्ट और मैप करने के लिए मुश्किल है
- Hadoop एक्सपर्ट्स एक साथ डाटा को मर्ज करने का प्रयास करते हैं
Hadoop एनालिटिक्स प्रोसेसिंग के लिए डेटा को ऑफ़लोड करने या किसी एकल डेटा स्रोत के बड़े वॉल्यूम को मॉडल करने के लिए एक शानदार जगह है जो मौजूदा सिस्टम के साथ संभव नहीं है। हालांकि, जैसा कि कंपनियां कई स्रोतों से डेटा को Hadoop में लाती हैं, विभिन्न स्रोतों में डेटा के विश्लेषण की बढ़ती मांग है, जिसे हासिल करना बेहद मुश्किल हो सकता है। यह पोस्ट तीन-भाग की श्रृंखला में पहली है, जो मुद्दों के संगठनों का वर्णन करती है, क्योंकि वे विभिन्न डेटा स्रोतों और प्रकारों का विश्लेषण करने का प्रयास करते हैं, और इन चुनौतियों को कैसे हल किया जाए। आज की पोस्ट उन समस्याओं पर केंद्रित है जो कई आंतरिक स्रोतों को मिलाते समय होती हैं। अगले दो पोस्ट बताते हैं कि ये समस्याएं जटिलता में क्यों बढ़ जाती हैं, क्योंकि बाहरी डेटा स्रोत जोड़े जाते हैं, और नए दृष्टिकोण उन्हें हल करने में कैसे मदद करते हैं।
विभिन्न स्रोतों से डेटा कनेक्ट और मैप करने के लिए मुश्किल है
विविध स्रोतों के डेटा में अलग-अलग संरचनाएं होती हैं, जो डेटा प्रकारों को एक साथ जोड़ना और मैप करना मुश्किल बनाती हैं, यहां तक कि आंतरिक स्रोतों से डेटा भी। यदि ग्राहकों के पास कई खाता संख्या हैं या संगठन ने अन्य कंपनियों के साथ अधिग्रहण या विलय किया है, तो डेटा का संयोजन विशेष रूप से कठिन हो सकता है। पिछले कुछ वर्षों में, कुछ संगठनों ने Hadoop में संग्रहीत कई स्रोतों से डेटा का विश्लेषण करने के लिए डेटा खोज या डेटा विज्ञान अनुप्रयोगों का उपयोग करने का प्रयास किया है। यह दृष्टिकोण समस्याग्रस्त है क्योंकि इसमें बहुत अधिक अनुमान शामिल है: उपयोगकर्ताओं को यह तय करना होगा कि डेटा मॉडल ओवरले बनाते समय विभिन्न डेटा स्रोतों को जोड़ने के लिए कौन सी विदेशी कुंजियों का उपयोग करें और धारणाएं बनाएं। इन अनुमानों का परीक्षण करना कठिन है और जब पैमाने पर लागू किया जाता है, तो अक्सर गलत होता है, जिससे दोषपूर्ण डेटा विश्लेषण और स्रोतों का अविश्वास होता है।
Hadoop एक्सपर्ट्स एक साथ डाटा को मर्ज करने का प्रयास करते हैं
इसलिए, जो संगठन डेटा स्रोतों में डेटा का विश्लेषण करना चाहते हैं, उन्होंने डेटा सेट को एक साथ मर्ज करने के लिए कस्टम, स्रोत-विशिष्ट स्क्रिप्ट बनाने के लिए Hadoop विशेषज्ञों को काम पर रखने का सहारा लिया है। ये Hadoop विशेषज्ञ आमतौर पर डेटा एकीकरण या इकाई रिज़ॉल्यूशन विशेषज्ञ नहीं होते हैं, लेकिन वे संगठन की तात्कालिक ज़रूरतों को पूरा करने के लिए सबसे अच्छा काम करते हैं। ये विशेषज्ञ आमतौर पर कठिन या तेज़ नियमों को लिखने के लिए सुअर या जावा का उपयोग करते हैं जो यह निर्धारित करते हैं कि विशिष्ट स्रोतों से संरचित डेटा को कैसे संयोजित किया जाए, जैसे कि एक खाता संख्या के आधार पर रिकॉर्ड मिलान। एक बार दो स्रोतों के लिए एक स्क्रिप्ट लिखी गई है, अगर किसी तीसरे स्रोत को जोड़ने की आवश्यकता है, तो पहले स्क्रिप्ट को फेंकना होगा और तीन विशिष्ट स्रोतों को संयोजित करने के लिए डिज़ाइन की गई एक नई स्क्रिप्ट। यदि कोई अन्य स्रोत जोड़ा जाता है और इसी तरह से ऐसा ही होता है। न केवल यह दृष्टिकोण अक्षम है, बल्कि यह तब भी विफल हो जाता है जब बड़े पैमाने पर लागू किया जाता है, किनारे के मामलों को खराब तरीके से संभालता है, परिणामस्वरूप बड़ी संख्या में डुप्लिकेट रिकॉर्ड हो सकते हैं, और अक्सर कई रिकॉर्डों को मिलाते हैं जिन्हें संयुक्त नहीं किया जाना चाहिए।
