घर हार्डवेयर बड़ा लोहा, बड़े डेटा को पूरा: हडूप और स्पार्क के साथ मेनफ्रेम डेटा को मुक्त करना

बड़ा लोहा, बड़े डेटा को पूरा: हडूप और स्पार्क के साथ मेनफ्रेम डेटा को मुक्त करना

Anonim

टेकोपेडिया स्टाफ द्वारा, 2 जून 2016

Takeaway: Hadoop इकोसिस्टम का उपयोग मेनफ्रेम पर बड़े डेटा को जल्दी और कुशलता से संसाधित करने के लिए किया जा रहा है।

आप वर्तमान में लॉग इन नहीं हैं। वीडियो देखने के लिए कृपया लॉग-इन या साइन-अप करें।

एरिक कवानघ: ठीक है लेडीज़ और सज्जनों, यह गुरुवार को चार बजे पूर्वी है, और इन दिनों इसका मतलब है कि यह हॉट टेक्नोलॉजीज के लिए निश्चित समय है। हां वास्तव में, मेरा नाम एरिक कवनघ है। मैं आज के वेब सेमिनार के लिए आपका संचालक बनूंगा। यह अच्छी चीजें हैं, दोस्तों, "बिग आयरन, बिग डेटा से मिलो" - मुझे सिर्फ उस हेडलाइन से प्यार है - "हडॉप और स्पार्क के साथ मेनफ्रेम डेटा को लिबरेट करना।" हम पुराने के बारे में बात करने जा रहे हैं नए मिलते हैं। वाह! हम सब कुछ के बारे में बात कर रहे हैं, जो हमने पिछले 50 वर्षों के उद्यम IT में किया है। स्पार्क मेनफ्रेम से मिलता है, मुझे यह पसंद है।

तुम्हारे बारे में एक जगह सही मायने में और मेरे बारे में पर्याप्त है। साल गर्म है। हम इस श्रृंखला में गर्म विषयों के बारे में बात करते हैं क्योंकि हम वास्तव में लोगों को कुछ विषयों, कुछ रिक्त स्थान को समझने में मदद करने की कोशिश कर रहे हैं। उदाहरण के लिए, इसका एक विश्लेषणात्मक मंच क्या है? मेनफ्रेम से बड़े डेटा को मुक्त करने का क्या मतलब है? इस सारे सामान का क्या मतलब है? हम आपको विशिष्ट प्रकार की तकनीकों को समझने में मदद करने की कोशिश कर रहे हैं, जहां वे मिश्रण में फिट होते हैं और आप उनका उपयोग कैसे कर सकते हैं।

हमारे पास आज और तब Syncsort के Tendü Yogurtçu के दो विश्लेषक हैं। वह हमारे अंतरिक्ष में एक दूरदर्शी है, आज उसे हमारे ऑनलाइन Dez Blanchfield और डॉ। रॉबिन ब्लर के साथ बहुत खुशी हुई। मैं त्वरित शब्दों के एक जोड़े को कहूंगा। एक यह है कि, लोग, आप इस प्रक्रिया में एक बड़ी भूमिका निभाते हैं, इसलिए कृपया कुछ अच्छे प्रश्न पूछने में संकोच न करें। हम उन्हें वेबकास्ट के क्यू एंड ए घटक के दौरान प्राप्त करना चाहते हैं, जो आमतौर पर शो के अंत में होता है। और मुझे केवल इतना कहना है कि हमें बहुत अच्छी सामग्री मिली है, इसलिए मैं ये सुनने के लिए उत्साहित हूं कि इन लड़कों को क्या कहना है। और इसके साथ, मैं इसे डीज़ ब्लांचफील्ड को सौंपने जा रहा हूं। डीज़, मंजिल तुम्हारी है, इसे हटा लो।

Dez Blanchfield: धन्यवाद, एरिक, और आज भाग लेने के लिए आप सभी को धन्यवाद। इसलिए मैं काफी उत्साहित हूं जब मुझे दुनिया में अपनी पसंदीदा चीजों में से एक, मेनफ्रेम के बारे में बात करने का मौका मिलता है। उन्हें इन दिनों बहुत प्यार नहीं मिलता है। मेरा विचार है कि मेनफ्रेम मूल बड़ा डेटा प्लेटफ़ॉर्म था। कुछ लोग यह तर्क देंगे कि वे उस समय केवल कंप्यूटर थे और यह एक उचित बिंदु है, लेकिन 60 वर्षों से अधिक समय से वे वास्तव में इंजन कक्ष रहे हैं कि बड़े डेटा का देर से होना कितना लोकप्रिय है। और मैं आपको थोड़ी यात्रा पर ले जाऊंगा कि मैं ऐसा क्यों मानता हूं।

हमने उस छवि से मेनफ्रेम शिफ्ट के संदर्भ में प्रौद्योगिकी हार्डवेयर ढेर में एक यात्रा देखी है जिसे आप अब स्क्रीन पर देखते हैं। यह एक पुरानी FACOM मेनफ्रेम है, जो मेरे पसंदीदा में से एक है। हम खुद को बड़े लोहे के चरण, देर से नब्बे के दशक और डॉट-कॉम बूम में ले गए हैं। यह सन माइक्रोसिस्टम्स E10000 है। यह चीज़ 96 सीपीयू में एक निरपेक्ष राक्षस थी। मूल रूप से 64 लेकिन इसे 96 सीपीयू में अपग्रेड किया जा सकता था। प्रत्येक सीपीयू 1, 024 धागे चला सकता है। प्रत्येक धागा एक ही समय में आवेदन दर पर हो सकता है। यह सिर्फ राक्षसी थी और इसने वास्तव में डॉट-कॉम बूम को संचालित किया। यह सभी बड़ी इकाइयां हैं जैसा कि हम उन्हें कहते हैं, अब हम चल रहे हैं, और न केवल बड़े उद्यम, कुछ बड़ी वेबसाइटें।

और फिर हम इस सामान्य ऑफ-द-शेल्फ उत्पाद पीसी मॉडल के साथ समाप्त हो गए। हमने बहुत सारी सस्ती मशीनों को एक साथ जोड़ दिया और हमने एक क्लस्टर बनाया और हमने बड़ी लोहे की चुनौती का सामना किया और विशेष रूप से हादोप परियोजना के रूप में बड़ा डेटा बन गया जिसने ओपन सोर्स सर्च इंजन, नच को बाहर कर दिया। और हमने अनिवार्य रूप से मेनफ्रेम और बहुत सारे सीपीयू को एक साथ चिपकाया जा रहा है और एल-पाथ्स की तरह काम करने में सक्षम है और अलग-अलग नौकरियों या नौकरियों के कुछ हिस्सों को चलाने के रूप में और वे कई मायनों में काफी प्रभावी थे। सस्ता अगर आप छोटे बाहर शुरू कर दिया, लेकिन हमेशा इन बड़े समूहों में से कई एक मेनफ्रेम की तुलना में अधिक महंगा हो गया है।

इन चीजों के बारे में मेरा विचार यह है कि वेब 2.0 बन गई और अब यूनिकॉर्न का पीछा करते हुए डॉट-कॉम बूम से भीड़ में, हम भूल गए हैं कि यह प्लेटफॉर्म अभी भी हमारे कई सबसे बड़े मिशन-क्रिटिकल सिस्टम को वहां से हटा रहा है। जब हम सोचते हैं कि मेनफ्रेम प्लेटफॉर्म पर क्या चल रहा है। यह बहुत बड़ा डेटा है, विशेष रूप से डेटा वर्कहॉर्स, लेकिन निश्चित रूप से बड़ा डेटा। विशेष रूप से बैंकिंग और धन प्रबंधन और बीमा जैसे पारंपरिक उद्यम और हम सभी हर दिन का उपयोग करते हैं।

एयरलाइन बुकिंग और उड़ान प्रबंधन प्रणाली, विशेष रूप से उड़ान प्रबंधन जहां वास्तविक समय महत्वपूर्ण है। लगभग हर राज्य और संघीय सरकार ने किसी समय मेनफ्रेम किया था और अब भी कई लोग उनके पास नहीं हैं। खुदरा और विनिर्माण। कुछ पुराने सॉफ्टवेयर जो अभी आसपास हैं और कभी दूर नहीं गए हैं। बस बिजली विनिर्माण वातावरण और निश्चित रूप से खुदरा पैमाने पर जारी है। चिकित्सा प्रणाली। रक्षा प्रणाली, निश्चित रूप से रक्षा प्रणाली।

पिछले कुछ हफ्तों में मैंने इस तथ्य के बारे में कई लेख पढ़े हैं कि कुछ मिसाइल नियंत्रण प्रणाली अभी भी पुराने मेनफ्रेम पर चल रही हैं, जिनके लिए वे भागों को खोजने के लिए संघर्ष कर रहे हैं। वे समझ रहे हैं कि नए मेनफ्रेम में कैसे अपग्रेड किया जाए। परिवहन और रसद प्रणाली। ये सेक्सी विषयों की तरह नहीं लग सकते हैं, लेकिन ये ऐसे विषय हैं जिन्हें हम लाइनों के पार दैनिक आधार पर देखते हैं। और कुछ बहुत बड़े दूरसंचार वातावरण अभी भी मेनफ्रेम प्लेटफार्मों पर चलाए जाते हैं।

जब आप डेटा के प्रकारों के बारे में सोचते हैं, तो वे सभी मिशन महत्वपूर्ण हैं। वे वास्तव में महत्वपूर्ण प्लेटफ़ॉर्म और प्लेटफ़ॉर्म हैं जिन्हें हम हर दिन प्रदान करते हैं और कई मायनों में जीवन को संभव बनाते हैं। तो कौन अभी भी एक मेनफ्रेम का उपयोग कर रहा है और ये सभी लोग कौन हैं जो इन बड़े प्लेटफार्मों को पकड़ रहे हैं और यह सभी डेटा पकड़े हुए हैं? खैर, जैसा कि मैंने यहां कहा कि मेरा मानना ​​है कि मीडिया की बड़ी-बड़ी आयरन से लेकर ऑफ-द-शेल्फ क्लस्टर्स या सस्ते पीसी या x86 मशीनों के रैक तक पहुंचना आसान है, यह सोचकर कि मेनफ्रेम मर गया और चला गया। लेकिन डेटा का कहना है कि मेनफ्रेम कभी दूर नहीं हुआ और वास्तव में यह यहाँ रहने के लिए है।

मैंने पिछले कुछ हफ़्तों में यहां जो शोध किया है, उससे पता चला है कि 70 प्रतिशत उद्यम, विशेष रूप से बड़े उद्यम, डेटा अभी भी वास्तव में किसी न किसी रूप के मेनफ्रेम पर रहते हैं। फॉर्च्यून 500 के सत्तर प्रतिशत अभी भी मेनफ्रेम पर कहीं न कहीं कोर बिजनेस सिस्टम चलाते हैं। वास्तव में, यहां ऑस्ट्रेलिया में, हमारे पास कई संगठन हैं जो एक शहर के बीच में एक डेटा सेंटर है। यह प्रभावी रूप से एक वास्तविक भूमिगत कंप्यूटर है, और मेनफ्रेम की संख्या बस वहां चल रही है, टिक कर रही है और खुशी से अपना काम कर रही है। और बहुत कम लोग जानते हैं कि शहर के एक विशेष हिस्से में अपने पैरों के नीचे सड़कों के चारों ओर घूमना, मेनफ्रेम से भरा यह विशाल डेटा सेंटर है। दुनिया भर के 100 बैंकों में से निन्यानबे, शीर्ष 100 बैंक जो अभी भी मेनफ्रेम पर बैंकिंग सिस्टम चलाते हैं। दुनिया भर में शीर्ष 25 खुदरा श्रृंखलाओं में से तीन तेईस अभी भी ईआईपी और बीआई प्लेटफार्मों में अपने खुदरा प्रबंधन सिस्टम को चलाने के लिए मेनफ्रेम का उपयोग करते हैं।

दिलचस्प रूप से पर्याप्त है, शीर्ष 10 बीमाकर्ताओं में से 10 अभी भी मेनफ़्रेम पर अपने प्लेटफ़ॉर्म चलाते हैं, और वे वास्तव में मेनफ़्रेम पर अपनी क्लाउड सेवाओं को शक्ति देते हैं। यदि आप एक वेब इंटरफेस या एक मोबाइल ऐप का उपयोग कर रहे हैं, तो कहीं मिडलवेयर एक इंटरफ़ेस है, जो वास्तव में पीछे के अंत में वास्तव में भारी और बड़ी चीज से बात करता है।

मैंने 225 से अधिक राज्य और स्थानीय सरकारी एजेंसियों को दुनिया भर में मेनफ्रेम प्लेटफार्मों पर अभी भी पाया। मुझे यकीन है कि इसके लिए बहुत सारे कारण हैं। हो सकता है कि उनके पास नए लोहे पर विचार करने के लिए बजट न हो, लेकिन यह कुछ बहुत ही महत्वपूर्ण डेटा के साथ मेनफ्रेम पर चल रहे बहुत बड़े वातावरण का एक विशाल पदचिह्न है। और जैसा कि मैंने पहले उल्लेख किया है, अधिकांश देश अभी भी मेनफ्रेम पर अपनी प्रमुख रक्षा प्रणाली चलाते हैं। मुझे यकीन है कि कई मायनों में वे वहाँ से हटने की कोशिश कर रहे हैं लेकिन आप वहाँ जाते हैं।

2015 में IDC ने एक सर्वेक्षण चलाया और CIO के 350 सर्वेक्षणों में बताया गया कि वे अभी भी स्वामित्व रखते हैं और मेनफ्रेम के रूप में बड़े लोहे का प्रबंधन करते हैं। और इसने मुझे मारा कि यह संभावना है कि यह बड़े पैमाने पर होदोप क्लस्टर की संख्या से अधिक है जो वर्तमान में उत्पादन में दुनिया भर में चल रहा है - एक दिलचस्प छोटी सी मूर्ति। मैं आगे जा रहा हूं और इसे मान्य कर रहा हूं, लेकिन यह एक बड़ी संख्या थी। तीन सौ पचास सीआईओ ने बताया कि उनके पास एक या एक से अधिक मेनफ्रेम अभी भी उत्पादन में हैं।

पिछले साल, 2015 में, आईबीएम ने हमें ताकतवर Z13, उनके मेनफ्रेम प्लेटफॉर्म का 13 वां पुनरावृत्ति दिया। इस बात को लेकर मीडिया बवाल मच गया क्योंकि वे चकित थे कि आईबीएम अभी भी मेनफ्रेम बना रहा था। जब उन्होंने हुड उठा लिया और उस चीज़ के नीचे एक नज़र थी, तो उन्होंने महसूस किया कि यह वास्तव में लगभग हर आधुनिक मंच के साथ सममूल्य पर था जिसे हम बड़े डेटा, हडोप और निश्चित रूप से क्लस्टर के रूप में उत्साहित करेंगे। यह बात स्पार्क और अब हडोप मूल रूप से चलाती थी। आप उस पर हजारों और हजारों लिनक्स मशीनें चला सकते हैं और यह किसी भी अन्य क्लस्टर की तरह दिखता है और महसूस होता है। यह काफी अचरज वाली मशीन थी।

कई संगठनों ने इन चीजों को उठाया और वास्तव में मैंने इन मशीनों में से कितने पर काम कर रहा है, इसके बारे में कुछ आंकड़े दिए हैं। अब मेरा विचार है कि 3270 टेक्स्ट टर्मिनल को कुछ समय के लिए वेब ब्राउज़र और मोबाइल ऐप द्वारा बदल दिया गया है और इसमें बहुत सारा डेटा है जो इसका समर्थन करता है। मुझे लगता है कि अब हम एक ऐसे युग में प्रवेश कर रहे हैं, जहां हमने महसूस किया है कि ये मेनफ्रेम दूर नहीं हो रहे हैं और इन पर पर्याप्त मात्रा में डेटा है। और इसलिए अब जो हम कर रहे हैं, वह बस वही है जिसे मैं ऑफ-द-शेल्फ एनालिटिक्स टूल कहता हूं। ये कस्टम-बिल्ट ऐप नहीं हैं। ये ऐसी चीजें हैं जो एकतरफा होती हैं। ये ऐसी चीजें हैं जो आप सचमुच प्रति पैकेट पैक बॉक्स में खरीद सकते हैं और अपने मेनफ्रेम में प्लग कर सकते हैं और कुछ एनालिटिक्स कर सकते हैं।

जैसा कि मैंने पहले कहा था, मेनफ्रेम 60 वर्षों से अधिक समय तक रहा है, वास्तव में। जब हम सोचते हैं कि यह कितना लंबा है, तो यह सबसे अधिक जीवित आईटी पेशेवरों के करियर की तुलना में अधिक है। और वास्तव में शायद उनके जीवन के कुछ, यहां तक ​​कि। 2002 में आईबीएम ने 2, 300 मेनफ्रेम बेचे। 2013 में यह बढ़कर 2, 700 मेनफ्रेम हो गया। 2013 में एक वर्ष में मेनफ्रेम की 2, 700 बिक्री हुई। मुझे 2015 का सटीक डेटा नहीं मिला, लेकिन मुझे लगता है कि यह 2015, 2013 में एक साल में 3, 000 यूनिट की बिक्री के करीब पहुंच रहा है। और मैं इसकी पुष्टि करने में सक्षम हूं।

Z13 की रिलीज़ के साथ, मेनफ्रेम प्लेटफ़ॉर्म का 13 वां पुनरावृत्ति, जो मुझे लगता है कि उन्हें स्क्रैच से विकसित करने के लिए लगभग 1.2 या 1.3 बिलियन डॉलर की लागत आई है, आईबीएम, यहाँ एक मशीन है जो किसी भी अन्य क्लस्टर की तरह दिखता है और महसूस करता है हमारे पास आज है, और मूल रूप से Hadoop और Spark चलाता है। और निश्चित रूप से अन्य एनालिटिक्स और बड़े डेटा टूल से कनेक्ट किया जा सकता है या आपके मौजूदा या नए Hadoop समूहों में से किसी एक से जुड़ा हो सकता है। मेरा यह विचार है कि आपकी बड़ी डेटा रणनीति में मेनफ्रेम प्लेटफॉर्म भी शामिल है। जाहिर है, अगर आपके पास एक है, तो आपके पास बहुत अधिक डेटा है और आप यह पता लगाना चाहते हैं कि इसे वहां से कैसे निकाला जाए। और वे कई मायनों में धूल जमा करने के लिए छोड़ दिए जा रहे हैं, मानसिक और भावनात्मक रूप से जहां तक ​​व्यापार की दुनिया जाती है, लेकिन वे यहां रहने के लिए हैं।

मुख्य-होस्ट किए गए डेटा के लिए आपके सभी एनालिटिक्स टूल के लिए कनेक्टिविटी और इंटरफेस आपके उद्यम और विशेष रूप से सरकार की बड़ी डेटा योजनाओं का एक महत्वपूर्ण हिस्सा होना चाहिए। और वास्तव में अब सॉफ्टवेयर उन्हें नोटिस कर रहा है, उन पर एक अच्छी लंबी नज़र डाल रहा है और महसूस कर रहा है कि इन चीज़ों के अंदर क्या है और दिमागों को जोड़ने के लिए जो वास्तव में हुड के नीचे थोड़ी अंतर्दृष्टि और थोड़ा सा महसूस करना शुरू करते हैं। और इसके साथ ही मैं अपने प्रिय सहयोगी, डॉ। रॉबिन ब्लोर को सौंपने जा रहा हूं और वह उस छोटी सी यात्रा में शामिल होंगे। रॉबिन, इसे दूर ले जाओ।

रॉबिन ब्लर: ठीक है, धन्यवाद। ठीक है, चूंकि अच्छी तरह से डीज़ ने मेनफ्रेम का गीत गाया है, इसलिए मुझे लगता है कि मुझे लगता है कि पुरानी मेनफ्रेम दुनिया और नई हडोप दुनिया के संदर्भ में क्या हो रहा है। मुझे लगता है कि बड़ा सवाल यह है कि आप उस डेटा का प्रबंधन कैसे करते हैं? यह मेरी राय नहीं है कि मेनफ्रेम को इसकी बड़ी डेटा क्षमता के संबंध में चुनौती दी जा रही है - इसकी बड़ी डेटा क्षमता अत्यंत है, जैसा कि डीज़ ने बताया है, यह बेहद सक्षम है। वास्तविक तथ्य में आप इस पर Hadoop क्लस्टर्स डाल सकते हैं। जहां इसे चुनौती दी जा रही है वह इसके पारिस्थितिकी तंत्र के संदर्भ में है और मैं इस पर विस्तृत जानकारी दूंगा।

यहाँ कुछ मेनफ्रेम पोजिशनिंग है। इसकी उच्च प्रविष्टि लागत है और वास्तव में अतीत में क्या हुआ है, मध्य -90 के दशक के बाद से जब मेनफ्रेम की लोकप्रियता को कम करना शुरू हो गया था, तो इसका कम अंत खो दिया गया था, उन लोगों ने जो सस्ते मेनफ्रेम खरीदे थे और यह नहीं था उन लोगों के लिए वास्तव में विशेष रूप से आर्थिक नहीं है। लेकिन वास्तव में मध्य-सीमा और उच्च-सीमा में मेनफ्रेम के उच्च स्तर पर यह अभी भी वास्तव में था, और वास्तव में अविश्वसनीय रूप से महत्वपूर्ण कंप्यूटिंग है।

यह कहा जाना था, लिनक्स द्वारा बचाया क्योंकि लिनक्स एक मेनफ्रेम पर कार्यान्वित किया गया यह निश्चित रूप से लिनक्स के सभी अनुप्रयोगों को चलाने के लिए संभव बनाता है। लिनक्स के बहुत से एप्लिकेशन वहां गए थे इससे पहले कि बड़ा डेटा एक शब्द भी था, या दो शब्द जो मुझे लगता है। यह वास्तव में निजी क्लाउड के लिए एक काफी उत्कृष्ट मंच है। इसकी वजह से यह हाइब्रिड क्लाउड परिनियोजन में भाग ले सकता है। समस्याओं में से एक यह है कि मेनफ्रेम कौशल कम आपूर्ति में हैं। जो मेनफ्रेम स्किल्स मौजूद हैं, वे वास्तव में इस मायने में बूढ़े हैं कि लोग साल-दर-साल रिटायरमेंट के लिए इंडस्ट्री छोड़ते हैं और उन्हें सिर्फ लोगों की संख्या के हिसाब से बदला जा रहा है। तो यह एक मुद्दा है। लेकिन यह अभी भी सस्ती कंप्यूटिंग है।

जिस क्षेत्र को निश्चित रूप से चुनौती दी गई है, वह इस पूरे हडूप की बात है। यह मूल Hadoop हाथी के साथ डौग कटिंग की एक तस्वीर है। Hadoop पारिस्थितिकी तंत्र है - और यह बना रहने वाला है - प्रमुख बड़ा डेटा पारिस्थितिकी तंत्र। यह मेनफ्रेम की तुलना में बेहतर पैमाना प्रदान करता है जो वास्तव में हासिल कर सकता है और यह लंबे समय तक डेटा स्टोर के रूप में कम लागत है। Hadoop पारिस्थितिकी तंत्र विकसित हो रहा है। इसके बारे में सोचने का सबसे अच्छा तरीका एक बार एक विशेष हार्डवेयर प्लेटफॉर्म है और इसके साथ ऑपरेटिंग वातावरण प्रमुख हो जाता है, फिर पारिस्थितिक तंत्र जीवित हो जाता है। और यह आईबीएम मेनफ्रेम के साथ हुआ। खैर, बाद में डिजिटल वैक्स के साथ हुआ, सन के सर्वर के साथ हुआ, विंडोज के साथ हुआ, लिनक्स के साथ हुआ।

और क्या हुआ है कि हैडोप, जिसे मैं हमेशा सोचता हूं, या ऐसा सोचना पसंद करता हूं, डेटा के लिए एक तरह के वितरित वातावरण के रूप में, पारिस्थितिकी तंत्र एक अविश्वसनीय दर से विकसित हो रहा है। मेरा मतलब है कि अगर आप खुले स्रोत, स्पार्क, फ्लिंक, काफ्का, प्रेस्टो और विभिन्न प्रभावशाली योगदानों का उल्लेख करते हैं, और फिर आप इसमें कुछ डेटाबेस, NoSQL और SQL क्षमताओं को जोड़ते हैं जो अब Hadoop पर बैठे हैं। Hadoop सबसे सक्रिय पारिस्थितिकी तंत्र है जो वास्तव में वहां मौजूद है, निश्चित रूप से कॉर्पोरेट कंप्यूटिंग में। लेकिन अगर आप इसे एक डेटाबेस के रूप में व्यवहार करना चाहते हैं, तो यह इस समय किसी भी तुलना को सहन नहीं करता है कि मैं वास्तविक डेटाबेस के बारे में क्या सोचता हूं, विशेष रूप से डेटा वेयरहाउस स्पेस में। और यह एक निश्चित सीमा तक बताता है कि कई बड़े NoSQL डेटाबेस की सफलता जो Hadoop पर CouchDB और इतने पर नहीं चलती है।

डेटा लेक के रूप में इसके पास किसी भी अन्य प्लेटफॉर्म की तुलना में कहीं अधिक समृद्ध पारिस्थितिकी तंत्र है और यह इससे विस्थापित होने वाला नहीं है। इसका इकोसिस्टम सिर्फ ओपन-सोर्स इकोसिस्टम नहीं है। अब ऐसे सॉफ़्टवेयर सदस्यों की एक नाटकीय संख्या है, जिनके पास ऐसे उत्पाद हैं जो मूल रूप से Hadoop के लिए बनाए गए हैं या Hadoop में आयात किए गए हैं। और उन्होंने सिर्फ एक पारिस्थितिकी तंत्र बनाया है कि ऐसा कुछ भी नहीं है जो इसकी चौड़ाई के संदर्भ में प्रतिस्पर्धा कर सके। और इसका मतलब है कि यह वास्तव में बड़े डेटा नवाचार का मंच बन गया है। लेकिन मेरी राय में यह अभी भी अपरिपक्व है और हम इस बारे में लंबी चर्चा कर सकते हैं कि क्या है और क्या नहीं, चलिए बताते हैं, Hadoop के साथ परिपक्व होते हैं लेकिन मुझे लगता है कि ज्यादातर लोग जो इस विशेष क्षेत्र को देख रहे हैं वे अच्छी तरह से जानते हैं कि Hadoop दशकों से मेनफ्रेम के पीछे है परिचालन क्षमता के संदर्भ में।

उभरती हुई डेटा झील। डेटा लेक किसी भी परिभाषा के अनुसार एक प्लेटफ़ॉर्म है और अगर आपको लगता है कि कॉरपोरेट कंप्यूटिंग में डेटा लेयर होना अब तय डेटाबेस और डेटा लेयर के डेटा लेयर के संदर्भ में इसे समझना बहुत आसान है। डेटा लेक एप्लिकेशन कई और विविध हैं। मुझे यहां एक आरेख मिला है जो बस विभिन्न डेटा के माध्यम से घूमता हुआ चीजों के माध्यम से जाता है यदि आपको एक स्टेजिंग क्षेत्र के रूप में Hadoop या एक स्टेजिंग क्षेत्र के रूप में Hadoop और Spark का उपयोग करने की आवश्यकता है। और आपको पूरी चीज़ मिल गई है - डेटा वंश, डेटा सफाई, मेटाडेटा प्रबंधन, मेटाडेटा खोज - इसका उपयोग ईटीएल के लिए ही किया जा सकता है, लेकिन अक्सर डेटा को लाने के लिए ईटीएल की आवश्यकता होती है। मास्टर डेटा प्रबंधन, डेटा की व्यावसायिक परिभाषा, सेवा प्रबंधन। Hadoop में क्या हो रहा है, डेटा का जीवन चक्र प्रबंधन, और Hadoop से ETL, और आपको प्रत्यक्ष एनालिटिक्स एप्लिकेशन भी मिले हैं जिन्हें आप Hadoop पर चला सकते हैं।

और इसीलिए यह बहुत शक्तिशाली हो गया है और जहां इसे लागू किया गया है और सफलतापूर्वक लागू किया गया है, आम तौर पर इसमें कम से कम इस प्रकार के अनुप्रयोगों का एक संग्रह है जो इसके शीर्ष पर चल रहा है। और उन अनुप्रयोगों में से अधिकांश, विशेष रूप से जिनके बारे में मुझे जानकारी दी गई है, वे अभी मेनफ्रेम पर उपलब्ध नहीं हैं। लेकिन आप उन्हें मेनफ्रेम पर चला सकते हैं, एक हेडोप क्लस्टर पर जो मेनफ्रेम के विभाजन में चल रहा था।

डेटा लेक बन रहा है, मेरी राय में, फास्ट डेटाबेस एनालिटिक्स और बीआई के लिए प्राकृतिक स्टेजिंग क्षेत्र। यह वह स्थान बन जाता है जहां आप डेटा लेते हैं, चाहे वह कॉर्पोरेट डेटा हो या बाहरी डेटा, इसके साथ गड़बड़ होने तक, आइए बताते हैं, उपयोग करने के लिए पर्याप्त साफ और उपयोग करने के लिए अच्छी तरह से संरचित। और यह सब अभी भी अपनी प्रारंभिक अवस्था में है।

यह विचार, मेरी राय में, मेनफ्रेम / हडोप सह-अस्तित्व का है, पहली बात यह है कि बड़ी कंपनियों को मेनफ्रेम छोड़ने की संभावना नहीं है। वास्तव में, जो संकेत मैंने हाल ही में देखे हैं, उनका मतलब है कि मेनफ्रेम में एक बढ़ता निवेश है। लेकिन वे Hadoop पारिस्थितिकी तंत्र की अनदेखी नहीं करने जा रहे हैं। मैं 60 प्रतिशत बड़ी कंपनियों के आंकड़े देख रहा हूं, भले ही होडोप का उपयोग कर रहे हों, भले ही उनमें से बहुत वास्तव में सिर्फ प्रोटोटाइप और प्रयोग कर रहे हों।

फिर कहा जाता है, "आप इन दो चीजों को कैसे बना सकते हैं?" क्योंकि उन्हें डेटा साझा करने की आवश्यकता है। डेटा जिसे डेटा झील में लाया जाता है, उन्हें मेनफ्रेम में स्थानांतरित करने की आवश्यकता होती है। डेटा जो मेनफ्रेम पर है, उसे अन्य डेटा में शामिल होने के लिए डेटा झील या डेटा झील के माध्यम से जाना पड़ सकता है। और यही होने वाला है। और इसका मतलब है कि इसके लिए तेज डेटा ट्रांसफर / ईटीएल क्षमता की आवश्यकता है। यह संभावना नहीं है कि काम के भार को गतिशील रूप से साझा किया जा रहा है, मान लें कि, एक मेनफ्रेम वातावरण या एक हडोप पर्यावरण में कुछ है। यह साझा किया जाने वाला डेटा होने जा रहा है। और डेटा का बहुमत अनिवार्य रूप से Hadoop पर बसने वाला है क्योंकि यह इसके लिए सबसे कम लागत वाला प्लेटफ़ॉर्म है। और अंत-से-अंत विश्लेषणात्मक प्रसंस्करण शायद वहां भी निवास करेगा।

सारांश में, अंततः हमें एक कॉर्पोरेट डेटा परत के संदर्भ में सोचने की आवश्यकता है, जिसमें कई कंपनियों के लिए मुख्य सीमा शामिल होगी। और उस डेटा लेयर को सक्रिय रूप से प्रबंधित करने की आवश्यकता है। अन्यथा दोनों अच्छी तरह से साथ नहीं होंगे। मैं आपके पास वापस जा सकता हूँ एरिक।

एरिक कवनघ : फिर से, तेंदुलकर मैंने अभी आपको प्रस्तोता बनाया है, इसलिए इसे हटा दें।

तेंदु योगर्टकू: धन्यवाद, एरिक। मुझे रखने के लिए धन्यवाद। सबको नमस्ते। मैं ग्राहकों के साथ सिनकोर्ट के अनुभव के बारे में बात करूंगा कि हम संगठन में संपत्ति के रूप में डेटा को मेनफ्रेम से बड़े डेटा प्लेटफ़ॉर्म पर कैसे ले जाते हैं। और मुझे उम्मीद है कि हमारे पास सत्र के अंत में भी दर्शकों से सवाल करने का समय होगा क्योंकि यह वास्तव में इन वेबसीरीज का सबसे मूल्यवान हिस्सा है।

सिर्फ उन लोगों के लिए जो नहीं जानते कि Syncsort क्या करता है, Syncsort एक सॉफ्टवेयर कंपनी है। हम वास्तव में 40 से अधिक वर्षों के आसपास रहे हैं। मेनफ्रेम की ओर से शुरुआत हुई और हमारे उत्पादों ने मेनफ्रेम से यूनिक्स से बड़े डेटा प्लेटफॉर्मों तक फैलाया, जिसमें Hadoop, Spark, Splunk, दोनों आधार पर और क्लाउड में शामिल हैं। हमारा ध्यान हमेशा डेटा उत्पादों, डेटा प्रसंस्करण और डेटा एकीकरण उत्पादों पर रहा है।

बड़े आंकड़ों और हडोप के संबंध में हमारी रणनीति वास्तव में पहले दिन से पारिस्थितिकी तंत्र का हिस्सा बन गई है। विक्रेताओं के मालिक के रूप में, जो वास्तव में बहुत हल्के इंजनों के साथ डेटा प्रोसेसिंग पर ध्यान केंद्रित करते हैं, हमने सोचा कि Hadoop में भाग लेने के लिए डेटा प्रोसेसिंग प्लेटफ़ॉर्म बनने और संगठन के लिए अगली पीढ़ी के डेटा वेयरहाउस आर्किटेक्चर का हिस्सा बनने का एक बड़ा अवसर था। हम 2011 के बाद से ओपन-सोर्स अपाचे परियोजनाओं में MapReduce के साथ एक योगदानकर्ता रहे हैं। Hadoop संस्करण 2 के लिए शीर्ष दस में रहे हैं, और वास्तव में कई परियोजनाओं में भाग लिया, जिसमें स्पार्क पैकेज भी शामिल हैं, हमारे कुछ कनेक्टर स्पार्क पैकेजों में प्रकाशित किए गए हैं।

हम अपने बहुत हल्के डेटा प्रोसेसिंग इंजन का लाभ उठाते हैं जो पूरी तरह से फ्लैट-फाइल-आधारित मेटाडेटा है, और Hadoop डिस्ट्रीब्यूटेड फ़ाइल सिस्टम जैसे वितरित फ़ाइल सिस्टम के साथ बहुत अच्छी तरह से बैठता है। और हम अपनी विरासत को मेनफ्रेम, एल्गोरिदम के साथ हमारी विशेषज्ञता का लाभ उठाते हैं क्योंकि हम अपने बड़े डेटा उत्पादों को बाहर रखते हैं। और हम प्रमुख विक्रेताओं के साथ बहुत निकटता से साझेदारी करते हैं, यहां के प्रमुख खिलाड़ी जिनमें हॉर्टोनवर्क्स, क्लोउडेरा, मैपआर, स्पंक शामिल हैं। हॉर्टनवर्क्स ने हाल ही में घोषणा की कि वे ईटीएल के लिए हमारे उत्पाद को हाडोप के साथ ऑनबोर्डिंग करेंगे। डेल और क्लूडेरा के साथ हमारी बहुत करीबी साझेदारी है जो हमारे ईटीएल उत्पाद को उनके बड़े डेटा उपकरण के हिस्से के रूप में भी पुनर्व्यवस्थित कर रही है। और स्प्लंक के साथ वास्तव में, हम स्प्लंक डैशबोर्ड में एक मेनफ्रेम टेलीमेट्री और सुरक्षा डेटा प्रकाशित करते हैं। हमारे बीच करीबी साझेदारी है।

हर सी-लेवल एक्जीक्यूटिव के दिमाग में क्या है? यह वास्तव में है, "मैं अपनी डेटा परिसंपत्तियों में कैसे टैप करूं?" हर कोई बड़े डेटा के बारे में बात कर रहा है। हर कोई हडोप, स्पार्क के बारे में बात कर रहा है, अगला कंप्यूटर प्लेटफॉर्म जो मुझे व्यापार चपलता बनाने और नए परिवर्तनकारी अनुप्रयोगों को खोलने में मदद कर सकता है। नए जाने के लिए बाजार के अवसर। हर एक कार्यकारी सोच रहा है, "मेरी डेटा रणनीति क्या है, मेरी डेटा पहल क्या है, और मैं यह कैसे सुनिश्चित करूं कि मैं अपनी प्रतिस्पर्धा में पीछे नहीं रहूं, और मैं अगले तीन वर्षों में इस बाजार में हूं?" इसे हम अपने ग्राहकों से बात करते हुए देखें, जैसा कि हम अपने वैश्विक ग्राहक आधार से बात करते हैं, जो काफी बड़ा है, जैसा कि आप कल्पना कर सकते हैं, क्योंकि हम कुछ समय के लिए आस-पास रहे हैं।

जैसा कि हम इन सभी संगठनों के साथ बात करते हैं, हम इसे Hadoop के साथ हुए व्यवधान में प्रौद्योगिकी स्टैक में भी देखते हैं। संपत्ति के रूप में डेटा के बारे में इस मांग को पूरा करने के लिए यह वास्तव में है। एक संगठन के पास सभी डेटा परिसंपत्तियों का लाभ उठाना। और हमने उद्यम डेटा वेयरहाउस आर्किटेक्चर को ऐसे विकसित होते देखा है कि Hadoop अब आधुनिक डेटा आर्किटेक्चर का नया केंद्र बिंदु है। और हमारे अधिकांश ग्राहक, चाहे वह वित्तीय सेवाएँ हों, चाहे वह बीमा, रिटेल का टेल्को, पहलें आमतौर पर या तो हम पाते हैं कि Hadoop एक सेवा के रूप में या सेवा के रूप में डेटा। क्योंकि हर कोई अपने बाहरी ग्राहकों या आंतरिक ग्राहकों के लिए डेटा संपत्ति उपलब्ध कराने की कोशिश कर रहा है। और कुछ संगठनों में हम अपने ग्राहकों के लिए लगभग एक डेटा मार्केटप्लेस जैसी पहल देखते हैं।

और पहला कदम है कि एक उद्यम डेटा हब बनाने से सभी को प्राप्त करने में से एक है। कभी-कभी लोग इसे डेटा लेक भी कहेंगे। इस एंटरप्राइज़ डेटा हब को बनाना वास्तव में उतना आसान नहीं है जितना लगता है क्योंकि इसे वास्तव में एंटरप्राइज़ में किसी भी डेटा तक पहुंचने और एकत्रित करने की आवश्यकता होती है। और वह डेटा अब सभी नए स्रोतों जैसे मोबाइल सेंसर के साथ-साथ विरासत डेटाबेस से भी है और यह बैच मोड और स्ट्रीमिंग मोड में है। डेटा एकीकरण हमेशा एक चुनौती रही है, हालांकि, डेटा स्रोतों की संख्या और विविधता और विभिन्न वितरण शैलियों, चाहे वह बैच हो या वास्तविक समय में स्ट्रीमिंग हो, यह दस साल पहले की तुलना में अब और भी अधिक चुनौतीपूर्ण है। हम कभी-कभी इसका उल्लेख करते हैं, "यह आपके पिता का ईटीएल नहीं है।"

इसलिए हम विभिन्न डेटा परिसंपत्तियों के बारे में बात करते हैं। जैसा कि उद्यम नए डेटा की समझ बनाने की कोशिश कर रहे हैं, डेटा वे मोबाइल उपकरणों से एकत्र करते हैं, चाहे वे कार निर्माता में सेंसर हों या मोबाइल गेमिंग कंपनी के लिए उपयोगकर्ता डेटा हो, उन्हें अक्सर सबसे महत्वपूर्ण डेटा परिसंपत्तियों का संदर्भ देने की आवश्यकता होती है। उदाहरण के लिए, उद्यम, जो ग्राहक की जानकारी है। ये सबसे महत्वपूर्ण डेटा संपत्ति अक्सर मेनफ्रेम पर रहते हैं। इन उभरते हुए नए स्रोतों के साथ मेनफ्रेम डेटा को सहसंबंधित करते हुए, क्लाउड में एकत्र किए गए, मोबाइल के माध्यम से एकत्र किए गए, एक जापानी कार कंपनी की विनिर्माण लाइन पर एकत्र किए गए, या इंटरनेट ऑफ़ थिंग्स एप्लिकेशन, को अपने विरासत डेटा सेट को संदर्भित करके इस नए डेटा की समझ बनानी होगी। और उन विरासत डेटा सेट अक्सर मेनफ्रेम पर होते हैं।

और अगर ये कंपनियां ऐसा करने में सक्षम नहीं हैं, तो मेनफ्रेम डेटा में टैप करने में सक्षम नहीं हैं तो एक चूक का मौका है। फिर डेटा को एक सेवा के रूप में, या एंटरप्राइज़ डेटा के सभी का लाभ उठाते हुए वास्तव में संगठन में सबसे महत्वपूर्ण संपत्ति का दोहन नहीं होता है। टेलीमेट्री और सिक्योरिटी डेटा पार्ट भी है क्योंकि मेनफ्रेम पर बहुत सारे ट्रांजेक्शनल डेटा रहते हैं।

आप एक एटीएम में जाने की कल्पना करें, मुझे लगता है कि उपस्थित लोगों में से एक ने बैंकिंग प्रणाली की सुरक्षा के लिए प्रतिभागियों को एक संदेश भेजा था, जब आप अपने कार्ड को स्वाइप कर रहे थे कि लेन-देन का डेटा मुख्य रूप से विश्व स्तर पर बहुत अधिक है। और सिक्योरिटी डेटा और टेलीमेट्री डेटा को मेनफ्रेम से सुरक्षित और एकत्रित करना और उन्हें स्प्लंक डैशबोर्ड या अन्य के माध्यम से उपलब्ध कराना, स्पार्क, एसक्यूएल डेटा की मात्रा और डेटा की विविधता के कारण पहले से कहीं अधिक महत्वपूर्ण हो जाता है।

कौशल सेट सबसे बड़ी चुनौतियों में से एक है। क्योंकि एक तरफ आपके पास तेजी से बदलते बड़े डेटा स्टैक होते हैं, आप नहीं जानते कि कौन सी परियोजना जीवित रहने वाली है, कौन सी परियोजना जीवित नहीं है, क्या मुझे हाइव या सुअर डेवलपर्स को किराए पर लेना चाहिए? क्या मुझे MapReduce या Spark में निवेश करना चाहिए? या अगली बात, फ्लिंक, किसी ने कहा। क्या मुझे इन कंप्यूटर प्लेटफार्मों में से एक में निवेश करना चाहिए? एक ओर, तेजी से बदलते पारिस्थितिकी तंत्र के साथ तालमेल रखना एक चुनौती है, और दूसरी ओर आपके पास ये विरासत डेटा स्रोत हैं। नए कौशल सेट वास्तव में मेल नहीं खाते हैं और आपके पास एक मुद्दा हो सकता है क्योंकि वे संसाधन वास्तव में सेवानिवृत्त हो सकते हैं। उन लोगों के कौशल सेट के मामले में एक बड़ा अंतर है जो उन विरासत डेटा स्टैक को समझते हैं और जो उभरते प्रौद्योगिकी स्टैक को समझते हैं।

दूसरी चुनौती शासन की है। जब आप प्लेटफ़ॉर्म पर सभी एंटरप्राइज़ डेटा को वास्तव में एक्सेस कर रहे होते हैं, तो हमारे पास ऐसे ग्राहक होते हैं, जो यह चिंता करते हैं कि, "मैं अपने डेटा को लैंड नहीं करना चाहता। मैं नहीं चाहता कि मेरा डेटा कई स्थानों पर कॉपी किया जाए क्योंकि मैं कई प्रतियों से यथासंभव बचना चाहता हूं। मैं चाहता हूं कि अंत-टू-एंड एक्सेस इसे बीच में लैंडिंग के बिना हो। ”इस डेटा को नियंत्रित करना एक चुनौती बन जाता है। और दूसरा टुकड़ा यह है कि यदि आप डेटा को उस अड़चन तक पहुँचा रहे हैं, यदि आप अपने अधिकांश डेटा को क्लाउड में एकत्रित कर रहे हैं और विरासत डेटा तक पहुँच और संदर्भ दे रहे हैं, तो नेटवर्क बैंडविड्थ एक मुद्दा, क्लस्टर प्लेटफ़ॉर्म बन जाता है। यह बड़ी डेटा पहल और उन्नत एनालिटिक्स प्लेटफ़ॉर्म होने और अभी तक सभी एंटरप्राइज़ डेटा का लाभ उठाने के संदर्भ में कई चुनौतियाँ हैं।

Syncsort क्या प्रदान करता है, हमें "केवल सर्वश्रेष्ठ" के रूप में संदर्भित किया जाता है, क्योंकि हम केवल सबसे अच्छे हैं, लेकिन हमारे ग्राहक वास्तव में मेनफ्रेम डेटा तक पहुंचने और एकीकृत करने के रूप में हमें सबसे अच्छे रूप में संदर्भित करते हैं। हम मेनफ़्रेम से सभी डेटा स्वरूपों का समर्थन करते हैं और इसे बड़े डेटा विश्लेषण के लिए उपलब्ध कराते हैं। फिर चाहे वो हडपॉप हो या स्पार्क या अगला कंप्यूटर प्लेटफॉर्म। क्योंकि हमारे उत्पाद वास्तव में कंप्यूटर प्लेटफ़ॉर्म की जटिलताओं को रेखांकित करते हैं। आप एक डेवलपर के रूप में, संभवतः लैपटॉप पर विकसित हो रहे हैं, डेटा पाइपलाइन पर ध्यान केंद्रित कर रहे हैं और डेटा की तैयारी क्या है, यह डेटा एनालिटिक्स, अगले चरण के लिए बनाए गए डेटा बनाने के लिए, और उसी एप्लिकेशन को MapReduce में ले जाएं या ले जाएं स्पार्क में एक ही आवेदन।

हमने अपने ग्राहकों को यह करने में मदद की कि जब YARN उपलब्ध हो गया और उन्हें अपने अनुप्रयोगों को MapReduce के संस्करण 1 से YARN में स्थानांतरित करना पड़ा। हम उन्हें अपाचे स्पार्क के साथ भी ऐसा करने में मदद कर रहे हैं। हमारा उत्पाद, नई रिलीज़ 9 स्पार्क के साथ-साथ एक गतिशील अनुकूलन के साथ चल रहा है जो भविष्य के कंप्यूटर ढांचे के लिए इन अनुप्रयोगों को प्रेरित करेगा।

इसलिए हमारे पास मेनफ्रेम डेटा तक पहुंच है, चाहे वह वीएसएएम फाइलें हों, चाहे वह डीबी 2 हो, या चाहे वह टेलीमेट्री डेटा हो, जैसे एसएमएफ रिकॉर्ड या लॉग 4 जे या सिसलॉग, जिन्हें स्प्लंक डैशबोर्ड के माध्यम से देखने की जरूरत है। और ऐसा करते समय, क्योंकि संगठन अपने मौजूदा डेटा इंजीनियर या ईटीएल कौशल सेट का लाभ उठा सकता है, विकास का समय काफी कम हो जाता है। वास्तव में डेल और क्लाउडर के साथ, एक स्वतंत्र बेंचमार्क प्रायोजित था, और उस बेंचमार्क ने विकास के समय पर ध्यान केंद्रित किया, यदि आप हैंड कोडिंग कर रहे हैं या अन्य उपकरण जैसे Syncsort का उपयोग कर रहे हैं, और यह विकास समय में लगभग 60, 70 प्रतिशत की कमी थी। । उन डेटा फ़ाइल होस्ट्स में कौशल सेट करना, समूह में अंतर को सेट करता है, और उन डेटा फ़ाइल को लोगों के संदर्भ में होस्ट करता है।

आमतौर पर बड़ी डेटा टीम, या डेटा निगलना टीम, या टीम जो इस डेटा को सेवा वास्तुकला के रूप में विकसित करने के लिए काम करती है, जरूरी नहीं कि मेनफ्रेम टीम के साथ बात करें। वे कई संगठनों में उस बातचीत को कम से कम करना चाहते हैं। उस अंतर को बंद करके हम आगे बढ़े हैं। और सबसे महत्वपूर्ण हिस्सा वास्तव में पूरी प्रक्रिया को सुरक्षित कर रहा है। क्योंकि उद्यम में जब आप इस तरह के संवेदनशील डेटा के साथ काम कर रहे होते हैं तो कई आवश्यकताएं होती हैं।

बीमा और बैंकिंग जैसे अत्यधिक विनियमित उद्योगों में हमारे ग्राहक पूछते हैं, उन्होंने कहा, "आप इस मेनफ्रेम डेटा एक्सेस की पेशकश करते हैं और यह बहुत अच्छा है। क्या आप मुझे इसके मूल प्रारूप में रखे गए EBCDIC- एन्कोडेड रिकॉर्ड फॉर्मेट की पेशकश कर सकते हैं ताकि मैं अपनी ऑडिट आवश्यकताओं को पूरा कर सकूं। "तो हम Hadoop और Apache Spark को मेनफ्रेम डेटा समझते हैं। आप डेटा को उसके मूल रिकॉर्ड प्रारूप में रख सकते हैं, अपना प्रसंस्करण और स्तर वितरक कंप्यूटर प्लेटफ़ॉर्म कर सकते हैं और यदि आपको इसे वापस रखने की आवश्यकता है तो आप रिकॉर्ड दिखा सकते हैं कि रिकॉर्ड बदला नहीं गया है और आप नियामक आवश्यकताओं का पालन कर सकते हैं ।

और अधिकांश संगठन, जैसा कि वे डेटा हब या डेटा झील बना रहे हैं, वे एक सिंगल क्लिक पर मेटाडाटा को सैकड़ों स्कीमाओं से Oracle डेटाबेस में Hive टेबल या ORC या Parquet फ़ाइलों में मैप करने में सक्षम होने के लिए भी ऐसा करने का प्रयास कर रहे हैं। आवश्यक हो जाता है। हम उपकरण भेजते हैं और हम इसे डेटा मैपिंग बनाने के लिए एक-कदम डेटा एक्सेस, ऑटो-जेनरेटिंग जॉब्स या डेटा मूवमेंट और ऑटो-जेनरेटिंग जॉब्स बनाने के लिए टूल प्रदान करते हैं।

हमने कनेक्टिविटी भाग, अनुपालन, शासन और डेटा प्रोसेसिंग के बारे में बात की। और हमारे उत्पाद आधार और क्लाउड दोनों पर उपलब्ध हैं, जो वास्तव में बहुत सरल बनाता है क्योंकि कंपनियों को यह सोचने की ज़रूरत नहीं है कि अगले साल या दो में क्या होने जा रहा है अगर मैं पूरी तरह से सार्वजनिक क्लाउड बनाम हाइब्रिड में जाने का फैसला करता हूं पर्यावरण, जैसे कि कुछ क्लस्टर आधार पर या बादल में चल रहे हैं। और हमारे उत्पाद अमेजन मार्केटप्लेस, EC2, इलास्टिक मैपड्राइड और डॉकटर कंटेनर दोनों पर उपलब्ध हैं।

बस रैप अप करने के लिए, इसलिए हमारे पास Q & A के लिए पर्याप्त समय है, यह वास्तव में डेटा गवर्नेंस के साथ एक्सेस करने, एकीकृत करने और अनुपालन करने के बारे में है, फिर भी यह सब सरल बनाता है। और इस सरल, "एक बार और कहीं भी डिज़ाइन करें" को सच्चे अर्थों में बनाने के दौरान, हमारे ओपन-सोर्स योगदान के कारण हमारे उत्पाद Hadoop डेटा प्रवाह में मूल रूप से चलते हैं और मूल रूप से स्पार्क के साथ, तेजी से बदलते पारिस्थितिकी तंत्र से संगठनों को इन्सुलेट करते हैं। और बैच और स्ट्रीमिंग दोनों के लिए एक एकल डेटा पाइपलाइन, एक एकल इंटरफ़ेस प्रदान करता है।

और इससे संगठनों को कभी-कभी इन रूपरेखाओं का मूल्यांकन करने में भी मदद मिलती है, क्योंकि आप वास्तव में एप्लिकेशन बनाना चाहते हैं और बस MapReduce बनाम स्पार्क पर चला सकते हैं और अपने आप को देख सकते हैं, हाँ, स्पार्क के पास यह वादा है और सर्वश्रेष्ठ मशीन सीखने के लिए पुनरावृत्त एल्गोरिदम पर सभी को प्रदान करता है। और भविष्य कहनेवाला विश्लेषिकी अनुप्रयोग स्पार्क के साथ काम करते हैं, क्या मैं इस कंप्यूटर ढांचे पर अपनी स्ट्रीमिंग और बैच वर्कलोड भी कर सकता हूं? आप हमारे उत्पादों का उपयोग करके विभिन्न कंप्यूटर प्लेटफार्मों का परीक्षण कर सकते हैं। और गतिशील अनुकूलन चाहे आप स्टैंडअलोन सर्वर पर, अपने लैपटॉप पर, Google क्लाउड बनाम अपाचे स्पार्क में चला रहे हों, वास्तव में हमारे ग्राहकों के लिए एक बड़ा मूल्य प्रस्ताव है। और यह वास्तव में उन चुनौतियों से प्रेरित था जो उनके पास थी।

मैं सिर्फ एक केस स्टडी को कवर करूंगा। यह गार्जियन लाइफ इंश्योरेंस कंपनी है। और गार्जियन की पहल वास्तव में उनकी डेटा परिसंपत्तियों को केंद्रीकृत करने और अपने ग्राहकों के लिए उपलब्ध कराने, डेटा तैयार करने के समय को कम करने के लिए थी और उन्होंने कहा कि हर कोई डेटा तैयार करने के बारे में समग्र डेटा प्रसंस्करण पाइपलाइन का 80 प्रतिशत लेने की बात करता है और उन्होंने कहा कि यह वास्तव में इसके बारे में ले रहा था। उनके लिए 75 से 80 प्रतिशत और वे एनालिटिक्स परियोजनाओं के लिए उस डेटा की तैयारी, परिवर्तन समय, समय-से-बाज़ार को कम करना चाहते थे। नए डेटा स्रोतों को जोड़ने के रूप में वह चपलता बनाएं। और उस केंद्रीकृत डेटा का उपयोग अपने सभी ग्राहकों के लिए उपलब्ध कराएं।

सिन्स्कॉर्ट उत्पादों सहित उनका समाधान, अभी उनके पास एक अमेज़ॅन मार्केटप्लेस लुकलाइक डेटा मार्केटप्लेस है जो डेटा लेक द्वारा समर्थित है, जो मूल रूप से हडोप और नोएसक्यूएल डेटाबेस है। और वे हमारे उत्पादों का उपयोग सभी डेटा परिसंपत्तियों को डेटा लेक में लाने के लिए करते हैं, जिनमें मेनफ्रेम पर डीबी 2, मेनफ्रेम पर वीएसएएम फाइलें, और डेटाबेस विरासत डेटा स्रोतों के साथ-साथ नए डेटा स्रोत भी शामिल हैं। और इसके परिणामस्वरूप उन्होंने पुन: प्रयोज्य डेटा परिसंपत्तियों को केंद्रीकृत किया है जो उनके ग्राहकों के लिए खोज योग्य, सुलभ और उपलब्ध हैं। और वे वास्तव में नए डेटा स्रोतों को जोड़ने और अपने ग्राहकों को पहले की तुलना में बहुत तेज और अधिक कुशल बनाने में सक्षम हैं। और एनालिटिक्स की पहल भविष्यवाणियों के साथ-साथ और भी अधिक प्रगति कर रही है। इसलिए मैं विराम दूंगा और मुझे उम्मीद है कि यह उपयोगी था और यदि आपके पास मेरे किसी भी संबंधित विषय के लिए कोई प्रश्न हैं, तो आपका स्वागत है।

एरिक कवनघ : यकीन है, और तेंदुल, मैं सिर्फ एक को फेंक दूंगा। मुझे एक दर्शक सदस्य की टिप्पणी मिली, जिसमें लिखा था, "मुझे यह पसंद है 'डिजाइन एक बार, कहीं भी तैनात।'" क्या आप इस तरह की खुदाई कर सकते हैं कि यह कैसे सच है? मेरा मतलब है, आपने उस तरह की चपलता को सक्षम करने के लिए क्या किया है और क्या कोई कर है? जैसे कि जब हम वर्चुअलाइजेशन के बारे में बात करते हैं, उदाहरण के लिए, प्रदर्शन पर हमेशा थोड़ा कर लगता है। कुछ लोग दो प्रतिशत, पांच प्रतिशत 10 प्रतिशत कहते हैं। आपने एक बार डिज़ाइन को सक्षम करने के लिए, कहीं भी तैनात करने के लिए क्या किया है - आप इसे कैसे करते हैं और क्या प्रदर्शन के मामले में इससे जुड़ा कोई कर है?

तेंदु योगर्टु: निश्चित, धन्यवाद। नहीं, क्योंकि कुछ अन्य विक्रेताओं के विपरीत हम वास्तव में हाइव या पिग या कुछ अन्य कोड उत्पन्न नहीं करते हैं जो हमारे इंजन के मूल नहीं हैं। यह वह जगह है जहां हमारे ओपन-सोर्स योगदान ने एक बड़ी भूमिका निभाई है, क्योंकि हम Hadoop विक्रेताओं, Cloudera, Hortonworks और MapR के साथ बहुत निकटता से काम कर रहे हैं और हमारे ओपन-सोर्स योगदान के कारण, वास्तव में हमारा इंजन प्रवाह का हिस्सा है।, Hadoop प्रवाह के हिस्से के रूप में, स्पार्क के हिस्से के रूप में।

जो भी अनुवाद करता है, हमारे पास यह गतिशील अनुकूलन है। यह कुछ ऐसा था जो हमारे ग्राहकों को कंप्यूटर फ्रेमवर्क के साथ चुनौती देने के परिणामस्वरूप आया था। जैसा कि वे कुछ अनुप्रयोगों के साथ उत्पादन में जा रहे थे, वे वापस आ गए, उन्होंने कहा, "मैं बस अपने हडोप क्लस्टर को स्थिर कर रहा हूं, MapReduce YARN संस्करण 2, MapReduce संस्करण 2 पर स्थिर कर रहा हूं, और लोग बात कर रहे हैं कि MapReduce मर चुका है, स्पार्क है अगली बात, और कुछ लोग कह रहे हैं कि फ्लिंक अगली बात होगी, मैं इससे कैसे निपटूंगा? ”

और वे चुनौतियाँ वास्तव में हमारे लिए इतनी स्पष्ट हो गईं, हमने इस गतिशील अनुकूलन को करने में निवेश किया जिसे हम बुद्धिमान निष्पादन कहते हैं। रन टाइम के दौरान, जब यह डेटा पाइपलाइन जमा किया जाता है, तो क्लस्टर के आधार पर, चाहे वह स्पार्क हो, चाहे वह MapReduce हो या लिनक्स स्टैंडअलोन सर्वर हो, हम तय करते हैं कि इस जॉब को कैसे चलाया जाए, जो मूल रूप से हमारे इंजन में है। Hadoop या Spark data flow। कोई ओवरहेड नहीं है क्योंकि इस गतिशील अनुकूलन के माध्यम से हमारे पास सब कुछ किया जाता है और सब कुछ भी किया जाता है क्योंकि हमारा इंजन हमारे खुले स्रोत के योगदान के कारण मूल रूप से एकीकृत है। क्या इससे आपके प्रश्न का उत्तर मिलता है?

एरिक Kavanagh: हाँ, यह अच्छा है। और मैं वहाँ पर एक और सवाल फेंकना चाहता हूं, और फिर डीज़, शायद हम आपको और रॉबिन को भी खींच लेंगे। मुझे अभी हमारे एक अटेंडेंट की एक प्रफुल्लित करने वाली टिप्पणी मिली। मैं इसे पढ़ूंगा क्योंकि यह वास्तव में काफी पिटी है। वह लिखते हैं, "ऐसा लगता है कि चीजों के इतिहास में HOT" - इसे प्राप्त करें? IoT की तरह - "यह है कि जितना अधिक आप किसी चीज़ को सरल बनाने की कोशिश करेंगे, वह वास्तव में जटिल है, जितनी बार वह चीजों को करने के लिए प्रकट होता है, उतना सरल नहीं है।" अधिक फांसी की रस्सी की आपूर्ति की जाती है। डेटाबेस क्वेरी, विस्फोट, मल्टी-थ्रेडिंग, आदि के बारे में सोचें ”क्या आप इस विरोधाभास पर टिप्पणी कर सकते हैं कि वह क्या संदर्भित कर रहा है? सरलता बनाम जटिलता, और मूल रूप से कवर के नीचे वास्तव में क्या चल रहा है?

तेंडु योगर्टकु: निश्चित। मुझे लगता है कि यह एक बहुत ही मान्य बिंदु है। जब आप चीजों को सरल कर रहे हैं और इन अनुकूलन कर रहे हैं, एक तरह से कवर के तहत, किसी को उस जटिलता को लेने की जरूरत है जो सही होने की आवश्यकता है? यदि आप किसी चीज को पंगु बना रहे हैं या यदि आप यह तय कर रहे हैं कि कंप्यूटर फ्रेमवर्क के संबंध में किसी विशेष कार्य को कैसे चलाना है, तो जाहिर है कि नौकरी का कुछ हिस्सा धक्का दिया जा रहा है चाहे वह उपयोगकर्ता के अंत में हो, मेनू कोडिंग में हो, या यह इंजन अनुकूलन पर हो। इसका एक हिस्सा है, उपयोगकर्ता अनुभव को सरल बनाकर उद्यम में मौजूद कौशल सेट का लाभ उठाने में सक्षम होने के मामले में एक बड़ा लाभ है।

और आप उस विरोधाभास को कम कर सकते हैं, उस चुनौती को कम कर सकते हैं, "हाँ, लेकिन मेरे पास उस इंजन में हुड के नीचे, कवर के तहत होने वाली हर चीज पर नियंत्रण नहीं है, " अगर वे अधिक उन्नत उपयोगकर्ताओं को चीजें उजागर करते हैं। उस तरह का नियंत्रण रखना चाहते हैं। कुछ प्रकार की सर्विसबिलिटी में भी निवेश करके। एक SQL क्वेरी के लिए और साथ ही इंजन के चलने के साथ अधिक परिचालन डेटा, अधिक परिचालन डेटा, जैसा कि इस सहभागी ने दिया, उदाहरण के लिए। मुझे उम्मीद है कि जवाब।

एरिक Kavanagh: हाँ जो अच्छा लगता है। Dez, इसे दूर ले जाओ।

Dez Blanchfield: मैं वास्तव में ओपन-सोर्स योगदान में अपने पदचिह्न में थोड़ा और अंतर्दृष्टि प्राप्त करने के लिए उत्सुक हूं और यात्रा जो आपने अपने पारंपरिक, लंबे समय से चल रहे अनुभव से मेनफ्रेम और मालिकाना दुनिया में ली है और फिर पारी में स्रोत खोलने के लिए योगदान और यह कैसे हुआ। और दूसरी बात जो मैं समझने का इच्छुक हूं, वह वह दृश्य है जिसे आप व्यवसाय देख रहे हैं, न केवल आईटी विभाग, बल्कि व्यवसाय अब डेटा हब या डेटा झीलों के संबंध में ले रहे हैं जैसा कि लोग अब कह रहे हैं और क्या वे इस प्रवृत्ति को देखते हैं केवल एक एकल, समेकित डेटा झील या क्या हम वितरित डेटा झीलों को देख रहे हैं और लोग उन्हें एक साथ रखने के लिए उपकरणों का उपयोग कर रहे हैं?

तेंडु योगर्टकु: निश्चित। पहले एक के लिए, वह एक बहुत ही रोचक यात्रा थी, एक प्रोपराइटर सॉफ्टवेयर कंपनी के रूप में, आईबीएम के बाद पहली वाली। हालाँकि, फिर से, सब कुछ हमारे प्रचारक ग्राहकों के साथ Hadoop को देखने लगा। हमारे पास कॉमस्कोर जैसी डेटा कंपनियाँ थीं, वे सबसे पहले Hadoop को अपनाने वाले लोगों में से एक थे क्योंकि वे दुनिया भर में डिजिटल डेटा एकत्र कर रहे थे और 90 दिनों के डेटा को रखने में सक्षम नहीं थे, जब तक कि उन्होंने अपने में दस मिलियन डॉलर का डेटा वेयरहाउस बॉक्स का निवेश नहीं किया था वातावरण। वे हाडोप को देखने लगे। इसके साथ ही हम हडपॉप को भी देखने लगे।

और जब हमने एक निर्णय लिया और स्वीकार किया कि होडोप वास्तव में भविष्य का डेटा प्लेटफॉर्म बनने जा रहा है, तो हमें यह भी समझ में आया कि हम इसमें एक नाटक नहीं कर पाएंगे, जब तक कि हम इसमें सफल न हों। पारिस्थितिकी तंत्र का एक हिस्सा थे। और हम हडूप के विक्रेताओं के साथ बहुत निकटता से काम कर रहे थे, क्लोदेरा, हॉर्टनवर्क्स, मैपआर, आदि के साथ। हमने वास्तव में उनके साथ बात करना शुरू कर दिया क्योंकि एक विक्रेता जो मूल्य ला सकता है उसे मान्य करने के लिए साझेदारी बहुत महत्वपूर्ण हो जाती है और यह भी सुनिश्चित करता है कि हम संयुक्त रूप से उद्यम में जा सकते हैं। और अधिक सार्थक कुछ प्रदान करते हैं। इसके लिए बहुत सारे संबंध निर्माण की आवश्यकता थी क्योंकि हम अपाचे ओपन-सोर्स प्रोजेक्ट्स के बारे में नहीं जानते थे, हालांकि हमें इन हडॉप विक्रेताओं का बहुत समर्थन था, मुझे कहना होगा।

हमने एक साथ काम करना शुरू किया और हब को देखते हुए, हम अंतरिक्ष में अपने प्रोपराइटर सॉफ्टवेयर के बिना भी मूल्य कैसे ला सकते हैं। यह महत्वपूर्ण था। यह केवल कुछ एपीआई डालने के बारे में नहीं है जो आपके उत्पाद पर चल सकते हैं, यह कहने में सक्षम है कि मैं इसमें निवेश करूंगा क्योंकि मेरा मानना ​​है कि Hadoop भविष्य का एक मंच बनने जा रहा है, इसलिए उन स्रोतों में निवेश करके जिन्हें हम बनाना चाहते थे। यकीन है कि यह परिपक्व हो जाता है और उद्यम तैयार हो जाता है। हम वास्तव में कुछ उपयोग के मामलों को सक्षम कर सकते हैं जो हमारे योगदान से पहले उपलब्ध नहीं थे। इससे पूरे पारिस्थितिकी तंत्र को लाभ होगा और हम उन साझेदारियों को बहुत बारीकी से विकसित कर सकते हैं।

इसमें काफी समय लगता था। हमने 2011, और 2013, 21 जनवरी में योगदान देना शुरू किया - मुझे तारीख याद है क्योंकि उस तारीख को हमारा सबसे बड़ा योगदान दिया गया था, जिसका मतलब था कि अब हम अपने उत्पादों को उस बिंदु से आम तौर पर उपलब्ध कर सकते हैं - उन संबंधों को विकसित करने में काफी समय लगा।, मूल्य दिखाएं, साझेदार विक्रेताओं के साथ और खुले-स्रोत समुदाय में कमिटर्स के साथ डिजाइन पार्टनर बन जाते हैं। लेकिन बहुत मजा आया। यह उस पारिस्थितिकी तंत्र का हिस्सा होने और एक महान साझेदारी विकसित करने के लिए हमारे लिए एक कंपनी के रूप में बहुत फायदेमंद था।

डेटा हब / डेटा झील के बारे में दूसरा प्रश्न, मुझे लगता है कि जब हम इस डेटा को ज्यादातर मामलों में सेवा कार्यान्वयन के रूप में देखते हैं, हाँ, यह क्लस्टर, शारीरिक रूप से एकल या कई क्लस्टर हो सकता है, लेकिन यह उस एकल स्थान बनने से अधिक वैचारिक है। सभी डेटा के लिए। क्योंकि कुछ संगठनों में हम आधार पर बड़े क्लस्टर तैनाती को देखते हैं, हालांकि उनके पास क्लस्टर भी हैं, उदाहरण के लिए, सार्वजनिक क्लाउड में क्योंकि ऑनलाइन अनुभागों से एकत्र किए गए कुछ डेटा को वास्तव में क्लाउड में रखा जाता है। यह एक एकल डेटा पाइपलाइन रखने में सक्षम है जिसे आप वास्तव में इन दोनों का लाभ उठा सकते हैं, और उन्हें एकल डेटा हब, एकल डेटा झील के रूप में उपयोग करना महत्वपूर्ण हो जाता है। जरूरी नहीं कि सिर्फ भौतिक स्थान ही हो, बल्कि उस डेटा हब और डेटा झील के गुच्छों के पार, भौगोलिक क्षेत्रों में और शायद आधार और बादल पर होने के कारण बहुत महत्वपूर्ण होने जा रहा है, मुझे लगता है। खासतौर पर आगे बढ़ते हुए। इस साल हमने अधिक से अधिक क्लाउड तैनाती को देखना शुरू किया। यह आश्चर्यजनक है। इस वर्ष की पहली छमाही में हमने बहुत सारे क्लाउड परिनियोजन देखे हैं।

एरिक कवनघ: ठीक है, शांत। और रॉबिन, क्या आपका कोई सवाल है? मुझे पता है कि हमारे पास बस कुछ ही मिनट बचे हैं।

रॉबिन ब्लोर: ठीक है, अच्छा मैं उससे एक सवाल पूछ सकता हूं। मेरे साथ पहली बात यह है कि काफ्का के बारे में बहुत उत्तेजना पैदा हुई है और मुझे काफ्का के बारे में आपकी राय में दिलचस्पी थी और आप कैसे उस तरीके से एकीकृत करते हैं जिससे लोग काफ्का का उपयोग कर रहे हैं?

तेंडु योगर्टकु: निश्चित। हां, काफ्का काफी लोकप्रिय हो रहा है। हमारे ग्राहकों के बीच हम देखते हैं कि डेटा ट्रांसपोर्ट लेयर की तरह है और देखा गया कि डेटा एक बस है, बहुत ज्यादा। उदाहरण के लिए, हमारे ग्राहकों में से एक वास्तव में एक उपभोग करने वाला डेटा का उपयोग कर रहा था जो कि कई ऑनलाइन उपयोगकर्ताओं की तरह इस काफ़्का में धकेल दिया जाता है और इसे वर्गीकृत करने और धक्का देने में सक्षम होता है।

फिर, काफ्का इस डेटा के विभिन्न उपभोक्ताओं के लिए एक डेटा बस है। कुछ उन्नत उपयोगकर्ताओं को बनाम नहीं-उन्नत उपयोगकर्ताओं को वर्गीकृत करें और उस डेटा पाइपलाइन में आगे बढ़ने के लिए कुछ अलग करें। कफका के साथ हम मूल रूप से कैसे एकीकृत करते हैं, हमारा उत्पाद DMX-h एक विश्वसनीय उपभोक्ता, काफ्का के लिए एक अत्यधिक कुशल, विश्वसनीय उपभोक्ता बन जाता है। यह डेटा को पढ़ सकता है और यह हमारे लिए किसी अन्य डेटा स्रोत से डेटा पढ़ने से अलग नहीं है। हम उपयोगकर्ताओं को या तो समय की आवश्यकता के संदर्भ में खिड़की को नियंत्रित करने की क्षमता देते हैं, जो उनके पास या काफ्का बस से आने वाले संदेशों की संख्या हो सकती है। और फिर हम उस डेटा का संवर्धन भी कर सकते हैं क्योंकि यह हमारे उत्पाद के माध्यम से जा रहा है और काफ्का में वापस धकेल दिया गया है। हमने इसका परीक्षण किया है। हमने इसे ग्राहक साइट पर बेंचमार्क किया है। कंफ्लुएंट द्वारा प्रमाणित भी। हम कंफ्लुएंट दोस्तों के साथ मिलकर काम करते हैं और यह बहुत उच्च प्रदर्शन और उपयोग में आसान है। फिर से, एपीआई बदल जाते हैं, लेकिन आपको चिंता करने की ज़रूरत नहीं है क्योंकि उत्पाद वास्तव में एक अन्य डेटा स्रोत, एक स्ट्रीमिंग डेटा स्रोत के रूप में व्यवहार करता है। यह वास्तव में हमारे उत्पाद और काफ्का के साथ काम करने में काफी मजेदार है।

रॉबिन ब्लोर: ठीक है मेरे पास एक और प्रश्न है जो सामान्य व्यापार का प्रश्न है, लेकिन मैं लंबे समय से Syncsort को जानता हूं और आपके पास हमेशा प्रतिष्ठा थी और ETL और मेनफ्रेम दुनिया के लिए असाधारण रूप से तेज सॉफ्टवेयर दिया। क्या यह मामला है कि आपका अधिकांश व्यवसाय अब हाडोप में स्थानांतरित किया जा रहा है? क्या यह मामला है कि एक तरह से या किसी अन्य तरह से आपने अपने व्यवसाय को मेनफ्रेम दुनिया से काफी नाटकीय रूप से फैलाया है?

तेंदूपत्ता: हमारे मेनफ्रेम उत्पाद अभी भी विश्व स्तर पर 50 प्रतिशत मेनफ्रेम चल रहे हैं। तो हमारे पास एक बहुत मजबूत मेनफ्रेम उत्पाद लाइन है इसके अलावा हम बड़े डेटा और हडॉप अंत पर क्या कर रहे हैं। और हम अभी भी अधिकांश आईटी सरलीकरण या अनुकूलन परियोजनाओं में हैं क्योंकि एक छोर है कि आप अपने मेनफ्रेम डेटा को बड़े डेटा मल्टीटेक्स प्लेटफार्मों में टैप करने और सभी एंटरप्राइज़ डेटा का लाभ उठाने में सक्षम होना चाहते हैं, हालांकि बहुत महत्वपूर्ण लेनदेन कार्यस्थल भी हैं यह अभी भी मेनफ्रेम पर चलना जारी है और हम उन ग्राहकों को उन अनुप्रयोगों को वास्तव में अधिक कुशल बनाने के तरीके प्रदान करते हैं, जो कि zIIP इंजन में चलते हैं, इसलिए वे अधिक प्रसंस्करण चक्र और MIPS का उपभोग नहीं करते हैं, जिससे वे लागत प्रभावी हो जाते हैं।

हम मेनफ्रेम उत्पादों में निवेश करना जारी रखते हैं और वास्तव में इस स्थान पर खेलते हैं जहां लोग मेनफ्रेम बड़े लोहे से बड़े डेटा तक जाते हैं और उन प्लेटफार्मों में उत्पाद लाइन भी फैलाते हैं। इसलिए हम जरूरी नहीं कि पूरे व्यवसाय को एक तरफ स्थानांतरित कर दें, हम दोनों तरफ बहुत सफल व्यवसाय जारी रखते हैं। और अधिग्रहण हमारे लिए एक बड़ा फोकस है। इस डेटा प्रबंधन और बड़े डेटा प्लेटफ़ॉर्म के लिए डेटा प्रोसेसिंग स्पेस विकसित होने के कारण हम काफी कम मानार्थ अधिग्रहण करने के लिए भी प्रतिबद्ध हैं।

रॉबिन ब्लोर: मुझे लगता है कि मैं आपसे यह नहीं पूछ सकता कि वे क्या हैं क्योंकि आपको मुझे बताने की अनुमति नहीं होगी। मुझे दिलचस्पी है कि क्या आपने हडोप या स्पार्क के कई कार्यान्वयन वास्तव में मेनफ्रेम पर देखे हैं या क्या यह बहुत दुर्लभ चीज है।

तेंडु योगर्टकू: हमने कोई नहीं देखा। उस बारे में अधिक सवाल है। मुझे लगता है कि मेनफ्रेम पर हडूप मुख्य संरचना के प्रकार के कारण बहुत मायने नहीं रखता था। हालांकि मेनफ्रेम पर स्पार्क काफी सार्थक है और स्पार्क वास्तव में मशीन लर्निंग और प्रेडिक्टिव एनालिटिक्स के साथ बहुत अच्छा है और मेनफ्रेम डेटा के साथ उन अनुप्रयोगों में से कुछ को सक्षम करने में सक्षम है, मुझे लगता है, काफी सार्थक। हमने अभी तक किसी को भी ऐसा करते नहीं देखा है, हालाँकि यह वास्तव में इन चीजों को चलाने का उपयोग मामला है। यदि एक कंपनी के रूप में आपका उपयोग मामला अधिक है, तो उस मेनफ्रेम डेटा को लाया जा रहा है और बाकी डेटा सेट के साथ बड़े डेटा प्लेटफ़ॉर्म में एकीकृत किया जा रहा है, यही कहानी है। इसे बड़े डेटा मल्टीएक्स प्लेटफॉर्म से मेनफ्रेम डेटा तक पहुंचने की आवश्यकता है क्योंकि आप अपने डेटा सेट को खुले सिस्टम से लाने की संभावना नहीं रखते हैं और मेनफ्रेम को वापस बुलाते हैं। हालाँकि, यदि आपके पास कुछ मेनफ़्रेम डेटा हैं, जिन्हें आप बस खोज करना चाहते हैं और डेटा की खोज का थोड़ा सा पता लगाना चाहते हैं, तो कुछ उन्नत AI और उन्नत एनालिटिक्स लागू करें, तो स्पार्क जाने और मेनफ़्रेम को चलाने का एक अच्छा तरीका हो सकता है।

एरिक कवनघ: और यहां दर्शकों से एक और सवाल, वास्तव में दो और। मैं आपको टैग-टीम प्रश्न दूंगा, फिर हम रैप करेंगे। एक प्रतिभागी पूछ रहा है, "क्या आईबीएम अपने सार्वजनिक क्लाउड इकोसिस्टम पर अपने खुले स्रोत के योगदान को एकीकृत कर रहा है, दूसरे शब्दों में, ब्लूमेक्स?" और एक अन्य सहभागी ने वास्तव में एक अच्छा बिंदु बनाया, यह देखते हुए कि Syncsort उन लोगों के लिए बड़े लोहे को जीवित रखने के लिए महान है? पहले से ही यह है, लेकिन अगर कंपनियां सीई को कॉल करने के पक्ष में नए मेनफ्रेम से गुजरती हैं, तो वह सब कुछ करता है, यह संभावना कम हो जाती है, लेकिन ध्यान दें कि आप लोग ऑपरेटिंग सिस्टम को प्रति सेकंड एक गीगाबाइट तक दरकिनार करके वास्तव में अच्छे हैं। क्या आप अपनी मुख्य ताकत के बारे में बात कर सकते हैं, जैसा कि उन्होंने उल्लेख किया है, और आईबीएम आपके सामान को ब्लूमिक्स में एकीकृत कर रहा है या नहीं?

टेंड योगर्टस्कू: आईबीएम के साथ, हम पहले से ही आईबीएम के साथ भागीदार हैं और हमने उत्पाद की पेशकश करने वाली उनकी डेटा क्लाउड सेवाओं के लिए चर्चा की थी। हमारा ओपन-सोर्स योगदान उन सभी के लिए खुला है जो उनका लाभ उठाना चाहते हैं। कुछ मेनफ्रेम कनेक्टिविटी स्पार्क पैकेज में भी उपलब्ध है, इसलिए आईबीएम ही नहीं। कोई भी इनका लाभ उठा सकता है। Bluemix में हमने कुछ भी विशेष रूप से अभी तक नहीं किया है। और क्या आप दूसरे प्रश्न को दोहराते हैं?

एरिक कवनघ: हाँ, दूसरा प्रश्न आपकी कार्यक्षमता के मुख्य क्षेत्र के बारे में था, जो वास्तव में ETL की अड़चनों से निपट रहा था और जाहिर है कि आप लोग अभी भी मेनफ्रेम के रूप में काम कर रहे हैं, ठीक है, सैद्धांतिक रूप से दूर रहें, हालाँकि Dez's बिंदु अभी भी वहां पर पत्थरबाजी और लुढ़कने जैसा है। लेकिन सहभागी ने सिर्फ उल्लेख किया कि ऑपरेटिंग सिस्टम को दरकिनार करके और एक गीगाबाइट तक एक सेकंड में डेटा को हिलाने में Syncsort बहुत अच्छा है। क्या आप उस पर टिप्पणी कर सकते हैं?

तेंदु योगर्टु: हाँ, यह वास्तव में समग्र संसाधन दक्षता हमारी ताकत रही है और मापनीयता और प्रदर्शन हमारी ताकत रही है। हम समझौता नहीं कर रहे हैं, सरल बनाने के कई अर्थ हैं, हम उन लोगों से समझौता नहीं करते हैं। जब लोगों ने 2014 में Hadoop के बारे में बात करना शुरू किया, उदाहरण के लिए, कई संगठन वास्तव में शुरू में प्रदर्शन नहीं देख रहे थे। वे कह रहे थे, "ओह, अगर कुछ हुआ तो मैं एक और जोड़ी को जोड़ सकता हूं और मैं ठीक हो जाऊंगा, प्रदर्शन मेरी आवश्यकता नहीं है।"

जबकि हम सबसे अच्छा प्रदर्शन करने के बारे में बात कर रहे थे क्योंकि हम पहले से ही मूल रूप से चल रहे थे, हम कुछ शुरुआती हिचकी भी नहीं ले रहे थे कि हाइव ने कई मैपरेडेस नौकरियों के साथ किया था और उन्हें शुरू करने के साथ ओवरहेड किया था। लोग हमसे कह रहे थे, "ओह, यह मेरी चिंता नहीं है, इस बारे में चिंता मत करो।"

जब हम 2015 में आए तो परिदृश्य बदल गया है क्योंकि हमारे कुछ ग्राहक पहले ही भंडारण से अधिक हो गए थे जो उनके उत्पादन समूहों में था। यह देखना उनके लिए बहुत महत्वपूर्ण हो गया कि Syncsort क्या पेशकश कर सकता है। यदि आप किसी डेटाबेस या मेनफ्रेम से कुछ डेटा ले रहे हैं और क्लस्टर में एक पैराक्वेट फॉर्मेट में लिख रहे हैं, चाहे आप लैंड और स्टेज करें और दूसरा ट्रांसफॉर्मेशन करें या सिर्फ इनफ्लाइट ट्रांसफॉर्मेशन और लैंडेड टारगेट फाइल फॉर्मेट करें, इससे फर्क पड़ता है क्योंकि आप इससे बचत कर रहे हैं। भंडारण, आप नेटवर्क बैंडविड्थ से बचा रहे हैं, आप क्लस्टर पर काम के बोझ से बचा रहे हैं क्योंकि आप अतिरिक्त नौकरियां नहीं चला रहे हैं। वे ताकत जो हम बहुत जागरूक होने के संदर्भ में खेलते हैं, हम अपनी त्वचा के नीचे संसाधन दक्षता महसूस करते हैं, ऐसा लगता है।

हम इसका वर्णन कैसे करते हैं। यह हमारे लिए महत्वपूर्ण है। हम इसे प्रदान नहीं करते हैं। हमने इसे कभी नहीं लिया इसलिए हम अपाचे स्पार्क या अगले कंप्यूटर ढांचे में उस उत्तोलन के साथ मजबूत बने रहेंगे। यह हमारा फोकस बना रहेगा। और डेटा मूवमेंट पीस और डेटा एक्सेस पीस के संदर्भ में, निश्चित रूप से यह हमारी ताकत में से एक है और हम Hadoop या Spark के संदर्भ में मेनफ्रेम पर DB2 या VSAM डेटा एक्सेस कर रहे हैं।

एरिक कवनघ: ठीक है, यह वेबकास्ट, लोगों को समाप्त करने का एक शानदार तरीका है। आपके समय और ध्यान के लिए बहुत बहुत धन्यवाद। ब्रीफिंग रूम में आने और राउंड में कदम रखने के लिए, तेंदुल और सिन्स्कॉर्ट, आपको धन्यवाद। दर्शकों से कई बेहतरीन सवाल। यह वहाँ से बाहर का वातावरण है, लोग। हम इस हॉट टेक को वैसे ही संग्रहीत करेंगे जैसे हम दूसरों के साथ करते हैं। आप हमें insideanalysis.com और techopedia.com पर देख सकते हैं। आमतौर पर यह लगभग एक दिन में बढ़ जाता है। और इसके साथ, हम आपको विदाई देने जा रहे हैं, दोस्तों। बहुत बहुत धन्यवाद। हम आपसे जल्द ही बात करेंगे। ख्याल रखना। अलविदा।

बड़ा लोहा, बड़े डेटा को पूरा: हडूप और स्पार्क के साथ मेनफ्रेम डेटा को मुक्त करना