घर डेटाबेस सुझाव की शक्ति: एक डेटा कैटलॉग विश्लेषकों को कैसे सशक्त बनाता है

सुझाव की शक्ति: एक डेटा कैटलॉग विश्लेषकों को कैसे सशक्त बनाता है

Anonim

टेकोपेडिया स्टाफ द्वारा, 22 जून 2016

Takeaway: होस्ट रेबेका जोजवाक डेज़ ब्लांचफील्ड, रॉबिन ब्लोर और डेविड क्रॉफोर्ड के साथ डेटा कैटलॉग के फायदों के बारे में चर्चा करते हैं।

वीडियो देखने के लिए आपको इस घटना के लिए पंजीकरण करना होगा। वीडियो देखने के लिए रजिस्टर करें।

रेबेका जोजवियाक: देवियों और सज्जनों, नमस्ते और 2016 की हॉट टेक्नोलॉजीज में आपका स्वागत है। आज हमें मिला है, "सुझाव की शक्ति: कैसे एक डेटा कैटलॉग विश्लेषकों को सशक्त बनाता है।" आज कांवड़ यात्रा के दौरान, जब वह दुनिया की यात्रा कर रहे हैं, तो हमें शामिल होने के लिए धन्यवाद। यह वर्ष गर्म है, यह टेक्सास में सिर्फ गर्म नहीं है जहां मैं हूं, लेकिन यह सभी जगह गर्म है। नई तरह की नई तकनीकों का विस्फोट हो रहा है। हमें IoT, स्ट्रीमिंग डेटा, क्लाउड एडॉप्शन, Hadoop को परिपक्व और अपनाया जाना जारी है। हमारे पास ऑटोमेशन, मशीन लर्निंग है, और यह सारा सामान बेशक डेटा द्वारा रेखांकित है। और उद्यम दिन पर दिन अधिक से अधिक डेटा संचालित होते जा रहे हैं। और निश्चित रूप से, इसका मतलब ज्ञान और खोज की ओर ले जाना है, और आप जानते हैं, बेहतर निर्णय लेते हैं। लेकिन वास्तव में डेटा से सबसे अधिक मूल्य प्राप्त करने के लिए, इसे प्राप्त करना आसान होना चाहिए। यदि आप इसे बंद करके या उद्यम के भीतर कुछ लोगों के मस्तिष्क में बंद करके रखते हैं, तो यह संपूर्ण रूप से उद्यम के लिए बहुत अच्छा नहीं होगा।

और मैं डेटा कैटलॉगिंग के बारे में सोच रहा था और पुस्तकालयों के पाठ्यक्रम के बारे में सोच रहा था, जहां बहुत समय पहले आप जहां गए थे अगर आपको किसी विषय पर शोध करने की जरूरत थी, या किसी जानकारी को देखने के लिए, आप लाइब्रेरी में गए थे, और निश्चित रूप से आप कार्ड कैटलॉग, या वहाँ काम करने वाली केकड़ी महिला के पास गए। लेकिन आपको घूमने-फिरने में भी मजा आता था, अगर आप सिर्फ दिखना चाहते थे, और यकीन है कि आप कुछ साफ-सुथरा खोज सकते हैं, तो आपको कुछ ऐसे रोचक तथ्य पता चल सकते हैं, जो आपको नहीं पता, लेकिन अगर आपको वास्तव में कुछ खोजने की जरूरत है, और आप जानते थे कि आप क्या देख रहे थे, आपको कार्ड कैटलॉग की आवश्यकता थी, और निश्चित रूप से एंटरप्राइज़ समतुल्य एक डेटा कैटलॉग है, जो हमारे उपयोगकर्ताओं को समृद्ध, खोज, साझा, उपभोग और वास्तव में मदद करने के लिए सभी डेटा पर प्रकाश को चमकाने में मदद कर सकता है। लोग तेजी से और आसानी से डेटा प्राप्त करते हैं।

इसलिए आज हमें अपने स्वयं के डेटा वैज्ञानिक डीज़ ब्लांचफील्ड, और हमारे पास हमारे प्रमुख विश्लेषक डॉक्टर रॉबिन ब्लोर हैं, हमने अल्वेशन से डेविड क्रॉफोर्ड को मिला है, जो उनकी कंपनी की डेटा कैटलॉगिंग कहानी के बारे में बात करने जा रहे हैं, लेकिन पहले हम डीज़ के साथ नेतृत्व करने जा रहे हैं। Dez, मैं तुम्हारे पास गेंद पास कर रहा हूँ और मंजिल तुम्हारी है।

Dez Blanchfield: धन्यवाद, मुझे आज होने के लिए धन्यवाद। यह एक ऐसा मामला है जिसमें मैं बेहद दिलचस्पी रखता हूं, क्योंकि लगभग हर संगठन जो मैं अपने दिन-प्रतिदिन के काम में आता हूं, मुझे ठीक वही मुद्दा मिलता है जिसके बारे में हमने प्री-शो के बारे में बहुत संक्षेप में बात की थी, और वह यह है कि अधिकांश संगठन जो कुछ वर्षों से अधिक समय से व्यवसाय में हैं, उनके पास संगठन के चारों ओर दफन डेटा का ढेर है, विभिन्न प्रारूप हैं, और वास्तव में मेरे पास ऐसे ग्राहक हैं जिनके पास डेटा सेट हैं जो लोटस नोट्स पर वापस जाते हैं, डेटाबेस जो अभी भी कुछ में चल रहे हैं उनके छद्म प्रशिक्षुओं के रूप में मामले, और वे, सभी वास्तव में इस चुनौती में चल रहे हैं कि उनका डेटा कहां है, और इसे कैसे प्राप्त किया जाए, इसे किस तक पहुंच प्रदान की जाए, कब उन्हें पहुंच प्रदान की जाए, और कैसे बस कैटलॉग, और इसे एक ऐसी जगह पर कैसे पहुँचा जा सकता है जहाँ हर कोई: ए) इस बात से अवगत हो कि वहाँ क्या है और इसमें क्या है, और बी), इसे कैसे प्राप्त करें और इसका उपयोग कैसे करें। और निश्चित रूप से सबसे बड़ी चुनौतियों में से एक इसे ढूंढ रही है, दूसरी बड़ी चुनौती यह जान रही है कि इसमें क्या है और इसे कैसे एक्सेस किया जाए।

मुझे अच्छी तरह से पता है कि मुझे दर्जनों डेटाबेस मिल चुके हैं, लेकिन मुझे वास्तव में नहीं पता है कि वहां क्या है या कैसे पता करें कि वहां क्या है, और इसलिए हमेशा की तरह जब हम प्री-शो डेटा में अब खोज रहे हैं, तो आप करते हैं कार्यालय के चारों ओर घूमना और प्रश्न पूछना, और घनाभ की दीवारों पर चिल्लाएं और कोशिश करें और पता करें, अक्सर मेरा अनुभव है, आप यह भी पा सकते हैं कि आप सामने की मेज, रिसेप्शन के लिए भटक रहे हैं और पूछ रहे हैं कि कौन जानता है आप बात करने जा रहे हैं। अक्सर, यह हमेशा आईटी लोक नहीं होता है क्योंकि वे डेटा सेट से अनजान होते हैं क्योंकि किसी ने इसे अभी बनाया है, और यह कुछ सरल हो सकता है - काफी बार हम किसी तरह का एक प्रोजेक्ट पाएंगे जो आईटी वातावरण में खड़ा है और परियोजना प्रबंधक ने सभी चीजों की एक स्प्रेडशीट का उपयोग किया, और यह संपत्ति और संदर्भ और नामों के आसपास मूल्यवान जानकारी के कुछ बड़े पैमाने पर मिल गया है, और जब तक आप उस परियोजना को नहीं जानते हैं और आप उस व्यक्ति को जानते हैं, आप बस उस जानकारी को नहीं पा सकते हैं। यह अभी उपलब्ध नहीं है, और आपको उस मूल फ़ाइल को पकड़ना है।

एक वाक्यांश है जो डेटा के संबंध में चारों ओर प्रतिबंध लगा दिया गया है और मैं जरूरी इसके साथ सहमत नहीं हूं, लेकिन मुझे लगता है कि यह एक प्यारा सा फेंक है और यह है कि कुछ लोगों को लगता है कि डेटा नया तेल है, और मैं हूं सुनिश्चित करें कि हम इसे किसी भी पहलू में कवर करने जा रहे हैं, आज भी। लेकिन मैंने जो देखा है, निश्चित रूप से उस परिवर्तन का हिस्सा होने के नाते, व्यवसायों के संगठनों ने अपने डेटा को महत्व देने के लिए सीखा है, उनके प्रतिद्वंद्वियों पर महत्वपूर्ण लाभ प्राप्त किया है।

आईबीएम द्वारा लगभग पांच या छह साल पहले एक दिलचस्प पेपर था, और उन्होंने ऑस्ट्रेलिया में लगभग 4, 000 कंपनियों का सर्वेक्षण किया, और उन्होंने सभी जानकारी, सभी प्रदर्शन डेटा, सभी वित्त डेटा ले लिए और एक उबलते बर्तन में एक साथ रखा। इसे ऑस्ट्रेलियन स्कूल ऑफ इकोनॉमिक्स में भेज दिया, और उन्होंने वास्तव में यहां एक आम चलन शुरू किया, और वह यह था कि प्रौद्योगिकी का लाभ उठाने वाली कंपनियों ने अपने साथियों और प्रतियोगियों के प्रति इस तरह का प्रतिस्पर्धात्मक लाभ प्राप्त किया कि उनके प्रतियोगी लगभग कभी भी पकड़ में नहीं आए, और मुझे लगता है डेटा के साथ अब बहुत ज्यादा ऐसा मामला है कि हमने देखा है कि लोग एक डिजिटल परिवर्तन कहते हैं, जहां संगठनों ने स्पष्ट रूप से पता लगाया है कि उन्हें कैसे डेटा मिला है, उस डेटा को उपलब्ध करने के लिए, और इसे कुछ बहुत ही आसान उपभोज्य में उपलब्ध कराएं। संगठन को फैशन, हमेशा यह जानने के बिना कि संगठन को इसकी आवश्यकता क्यों हो सकती है, और प्रतियोगियों पर महत्वपूर्ण लाभ प्राप्त करें।

मुझे इस स्लाइड पर कुछ उदाहरण मिले हैं, जिन्हें आप देख सकते हैं। मेरी एक लाइन है, यह है कि लगभग हर उद्योग क्षेत्र में बड़े पैमाने पर व्यवधान, मेरे विचार में, डेटा द्वारा संचालित किया जा रहा है, और अगर वर्तमान रुझान कुछ भी हो जाए, तो मेरा विचार है कि हमने केवल वास्तव में प्राप्त किया है शुरू हुआ क्योंकि लंबे समय तक चलने वाले ब्रांड आखिरकार इसका क्या मतलब है और खेल में प्रवेश करते हैं, वे थोक में खेल में प्रवेश करने जा रहे हैं। जब डेटा के पहाड़ वाले प्रमुख रिटेलर्स डेटा पर कुछ ऐतिहासिक विश्लेषण लागू करना शुरू करते हैं, अगर उन्हें पता है कि यह मौजूद है, तो कुछ ऑनलाइन खिलाड़ियों को थोड़ा सा वेकअप कॉल मिलने वाला है।

लेकिन इन ब्रांडों में से अधिकांश के साथ, मेरा मतलब है कि हमें उबर मिला है जो दुनिया में सबसे बड़ी टैक्सी कंपनी है। उनके पास कोई टैक्सी नहीं है, तो ऐसा क्या है जो उन्हें जादू करता है, उनका डेटा क्या है? Airbnb, सबसे बड़ा आवास प्रदाता, हमें WeChat मिल गया है, जो दुनिया की सबसे बड़ी फोन कंपनी है, लेकिन उन्हें कोई वास्तविक बुनियादी ढांचा नहीं मिला है, और न ही कोई हैंडसेट, न ही कोई फोन लाइन। अलीबाबा, ग्रह पर सबसे बड़ा रिटेलर है, लेकिन उनके पास इन्वेंट्री का कोई मालिक नहीं है। फेसबुक, शब्द की सबसे बड़ी मीडिया कंपनी। मुझे लगता है कि अंतिम गणना में उनके पास 1.4 बिलियन सक्रिय डेटा उपयोगकर्ता थे, जो एक मनगढंत संख्या है। यह कहीं भी आस-पास नहीं है - मुझे लगता है कि किसी ने दावा किया था कि ग्रह का एक चौथाई वास्तव में हर दिन वहां है, और फिर भी यहां एक सामग्री प्रदाता है जो वास्तव में सामग्री नहीं बनाता है, उनके द्वारा सेवा किए जाने वाले सभी डेटा उनके द्वारा नहीं बनाए गए हैं, यह बनाया गया है उनके ग्राहकों द्वारा, और हम सभी इस मॉडल को जानते हैं।

सोसायटीऑन, जिसके बारे में आपने सुना होगा या नहीं हो सकता है, यह एक स्थानीय ब्रांड है, मुझे लगता है कि यह उन देशों में से एक बैंक है जो वास्तव में पीयर-टू-पीयर उधार देता है, इसलिए दूसरे शब्दों में, इसके पास पैसा नहीं है। सभी इसे करते हैं यह लेनदेन का प्रबंधन करता है और डेटा इसके नीचे बैठता है। नेटफ्लिक्स, हम सब बहुत, उस से बहुत परिचित हैं। यहां एक दिलचस्प वन-लाइनर है। जब नेटफ्लिक्स कानूनी रूप से ऑस्ट्रेलिया में उपयोग करने में सक्षम था, जब आधिकारिक तौर पर इसकी घोषणा की गई थी, तो आपको इसे प्राप्त करने के लिए वीपीएन का उपयोग करने की आवश्यकता नहीं थी, दुनिया भर में कई लोग करते हैं - यदि आप इसे अपने स्थानीय क्षेत्र में नहीं प्राप्त कर सकते हैं - जब नेटफिक्स को ऑस्ट्रेलिया में लॉन्च किया गया था, तो इसने हमारे इंटरनेट लिंक पर अंतर्राष्ट्रीय बैंडविड्थ को 40 प्रतिशत तक बढ़ा दिया था, इसलिए इसने ऑस्ट्रेलिया में इंटरनेट उपयोग को लगभग दोगुना कर दिया, केवल एक एप्लिकेशन, एक क्लाउड-होस्टेड एप्लिकेशन द्वारा जो डेटा के साथ खेलने के अलावा कुछ नहीं करता है। यह सिर्फ एक मनमौजी स्थिति है।

और हां, हम सभी Apple और Google से परिचित हैं, लेकिन ये ग्रह के सबसे बड़े सॉफ़्टवेयर व्यवसाय हैं, फिर भी वे वास्तव में ऐप्स नहीं लिखते हैं। इन सभी संगठनों के साथ सुसंगत बात क्या है? खैर, यह डेटा है, और वे वहां नहीं पहुंचे क्योंकि उन्हें नहीं पता था कि उनका डेटा कहाँ था, और उन्हें यह नहीं पता था कि इसे कैसे सूचीबद्ध किया जाए।

अब हम जो खोज रहे हैं वह यह है कि इस पूरे नए एसेट क्लास को डेटा के रूप में संदर्भित किया गया है, और कंपनियां इसके लिए जाग रही हैं। लेकिन उनके पास हमेशा वह उपकरण और पता नहीं होता है, जो उस सारे डेटा को मैप करने के लिए, उस सभी डेटा को सूचीबद्ध करने और उसे उपलब्ध कराने के लिए करते हैं, लेकिन हमने पाया है कि लगभग कोई भौतिक संपत्ति वाली कंपनियों ने उच्च बाजार मूल्य प्राप्त नहीं किया है। इस नए डेटा परिसंपत्ति वर्ग के माध्यम से रिकॉर्ड समय। जैसा कि मैंने कहा है, पुराने खिलाड़ियों में से कुछ अब जाग रहे हैं और निश्चित रूप से इसे बाहर ला रहे हैं।

मैं थोड़ी यात्रा पर लोगों को लेने का बहुत बड़ा प्रशंसक हूं, इसलिए अठारह सौ, अठारहवीं सदी के अंत में, और आप अमेरिकी बाजार में इस से परिचित होंगे, यह पता चला कि एक जनगणना को चलाने के लिए प्रत्येक वर्ष या तो, मुझे लगता है कि उन्होंने उस बिंदु पर हर दस साल में उन्हें चलाया, लेकिन अगर आप हर साल एक जनगणना चलाने जा रहे हैं, तो आपको डेटा विश्लेषण करने में आठ या नौ साल लग सकते हैं। यह पता चला कि डेटा सेट तब कागज में स्थानों में बक्से में छोड़ दिया गया था, और लगभग कोई भी इसे नहीं ढूंढ सका। वे केवल इन रिपोर्टों को निकालते रहे, लेकिन वास्तविक डेटा को प्राप्त करना बहुत कठिन था, हमारे पास 1940 के दशक में, दूसरे विश्व युद्ध के साथ, एक और विश्व महत्वपूर्ण क्षण के साथ एक ऐसी ही स्थिति है, और यह बात Bletchley Park Bombe वर्तनी है BOMBE, और यह एक विशाल संख्या-क्रंचिंग विश्लेषणात्मक उपकरण था जो छोटे डेटा सेटों के माध्यम से जाता था और इसमें सिग्नल ढूंढता था, और एनगामा के माध्यम से कोड को क्रैक करने में मदद करने के लिए उपयोग किया जाता था।

यह चीज़ फिर से, अनिवार्य रूप से डिज़ाइन किया गया उपकरण था, कैटलॉग के लिए नहीं, बल्कि डेटा को टैग और मैप करने के लिए, और पैटर्न लेना और डेटा सेट के अंदर इसे खोजने के लिए संभव बनाना, इस मामले में, कोड तोड़ें, कुंजी और वाक्यांश ढूंढें और खोजें। उन्हें नियमित रूप से डेटा सेट में, और इसलिए हम डेटा में चीजों को खोजने की इस यात्रा के माध्यम से किया गया है, और डेटा को सूचीबद्ध करने की ओर अग्रसर हैं।

और फिर ये चीजें साथ आईं, मशीनों के ये बड़े पैमाने पर कम लागत वाले रैक, सिर्फ ऑफ-द-शेल्फ मशीनें। और हमने कुछ बहुत ही दिलचस्प चीजें कीं, और उनमें से एक चीज जो हमने उनके साथ की, वह है हमने बहुत कम लागत वाले क्लस्टर बनाए जो ग्रह को अनुक्रमित करना शुरू कर सकते थे, और बहुत प्रसिद्ध ये बड़े ब्रांड जो आए और चले गए, लेकिन शायद Google का सबसे आम घर है ब्रांड जिसे हमने सुना है - यह एक वास्तविक क्रिया बन गया है, और आपको पता है कि जब आपका ब्रांड क्रिया बन जाता है तो आप सफल होते हैं। लेकिन Google ने जो कुछ भी सिखाया है, संभवत: व्यवसाय की दुनिया में, वह यह है कि वे पूरे ग्रह को एक निश्चित स्तर पर अनुक्रमित करने में सक्षम थे, और दुनिया भर के डेटा को सूचीबद्ध करते हैं, और इसे बहुत आसान में उपलब्ध कराते हैं, एक छोटा सा एक-लाइन सूत्र में सुविधाजनक रूप, एक वेब पेज जिस पर लगभग कुछ भी नहीं है, और आप अपनी क्वेरी में टाइप करते हैं, यह जाता है और इसे पाता है क्योंकि उन्होंने पहले ही ग्रह को क्रॉल कर दिया था, इसे अनुक्रमित किया और आसानी से उपलब्ध कराया।

और जो हमने देखा, "ठीक है, हम संगठनों में ऐसा नहीं कर रहे हैं - ऐसा क्यों है?" ऐसा क्यों है कि हमें एक ऐसा संगठन मिला है जो पूरे ग्रह को मैप कर सकता है और उसे क्रॉल कर सकता है, क्रॉल कर सकता है और उसे उपलब्ध कर सकता है, हम उसे खोज सकते हैं, और फिर उस चीज़ पर क्लिक करके उसे ढूंढ सकते हैं, हम कैसे आए आंतरिक रूप से ऐसा नहीं किया है? ”तो अब दुनिया भर में मशीनों के इन छोटे रैक के बहुत सारे हैं जो इंट्रानेट और चीजों को खोजने के लिए करते हैं, लेकिन वे अभी भी सिर्फ पारंपरिक वेब से परे जाने के विचार के साथ आ रहे हैं पृष्ठ, या फ़ाइल सर्वर।

डेटा कैटलॉग की अगली पीढ़ी में कई तरीकों से प्रवेश करने के बजाय, पोस्ट-इट नोट्स और वॉटर कूलर वार्तालापों के माध्यम से डेटा एक्सेस की खोज करना वास्तव में डेटा की खोज और कैटलॉगिंग के लिए एक उपयुक्त तरीका नहीं है, और वास्तव में, मुझे ऐसा कभी नहीं लगता। वास्तव में था हम अब उस पूरी चुनौती का नेतृत्व नहीं कर सकते हैं जो लोगों को सिर्फ नोट पास करने, और नोट्स पोस्ट करने और इसके बारे में बातचीत करने के लिए चुनौती देता है। हम अच्छी तरह से और वास्तव में उस क्षेत्र से परे हैं जहां डेटा कैटलॉगिंग के लिए यह अगली-जीन दृष्टिकोण आया और चला गया है। हमें इसके चारों ओर अपनी भुजाएँ प्राप्त करनी होंगी। यदि यह एक आसान मुद्दा था, तो हम इसे पहले ही कई तरीकों से हल कर चुके होंगे, लेकिन मुझे लगता है कि यह एक आसान मुद्दा नहीं है, बस डेटा को इंडेक्स करना और कॉल करना इसका केवल एक हिस्सा है, यह जानना कि डेटा में क्या है? हम जो भी खोजते हैं उसके आसपास मेटाडेटा का निर्माण, और फिर इसे एक आसान, उपभोज्य रूप में उपलब्ध कराना, विशेष रूप से स्वयं-सेवा और विश्लेषण के लिए। यह अभी भी एक समस्या है जिसका हल किया जा रहा है, लेकिन पाँच वर्षों में पहेली के कई हिस्से अच्छी तरह से और सही मायने में हल और उपलब्ध हैं।

जैसा कि हम जानते हैं, डेटा को सूचीबद्ध करने वाला मनुष्य विफलता का एक नुस्खा है क्योंकि मानव त्रुटि सबसे बड़ी बुरे सपने में से एक है जिसे हम डेटा प्रोसेसिंग में निपटाते हैं, और मैं नियमित रूप से इस विषय पर बात करता हूं जहां मेरे विचार में, कागज के रूपों में भरने वाले मनुष्य शायद सबसे महान दुःस्वप्न हैं। हम बड़े डेटा और एनालिटिक्स के साथ काम करते हैं, लगातार उन चीजों को ठीक करने के लिए जो वे करते हैं, यहां तक ​​कि दिनांक और फ़ील्ड जैसी सरल चीज़ों के लिए भी, लोग इसे गलत प्रारूप में डालते हैं।

लेकिन जैसा कि मैंने कहा है, हमने हर दिन इंटरनेट सर्च इंजन को दुनिया में देखा है, इसलिए अब हम यह सोच रहे हैं कि खोज प्रक्रिया में व्यावसायिक डेटा सेट पर किया जा सकता है, और उपकरण और सिस्टम अब हैं आसानी से उपलब्ध है जैसा कि आप आज सीखने वाले हैं। तो चाल, वास्तव में मेरे विचार में, सही उपकरण का चयन कर रहा है, नौकरी के लिए सबसे अच्छा उपकरण। और उस के ऊपर अधिक उचित रूप से, इसका सही हिस्सा खोजने में मदद करने के लिए आपको इस मार्ग को शुरू करना है। और मुझे विश्वास है कि हम आज के बारे में सुनने जा रहे हैं, लेकिन इससे पहले कि हम ऐसा करें, मैं अपने कॉलेज रॉबिन ब्लोर को पारित करने जा रहा हूं और इस विषय पर उनकी बात सुनूंगा। रॉबिन, क्या मैं आपके ऊपर से गुजर सकता हूं?

रॉबिन ब्लर: हाँ, निश्चित रूप से आप कर सकते हैं। चलो देखते हैं कि यह काम करता है, ओह हाँ यह करता है। ठीक है, मैं वास्तव में डीज़ से अलग दिशा से आ रहा हूं, लेकिन मैं उसी स्थान पर समाप्त हो जाऊंगा। यह डेटा से जुड़ने के बारे में है, इसलिए मैंने सोचा कि मैं डेटा से जुड़ने की वास्तविकता से गुजरता हूं, वास्तव में बिंदु से।

एक तथ्य यह है कि डेटा पहले से कहीं अधिक खंडित है। डेटा की मात्रा अभूतपूर्व रूप से बढ़ रही है, लेकिन वास्तव में, डेटा के विभिन्न स्रोत भी अविश्वसनीय दर से बढ़ रहे हैं, और इसलिए हर समय डेटा तेजी से खंडित होता जा रहा है। लेकिन विशेष रूप से विश्लेषिकी अनुप्रयोगों के कारण - लेकिन वे केवल अनुप्रयोग नहीं हैं - हमें इस डेटा से जुड़ने के लिए वास्तव में एक अच्छा कारण मिला है, इसलिए हम एक कठिन जगह में फंस गए हैं, हम खंडित डेटा की दुनिया में फंस गए हैं, और डेटा में अवसर के रूप में Dez इसे बुला रहा था, नया तेल।

डेटा के बारे में, अच्छी तरह से, यह फाइल सिस्टम या डेटाबेस में या तो कताई डिस्क पर रहता था। अब यह बहुत अधिक विविध वातावरण में रहता है, यह फाइल सिस्टम में रहता है लेकिन यह आजकल हडोप इंस्टेंसेस या स्पार्क इंस्टेंस में भी रहता है। यह डेटाबेस की कई प्रजातियों में रहता है। बहुत पहले नहीं, हमने कुछ रिलेशनल डेटाबेस को मानकीकृत किया, अच्छी तरह से आप जानते हैं कि पिछले पाँच वर्षों में खिड़की से बाहर चले गए, क्योंकि दस्तावेज़ डेटाबेस की आवश्यकता है, और ग्राफ़ डेटाबेस की आवश्यकता है, इसलिए आप जानते हैं, खेल है बदला हुआ। तो यह कताई डिस्क पर रहता था, लेकिन अब यह एसएसडी पर रहता है। एसएसडी की नवीनतम राशि - निश्चित रूप से नवीनतम एसएसडी इकाई सैमसंग से आ रही है - बीस गीगाबाइट, जो बहुत बड़ा है। अब यह स्मृति में रहता है, इस अर्थ में कि डेटा की मुख्य प्रति स्मृति में हो सकती है, डिस्क पर होने के बजाय, हमने सिस्टम का निर्माण नहीं किया है; अब हम करते हैं। और यह बादल में रहता है। इसका मतलब है कि यह इन चीजों में से किसी में भी रह सकता है, बादल में, आपको जरूरी नहीं पता होगा कि यह एक बादल में कहां है, आपके पास केवल इसका पता होगा।

बस घर को इंगित करने के लिए, Hadoop अब तक एक एक्स्टेंसिबल डेटा स्टोर के रूप में विफल रहा है। हमें उम्मीद थी कि यह एक एक्स्टेंसिबल स्केल-आउट डेटा स्टोर बन जाएगा, और यह सब कुछ के लिए बस एक फ़ाइल सिस्टम बन जाएगा, और यह होगा - इंद्रधनुष आकाश में दिखाई देगा, मूल रूप से, और यूनिकॉर्न चारों ओर नृत्य करेंगे, और इसमें से कोई भी नहीं हुआ। जिसका अर्थ है कि हम डेटा ट्रांसपोर्ट की समस्या को समाप्त करते हैं, और कई बार डेटा ट्रांसपोर्ट की आवश्यकता नहीं होती है, लेकिन यह एक कठिनाई भी है। डेटा वास्तव में आजकल गुरुत्वाकर्षण है, एक बार जब आप डेटा के मल्टी-टेराबाइट्स में मिल जाते हैं, तो इसे उठाकर चारों ओर फेंक देते हैं, इस तरह के कारण आपके नेटवर्क पर प्रकट होने के लिए, या विभिन्न स्थानों में प्रकट होते हैं। यदि आप डेटा को इधर-उधर पहुंचाना चाहते हैं, तो टाइमिंग एक कारक है। लगभग हमेशा, आजकल, कुछ सीमाएं हैं कि आपको एक चीज को प्राप्त करने के लिए कितना समय मिला है, एक डेटा एक जगह से दूसरी जगह पर। वहाँ होता था जो हम बैच विंडो के रूप में सोचते थे, जब मशीन एक प्रकार की निष्क्रिय थी, और आपके पास कितना भी डेटा था, आप बस इसे चारों ओर फेंक सकते हैं और यह सब बाहर काम करेगा। ठीक है कि हम चले गए हैं, हम एक वास्तविक समय की दुनिया में रह रहे हैं। इसलिए समय एक कारक है। जैसे ही आप डेटा को चारों ओर ले जाना चाहते हैं, इसलिए यदि डेटा में गुरुत्वाकर्षण है, तो आप संभवतः इसे स्थानांतरित नहीं कर सकते।

डेटा प्रबंधन इस अर्थ में एक कारक है कि आपको वास्तव में इस सभी डेटा का प्रबंधन करने के लिए मिला है, आपको वह मुफ्त में नहीं मिलता है, और प्रतिकृति वास्तव में उस डेटा को प्राप्त करने के लिए आवश्यक हो सकती है जो उस कार्य को करने के लिए आवश्यक है, क्योंकि हो सकता है कि आपने इसे कहीं भी रखा हो। डेटा का सामान्य प्रसंस्करण करने के लिए इसके पास पर्याप्त संसाधन नहीं हो सकते हैं। इसलिए डेटा को दोहराया जाता है, और जितना आप कल्पना करेंगे उससे अधिक डेटा दोहराया जाता है। मुझे लगता है कि किसी ने मुझे बहुत पहले बताया था कि डेटा का औसत टुकड़ा कम से कम ढाई गुना है। ईएसबी या काफ्का डेटा प्रवाह के लिए एक विकल्प प्रस्तुत करते हैं, लेकिन आजकल यह वास्तुकला की मांग करता है। आजकल आपको वास्तव में एक या दूसरे तरीके से सोचने की ज़रूरत है, कि डेटा को फेंकने का वास्तव में क्या मतलब है। इसलिए, डेटा को एक्सेस करने के लिए, जहां यह आमतौर पर बेहतर होता है, जब तक कि निश्चित रूप से, आपको उस प्रदर्शन की आवश्यकता हो सकती है जब आप वास्तव में डेटा के लिए जाते हैं और यह संदर्भ पर निर्भर करता है। तो यह एक मुश्किल स्थिति है, वैसे भी। डेटा प्रश्नों के संदर्भ में, हम एसक्यूएल के संदर्भ में सोचने में सक्षम थे, हम अब वास्तव में आ गए हैं, आप जानते हैं, प्रश्नों के विभिन्न रूप, एसक्यूएल हाँ, लेकिन आसन्न भी, ग्राफ़ के प्रश्नों के लिए, स्पार्क केवल एक उदाहरण है ग्राफ़ करना, क्योंकि हमें टेक्स्ट खोज करने की भी ज़रूरत है, जितना हमने कभी किया था, उससे भी अधिक प्रकार की खोजें, जो वास्तव में पैटर्न के लिए जटिल खोज हैं, और वास्तविक पैटर्न मिलान, ये सभी चीजें वास्तव में बुदबुदाती हैं। और वे सभी उपयोगी हैं क्योंकि वे आपको वही प्राप्त करते हैं जो आप खोज रहे हैं, या वे आपको प्राप्त कर सकते हैं जो आप देख रहे हैं।

क्वेरीज़ अब कई डेटा फैलाती है, इसलिए यह हमेशा ऐसा नहीं करती थी, और यदि आप ऐसा करते हैं तो अक्सर प्रदर्शन भयावह होता है। तो, यह परिस्थितियों पर निर्भर करता है, लेकिन लोग कई डेटा स्रोतों से डेटा को क्वेरी करने में सक्षम होने की उम्मीद करते हैं, इसलिए एक प्रकार या किसी अन्य का डेटा फेडरेशन अधिक से अधिक वर्तमान हो रहा है। डेटा वर्चुअलाइजेशन, जो प्रदर्शन के आधार पर इसे करने का एक अलग तरीका है, यह भी बहुत आम है। डेटा क्वेरी वास्तव में एक प्रक्रिया का एक हिस्सा है, न कि पूरी प्रक्रिया। यह केवल यह इंगित करने के लायक है कि यदि आप वास्तव में एनालिटिक्स प्रदर्शन देख रहे हैं, तो वास्तविक एनालिटिक्स डेटा एकत्र करने की तुलना में बहुत अधिक समय ले सकता है, क्योंकि यह परिस्थितियों पर निर्भर करता है, लेकिन यदि आप कोई भी करना चाहते हैं, तो डेटा क्वेरी एक परम आवश्यकता है कई डेटा स्रोतों पर तरह-तरह के एनालिटिक्स, और यह सिर्फ, आपको वास्तव में क्षमताओं को फैलाना होगा।

इसलिए कैटलॉग के बारे में। कैटलॉग एक कारण के लिए मौजूद हैं, कम से कम हम कह रहे हैं कि, आप जानते हैं, यह, हमारे पास निर्देशिकाएं हैं, और हमारे पास डेटाबेस में स्कीमा हैं, और हमारे पास प्रत्येक कैटलॉग है और हमारे पास जहां भी आप जाते हैं, आपको एक जगह मिलेगी और फिर आप वास्तव में पाएंगे पता लगाएं कि कुछ प्रकार की कैटलॉग है, और एकीकृत वैश्विक कैटलॉग इस तरह का एक अच्छा विचार है। लेकिन बहुत कम कंपनियों में ऐसा होता है। मुझे याद है, वर्ष में दो हज़ार - वर्ष दो हज़ार घबराहट - मुझे याद है कि कम्युनिस्ट यह भी नहीं बता सकते थे कि उनके पास कितने निष्पादन योग्य थे, उनके पास कभी नहीं था कि उनके पास कितने अलग-अलग डेटा स्टोर हैं, और शायद अब ऐसा ही है।, आप जानते हैं, कि ज्यादातर कंपनियां वैश्विक रूप से सक्रिय रूप से नहीं जानती हैं कि उन्हें क्या डेटा मिला है। लेकिन यह स्पष्ट रूप से एक वैश्विक कैटलॉग, या कम से कम डेटा स्रोतों की वृद्धि, और अनुप्रयोगों के निरंतर विकास के कारण क्या चल रहा है की एक वैश्विक तस्वीर है के लिए तेजी से आवश्यक होता जा रहा है, और यह विशेष रूप से विश्लेषिकी के लिए आवश्यक है, क्योंकि आप भी एक तरह से हैं, और यहाँ अन्य मुद्दे भी हैं जैसे वंशावली और डेटा के साथ समस्याएं, और यह सुरक्षा के लिए आवश्यक है, डेटा शासन के कई पहलू, अगर आपको वास्तव में पता नहीं है कि आपको क्या डेटा मिला है, तो विचार आप इसे नियंत्रित करने जा रहे हैं यह सिर्फ बेतुका है। तो, उस में, किसी भी तरह से सभी डेटा को सूचीबद्ध किया जाता है। सवाल यह है कि क्या सूची सुसंगत है, और वास्तव में आप इसके साथ क्या कर सकते हैं। तो मैं रेबेका को वापस कर दूंगा।

रेबेका जोजवाक: ठीक है, धन्यवाद रॉबिन। अगली बार हमें अल्वेशन से डेविड क्रॉफर्ड मिला है, डेविड मैं आगे जा रहा हूं और आपको गेंद को पास कर दूंगा, और आप इसे ले जा सकते हैं।

डेविड क्रॉफोर्ड: बहुत-बहुत धन्यवाद। मैं वास्तव में आप लोगों की सराहना करता हूं कि इस शो में मेरे पास हैं। मुझे लगता है कि मैं इसे शुरू करने जा रहा हूं, इसलिए मुझे लगता है कि मेरी भूमिका यहां है, उस सिद्धांत को लेना है और देखना है कि यह वास्तव में कैसे लागू किया जाता है, और परिणाम जो हम वास्तविक ग्राहकों पर ड्राइव करने में सक्षम हैं और इसलिए आप देख सकते हैं स्लाइड पर कुछ, मैं इस बारे में बात करना चाहता हूं कि हम विश्लेषणात्मक रूप से संभावित सुधारों में कौन से परिणाम देख पाएंगे। इसलिए चर्चा को प्रेरित करने के लिए, हम इस बारे में बात करने जा रहे हैं कि वे वहां कैसे पहुंचे। इसलिए मैं भाग्यशाली हूं कि वास्तव में बहुत सारे स्मार्ट लोगों, इन ग्राहकों के साथ मिलकर काम करने के लिए मैं बहुत करीब हूं, और मैं केवल कुछ लोगों को इंगित करना चाहता हूं जो वास्तव में मापने में सक्षम हैं, और इस बारे में बात करते हैं कि डेटा कैटलॉग ने उनके विश्लेषक को कैसे प्रभावित किया है। कार्यप्रवाह। और बस संक्षेप में सामने रहने के लिए, मुझे लगता है कि चीजों में से एक है जिसे हम परिवर्तन देखते हैं, डेटा कैटलॉग पिछले मध्यस्थ समाधानों को छंद करता है और उन तरीकों में से एक है जो संबंध वास्तव में उन समाधानों के बारे में सोचते हैं जो हम एक साथ रखते हैं, विश्लेषकों से शुरू करना है। और पीछे की ओर काम करते हैं। कहने के लिए, आइए हम विश्लेषकों की उत्पादकता को सक्षम करने के बारे में इसे बनाते हैं। जैसा कि केवल अनुपालन के विपरीत, या केवल एक इन्वेंट्री होने के विपरीत, हम एक उपकरण बना रहे हैं जो विश्लेषकों को अधिक उत्पादक बनाता है।

इसलिए, जब मैं वित्तीय सेवा कंपनी स्क्वायर के एक डेटा साइंटिस्ट से बात करता हूं, तो एक लड़का है, निक, जो हमें इस बारे में बता रहा है कि कैसे, एक रिपोर्ट शुरू करने के लिए सही डेटा सेट खोजने के लिए उसे कई घंटे लगते थे, अब वह कर सकता है बाजार हिस्सेदारी पर खोज का उपयोग करते हुए सेकंड के मामले में, हमने उनके सीटीओ से बात की, जिन्होंने अपने विश्लेषकों को खींचा जो स्क्वायर का उपयोग कर रहे थे, मुझे माफ करना, अलेशन का उपयोग कर रहे थे, यह पता लगाने के लिए कि उनके, क्या लाभ देखे, और उन्होंने एक 50 की सूचना दी प्रतिशत उत्पादकता में वृद्धि, और यह कि, दुनिया के शीर्ष खुदरा विक्रेताओं में से एक, ईबे, उनके पास एक हजार से अधिक लोग हैं जो नियमित रूप से एसक्यूएल विश्लेषण कर रहे हैं, और मैं वहां पर डेब सेस के साथ मिलकर काम करता हूं, जो परियोजना है उनकी डेटा टूल टीम में प्रबंधक, और उन्होंने पाया कि जब क्लेयर अल्शन को अपनाते हैं, तो एक कैटलॉग को अपनाते हैं, वे डेटाबेस के खिलाफ नए प्रश्नों को लिखने की गति को दोगुना कर रहे हैं।

तो ये वास्तविक परिणाम हैं, ये लोग वास्तव में अपने संगठन में कैटलॉग को लागू कर रहे हैं, और मैं आपको इसे स्थापित करने के लिए क्या लेना चाहता हूं। एक कंपनी में एक कैटलॉग कैसे स्थापित हो जाता है, और शायद सबसे महत्वपूर्ण बात यह कहना है, कि यह बहुत कुछ स्वचालित रूप से होता है, इसलिए डीज़ ने सिस्टम के बारे में बात की, सिस्टम के बारे में सीखना, और ठीक यही एक आधुनिक डेटा कैटलॉग भी करता है। इसलिए वे अपने डेटा सेंटर में Alation इंस्टॉल करते हैं और फिर वे इसे अपने डेटा वातावरण में मेटाडेटा के विभिन्न स्रोतों से जोड़ते हैं। मैं डेटाबेस और बीआई टूल्स पर थोड़ा ध्यान केंद्रित करूंगा - इन दोनों से हम तकनीकी मेटाडेटा निकालने जा रहे हैं, मूल रूप से मौजूद हैं। सही है, तो क्या टेबल? क्या रिपोर्ट? रिपोर्ट की परिभाषाएं क्या हैं? इसलिए वे उस तकनीकी मेटाडेटा को निकालते हैं, और एक कैटलॉग पेज स्वचालित रूप से उन सिस्टम के अंदर प्रत्येक ऑब्जेक्ट के लिए बनाया जाता है, और फिर, वे उस तकनीकी मेटाडेटा के शीर्ष पर भी निकालते हैं और परत करते हैं, वे उपयोग डेटा के ऊपर परत करते हैं। यह मुख्य रूप से डेटाबेस से क्वेरी लॉग को पढ़कर किया जाता है, और यह वास्तव में जानकारी का एक दिलचस्प स्रोत है। इसलिए, जब भी कोई विश्लेषक एक क्वेरी लिखता है, जब भी कोई रिपोर्टिंग टूल, चाहे वह घर में उगाया गया हो, या शेल्फ से बाहर हो, चाहे डैशबोर्ड को अपडेट करने के लिए एक रिपोर्टिंग टूल क्वेरी चलाता है, जब कोई एप्लिकेशन डेटा को संचालित करने के लिए डेटा डालने के लिए क्वेरी चलाता है। एक डेटा सेट - उन सभी चीजों को डेटाबेस क्वेरी लॉग में कैप्चर किया जाता है। आपके पास कैटलॉग है या नहीं, वे डेटाबेस के साथ क्वेरी लॉग में कैप्चर किए जाते हैं। एक डेटा कैटलॉग क्या कर सकता है, और विशेष रूप से एलाशन का कैटलॉग क्या कर सकता है, उन लॉग्स को पढ़ता है, उनके अंदर के प्रश्नों को पूछता है, और उन लॉग्स के आधार पर वास्तव में एक दिलचस्प उपयोग ग्राफ बनाता है, और हम भविष्य के उपयोगकर्ताओं को सूचित करने के लिए इसे खेलते हैं। डेटा के पिछले उपयोगकर्ताओं ने इसका उपयोग कैसे किया है इसके बारे में डेटा।

इसलिए, हम उस सभी ज्ञान को एक सूची में एक साथ लाते हैं, और इस तरह का वास्तविक बनाने के लिए, ये ऐसे एकीकरण हैं जो पहले से ही ग्राहकों पर तैनात हैं, इसलिए, हमने Oracle, Teradata, Redshift, Vertica और अन्य का एक गुच्छा देखा है। संबंधपरक डेटाबेस। Hadoop की दुनिया में, Hadoop पर SQL की एक श्रृंखला है, Hadoop फ़ाइल सिस्टम के शीर्ष पर रिलेशनल, मेटा स्टोर्स की तरह, इम्पाला, Tez, प्रेस्टो और Hive, हमने Altiscale जैसे क्लाउड Hopop निजी प्रदाताओं के साथ भी सफलता देखी है, और हम भी झांकी सर्वर, MicroStrategy सर्वर से कनेक्ट करने और डैशबोर्ड्स को इंडेक्स करने में सक्षम है, साथ ही साथ प्लॉटली जैसे डेटा साइंस चार्टिंग टूल के साथ एकीकरण भी।

इसलिए, हम इन सभी प्रणालियों से जुड़ते हैं, हमने इन प्रणालियों को ग्राहकों से जोड़ा है, हमने तकनीकी मेटाडेटा में खींच लिया है, हमने उपयोग डेटा में खींच लिया है, और हम डेटा कैटलॉग को स्वचालित रूप से छांटते हैं, लेकिन उस तरह से, हम ज्ञान को केंद्रीकृत करें, लेकिन सिर्फ डेटा कैटलॉग में चीजों को केंद्रीकृत करने से, वास्तव में उन अद्भुत उत्पादकता को बढ़ावा नहीं देता है जो हमने ईबे, स्क्वायर और मार्केट शेयर के साथ बात की थी। ऐसा करने के लिए, हमें वास्तव में विश्लेषकों को ज्ञान देने के बारे में सोचने के तरीके को बदलने की आवश्यकता है। एक सवाल जो वे इसके लिए तैयार करने के लिए कह रहे हैं, वह था, "कैटलॉग वास्तव में एक विश्लेषक के वर्कफ़्लो को कैसे प्रभावित करता है?"

यही हम पूरे दिन के बारे में सोचने में बिताते हैं, और सोच में इस बदलाव के बारे में बात करने के लिए, एक पुश मॉडल को एक पुल मॉडल के रूप में, मैं एक जलाने पर पढ़ने से पहले और बाद में दुनिया की तरह एक त्वरित सादृश्य बनाना चाहता था। तो यह सिर्फ आप में से कुछ एक अनुभव हो सकता है, जब आप एक भौतिक पुस्तक पढ़ रहे हैं, तो आप एक शब्द भर में आते हैं, आपको यकीन नहीं है कि आप जानते हैं कि शब्द की परिभाषा सुपर अच्छी तरह से है, आप शायद इसे संदर्भ से अनुमान लगा सकते हैं, न कि संभावना है कि आप सोफे से उठने के लिए जा रहे हैं, अपने बुकशेल्फ़ पर जाएं, अपना शब्दकोश ढूंढें, उसे धूल चटाएं और यह सुनिश्चित करने के लिए शब्दों की वर्णमाला सूची में सही जगह पर फ्लिप करें, हाँ, आपके पास वह परिभाषा बस सही थी, और आप जानते हैं इसकी बारीकियां। तो यह वास्तव में नहीं होता है। इसलिए आप एक किंडल ऐप खरीदते हैं और आप वहां किताबें पढ़ना शुरू करते हैं, और आप एक ऐसा शब्द देखते हैं जिसके बारे में आप पूरी तरह से निश्चित नहीं हैं और आप इस शब्द को छू लेते हैं। उसी स्क्रीन में अचानक, सही शब्द की शब्द परिभाषा है, इसकी सभी बारीकियों के साथ, विभिन्न उदाहरण usages, और आप थोड़ा स्वाइप करते हैं, और आपको उस विषय पर एक विकिपीडिया लेख मिलता है, आप फिर से स्वाइप करते हैं, आपको एक अनुवाद उपकरण मिलता है जो इसे अन्य भाषाओं में या अन्य भाषाओं से अनुवाद कर सकता है, और अचानक भाषा का आपका ज्ञान इतना अधिक समृद्ध होता है, और यह सिर्फ एक आश्चर्यजनक संख्या में होता है, जबकि आपको जाना था और उस संसाधन को अपने लिए खींचो।

और इसलिए मैं जो तर्क देने जा रहा हूं, वह यह है कि एक विश्लेषक के लिए वर्कफ़्लो और जिस तरह से एक विश्लेषक डेटा डॉक्यूमेंटेशन से निपटेगा, वह वास्तव में बहुत ही समान है कि कैसे एक पाठक शब्दकोश के साथ बातचीत करेगा, चाहे एक भौतिक हो, या यद्यपि किंडल, और इसलिए हम क्या करते हैं, जिस तरह से हमने वास्तव में इस उत्पादकता को बढ़ावा दिया है, वह कैटलॉग को स्पिल नहीं कर रहा है, लेकिन इसे विश्लेषक के वर्कफ़्लो से जोड़ रहा है, और इसलिए, उन्होंने मुझे यहां एक डेमो करने के लिए कहा है, और मैं चाहता हूं इस प्रस्तुति का फ़ोकस बनाने के लिए। लेकिन मैं केवल डेमो के लिए संदर्भ सेट करना चाहता हूं। जब हम उपयोगकर्ताओं को डेटा ज्ञान को धक्का देने के बारे में सोचते हैं जब उन्हें इसकी आवश्यकता होती है, तो हम सोचते हैं कि ऐसा करने के लिए सही जगह है, जिस जगह पर वे अपना समय बिताते हैं और जहां वे विश्लेषण कर रहे हैं, वह SQL क्वेरी उपकरण है। ऐसी जगह जहाँ आप SQL क्वेरी लिखते और चलाते हैं। और इसलिए हमने एक बनाया, और हमने इसे बनाया, और जो चीज अन्य क्वेरी टूल्स से इसके बारे में वास्तव में अलग है, वह डेटा कैटलॉग के साथ इसका गहन एकीकरण है।

तो हमारे क्वेरी टूल को Alation Compose कहा जाता है। यह एक वेब-आधारित क्वेरी टूल है और मैं इसे एक सेकंड में दिखाऊंगा। एक वेब-आधारित क्वेरी टूल जो उन सभी डेटाबेस लोगो पर काम करता है जिन्हें आपने पिछली स्लाइड पर देखा था। मैं विशेष रूप से डेमो करने की कोशिश करने जा रहा हूं वह तरीका है जो कैटलॉग जानकारी उपयोगकर्ताओं के लिए आता है। और यह इस तरह के तीन अलग-अलग तरीकों से करता है। यह हस्तक्षेपों के माध्यम से करता है, और यही वह जगह है जहां कोई डेटा गवर्नर, या डेटा स्टूवर्ड, या किसी तरह के प्रशासक या प्रबंधक के रूप में, कह सकता है, "मैं एक नोट या चेतावनी के साथ हस्तक्षेप करना चाहता हूं वर्कफ़्लो और सुनिश्चित करें कि यह सही समय पर उपयोगकर्ताओं को वितरित किया गया है। ”तो यह एक हस्तक्षेप है और हम इसे दिखाएंगे।

स्मार्ट सुझाव एक ऐसा तरीका है जहां उपकरण कैटलॉग के अपने कुल ज्ञान का उपयोग वस्तुओं और किसी क्वेरी के हिस्सों को सुझाव देने के लिए करता है जैसा कि आप इसे लिख रहे हैं। वहाँ जानने के लिए सबसे महत्वपूर्ण बात यह है कि यह वास्तव में क्वेरी लॉग का लाभ उठाता है, ताकि उपयोग के आधार पर चीजों का सुझाव दिया जा सके और प्रश्नों के उन हिस्सों को भी खोजा जा सके जो पहले लिखे गए हैं। और हम वही दिखाएंगे।

और फिर पूर्वावलोकन। पूर्वावलोकन हैं, जैसा कि आप किसी ऑब्जेक्ट के नाम से लिख रहे हैं, हम आपको वह सब कुछ दिखाते हैं जो कैटलॉग जानता है, या कम से कम सबसे प्रासंगिक चीजें हैं जो कैटलॉग को उस ऑब्जेक्ट के बारे में पता है। तो डेटा के नमूने, जिन्होंने इसे पहले इस्तेमाल किया था, उस वस्तु का तार्किक नाम और विवरण, सभी आपके पास आते हैं, जबकि आप इसे लिखने के लिए बिना जाने इसे लिख रहे हैं।

तो बिना किसी और बात के, मैं डेमो में पहुंच जाऊंगा, और मैं इसके प्रदर्शित होने का इंतजार करने जा रहा हूं। जो मैं आपको यहां दिखाने जा रहा हूं वह क्वेरी टूल है। यह एक समर्पित SQL लेखन इंटरफ़ेस है। यह एक निश्चित अर्थ में, कैटलॉग से एक अलग इंटरफ़ेस है। डीज़ और रॉबिन ने कैटलॉग के बारे में बात की, और मैं सीधे कैटलॉग इंटरफ़ेस पर थोड़ा सा कूद रहा हूं कि यह वर्कफ़्लो की सेवा के लिए सीधे कैसे लाया जाता है।

मैं यहाँ एक जगह दिखा रहा हूँ जहाँ मैं SQL टाइप कर सकता हूँ, और नीचे आप देखेंगे कि हम वस्तुओं के बारे में कुछ ऐसी जानकारी रखते हैं जो हम संदर्भित कर रहे हैं। तो मैं बस एक क्वेरी लिखना शुरू करने जा रहा हूं और जब मैं इनमें से किसी एक हस्तक्षेप पर पहुंचूंगा तो रुक जाऊंगा। इसलिए मैं वर्ष का चयन करूंगा। मुझे नाम चाहिए। और मैं कुछ वेतन डेटा देखने जा रहा हूं। तो यह एक शिक्षा डेटा सेट है। इसमें उच्च शिक्षा संस्थानों के बारे में जानकारी है, और मैं इन तालिकाओं में से एक में औसत संकाय वेतन देख रहा हूं।

इसलिए मैंने वास्तव में "वेतन" शब्द टाइप किया है। यह उस तरह से कॉलम के नाम पर नहीं है। हम सुझाव देने के लिए तार्किक मेटाडेटा और भौतिक मेटाडेटा दोनों का उपयोग करते हैं। और जो मैं यहां इंगित करना चाहता हूं वह यह पीला बॉक्स है जो यहां दिखाई दे रहा है। यह कहता है कि इस स्तंभ पर एक चेतावनी है। मैं उस की तलाश में नहीं गया था, मैंने इस डेटा का ठीक से उपयोग करने के बारे में कोई क्लास नहीं ली। यह मेरे पास आया, और यह एक गोपनीयता समझौते के बारे में एक चेतावनी है जो इस डेटा के साथ करना है। तो कुछ प्रकटीकरण नियम हैं। यदि मैं इस डेटा को क्वेरी करने जा रहा हूं, तो मैं इस तालिका से डेटा लेने जा रहा हूं, मुझे इस बारे में सावधान रहना चाहिए कि मैं इसे कैसे प्रकट करता हूं। इसलिए आपके यहाँ शासन की नीति है। कुछ अनुपालन चुनौतियां हैं जो इस नीति का अनुपालन करना इतना आसान बनाती हैं जब मुझे उस समय के बारे में पता होता है जब मैं डेटा देख रहा होता हूं।

तो मुझे लग गया कि मेरे पास आ रहा है, और फिर मैं भी ट्यूशन देखने जा रहा हूं। और यहाँ हम प्रीव्यू को खेलते हुए देखते हैं। इस ट्यूशन कॉलम पर, मैं देखता हूं - संस्थान की मेज पर एक ट्यूशन कॉलम है, और मैं उसी का एक प्रोफाइल देख रहा हूं। Alation जाता है और टेबलों से नमूना डेटा खींचता है, और इस मामले में, यह मुझे कुछ ऐसा दिखा रहा है जो बहुत दिलचस्प है। यह मुझे मूल्यों के वितरण को दिखा रहा है, और यह मुझे दिखा रहा है कि नमूने में शून्य मूल्य 45 गुना और किसी भी अन्य मूल्य से अधिक दिखाया गया है। इसलिए मुझे कुछ समझ आ गया है कि हम कुछ डेटा गायब हो सकते हैं।

अगर मैं एक उन्नत विश्लेषक हूं, तो यह मेरे वर्कफ़्लो का हिस्सा हो सकता है। खासकर अगर मैं एक विशेष रूप से सावधानीपूर्वक हूं, जहां मैं समय से पहले प्रोफाइलिंग प्रश्नों का एक समूह बनाऊंगा। जब भी मैं डेटा का एक नया टुकड़ा ले रहा हूं, मैं हमेशा सोचता हूं कि हमारा डेटा कवरेज क्या है। लेकिन अगर मैं डेटा विश्लेषण के लिए नया हूं, अगर मैं इस डेटा सेट में नया हूं, तो मैं मान सकता हूं कि अगर कोई कॉलम है, तो वह हर समय भरा रहता है। या मैं यह मान सकता हूं कि यदि यह भरा नहीं है, तो यह शून्य नहीं है, यह शून्य या ऐसा कुछ है। लेकिन इस मामले में, हमारे पास बहुत सारे शून्य हैं, और अगर मैंने एक औसत किया, तो वे शायद गलत होंगे, अगर मैंने सिर्फ यह मान लिया कि वे शून्य वास्तव में लापता डेटा के बजाय शून्य थे।

लेकिन Alation, इस पूर्वावलोकन को आपके वर्कफ़्लो में लाकर, आपको इस जानकारी पर एक नज़र डालने के लिए कहता है और यहां तक ​​कि नौसिखिया विश्लेषकों को यह देखने का मौका देता है कि उस डेटा के बारे में यहां कुछ देखने को मिला है। तो हमारे पास वह पूर्वावलोकन है।

अगली चीज़ जो मैं करने जा रहा हूँ, मैं यह पता लगाने की कोशिश करने जा रहा हूँ कि इस जानकारी को प्राप्त करने के लिए कौन सी सारणियाँ हैं। इसलिए यहां हम स्मार्ट सुझावों को देखते हैं। यह हर समय चल रहा है, लेकिन विशेष रूप से यहां, मैंने कुछ भी टाइप नहीं किया है, लेकिन यह मुझे सुझाव देने जा रहा है कि मैं इस क्वेरी के लिए कौन से टेबल का उपयोग करना चाहता हूं। और इसके बारे में जानने के लिए सबसे महत्वपूर्ण बात यह है कि यह उपयोग के आँकड़ों का लाभ उठाता है। उदाहरण के लिए, उदाहरण के लिए, ईबे, जहां आपके पास एक डेटाबेस में सैकड़ों हज़ारों टेबल हैं, एक ऐसा उपकरण है जो गेहूं के टुकड़े से टकरा सकता है और उन उपयोग के आँकड़ों का उपयोग कर सकता है, वास्तव में इन्हें बनाने के लिए महत्वपूर्ण है कुछ लायक सुझाव।

तो यह इस तालिका का सुझाव देने जा रहा है। जब मैं पूर्वावलोकन देखता हूं, तो हम वास्तव में उन तीन स्तंभों को उजागर करते हैं जिनका मैंने पहले ही उल्लेख किया है। इसलिए मुझे पता है कि यह तीन है, लेकिन इसका नाम नहीं है। मुझे नाम प्राप्त करने की आवश्यकता है, इसलिए मैं एक जॉइन करने जा रहा हूं। जब मैं एक जॉइन करता हूं, तो अब मुझे ये ढूंढने में मदद मिलेगी कि मुझे नाम के साथ टेबल कहां है। इसलिए मैं देखता हूं कि यह एक अच्छी तरह से स्वरूपित है, ठीक तरह से पूंजीकृत नाम। ऐसा लगता है कि प्रत्येक संस्थान के लिए एक नाम के साथ एक पंक्ति है, इसलिए मैं इसे हथियाने जा रहा हूं, और अब मुझे एक सम्मिलित स्थिति की आवश्यकता है।

और इसलिए, यहाँ जो Alation कर रहा है, वह फिर से क्वेरी लॉग में दिख रहा है, पिछली बार यह देखते हुए कि ये दोनों टेबल जुड़ गए हैं, और उन्हें शामिल करने के लिए अलग-अलग तरीके सुझा रहे हैं। एक बार फिर, कुछ हस्तक्षेप है। यदि मैं इनमें से किसी एक को देखता हूं, तो यह एक चेतावनी मिली है जो मुझे दिखाती है कि इसका उपयोग केवल समग्र विश्लेषण के लिए किया जाना चाहिए। यदि आप संस्था द्वारा संस्था के माध्यम से कुछ करने की कोशिश कर रहे हैं तो यह शायद गलत चीज का उत्पादन करेगा। जबकि यह एक, OPE ID के साथ इन दो तालिकाओं में शामिल होने के उचित तरीके के रूप में समर्थित है, यदि आप विश्वविद्यालय स्तर के डेटा चाहते हैं। तो मैं ऐसा करता हूं, और यह एक छोटी क्वेरी है, लेकिन मैंने अपनी क्वेरी को वास्तव में आवश्यक रूप से लिखा है कि डेटा क्या है, इसके बारे में कोई जानकारी नहीं है। मैंने वास्तव में इस डेटा सेट के ईआर आरेख को कभी नहीं देखा है, लेकिन मैं इस डेटा के बारे में पहले से ही काफी कुछ जानता हूं क्योंकि प्रासंगिक जानकारी मेरे पास आ रही है।

इसलिए वे तीन तरीके हैं जो एक कैटलॉग कर सकते हैं, एक एकीकृत क्वेरी टूल के माध्यम से, वर्कफ़्लो को सीधे प्रभावित कर सकते हैं जैसा कि आप प्रश्न लिख रहे हैं। लेकिन एक क्वेरी टूल के कैटलॉग के साथ एकीकृत होने के अन्य लाभों में से एक यह है कि, जब मैं अपनी क्वेरी समाप्त करता हूं और मैं इसे सहेजता हूं, तो मैं "इंस्टीट्यूशन ट्यूशन एंड फैकल्टी सैलरी" जैसे शीर्षक रख सकता हूं और फिर मेरे पास यहां एक बटन है मुझे सिर्फ कैटलॉग में प्रकाशित करने की अनुमति देता है। मेरे लिए इस पीठ को खिलाना बहुत आसान हो गया। यहां तक ​​कि अगर मैं इसे प्रकाशित नहीं करता हूं, तो इसे क्वेरी लॉग के भाग के रूप में कैप्चर किया जा रहा है, लेकिन जब मैं इसे प्रकाशित करता हूं, तो यह वास्तव में उस तरीके का हिस्सा बन जाता है जहां केंद्रीकृत स्थान होता है जहां सभी डेटा ज्ञान रहते हैं।

इसलिए यदि मैं खोज में सभी प्रश्नों के लिए खोज पर क्लिक करता हूं, तो मैं ले जाऊंगा - और यहां आपको कैटलॉग इंटरफ़ेस कुछ और दिखाई देगा - मुझे एक समर्पित क्वेरी खोज पर ले जाया गया है, जो मुझे प्रश्नों को खोजने का एक तरीका दिखाता है संपूर्ण संगठन। और आप देखते हैं कि मेरी नई प्रकाशित क्वेरी शीर्ष पर है। और कुछ यहाँ पर नोटिस कर सकते हैं, जैसा कि हम प्रश्नों को कैप्चर करते हैं, हम लेखकों को भी कैप्चर करते हैं, और हम एक लेखक और इन डेटा ऑब्जेक्ट्स के रूप में मेरे बीच इस संबंध को स्थापित करते हैं, जिसके बारे में मुझे अब कुछ पता है। और मैं इस क्वेरी पर और इन डेटा ऑब्जेक्ट्स पर एक विशेषज्ञ के रूप में स्थापित हो रहा हूं। यह वास्तव में उपयोगी है जब लोगों को डेटा के बारे में जानने की आवश्यकता होती है, तो वे सही व्यक्ति को खोजने के लिए जा सकते हैं। और अगर मैं वास्तव में डेटा के लिए नया हूं, चाहे मैं एक उन्नत विश्लेषक हूं - एक उन्नत विश्लेषक के रूप में, मैं इसे देख सकता हूं और उदाहरणों का एक गुच्छा देख सकता हूं जो मुझे एक नए डेटा सेट पर शुरू करेंगे। जैसा कि कोई व्यक्ति जो एसक्यूएल के साथ सुपर प्रेमी महसूस नहीं कर सकता है, मैं पूर्व-निर्मित प्रश्नों को पा सकता हूं जो कि ऐसी रिपोर्टें हैं जिनका मैं लाभ उठा सकता हूं।

यहां फिल माजनेट द्वारा माध्य सैट के अंकों के बारे में बताया गया है। इस पर क्लिक करें, और मुझे क्वेरी के लिए केवल एक कैटलॉग पेज मिलता है। यह एक ऐसे लेख के बारे में बात करता है जो लिखा गया था कि इस क्वेरी को संदर्भित करता है, इसलिए मेरे लिए पढ़ने के लिए कुछ दस्तावेज हैं यदि मैं सीखना चाहता हूं कि इसका उपयोग कैसे करना है। और मैं इसे कंपोज़ बटन पर क्लिक करके क्वेरी टूल में खोल सकता हूं, और मैं इसे बिना एडिट किए भी इसे अपने यहां चला सकता हूं। और वास्तव में, आपको हमारी हल्की रिपोर्टिंग क्षमताओं का एक छोटा सा हिस्सा देखने को मिलता है, जहां, जब आप एक प्रश्न लिख रहे होते हैं, तो आप इस तरह से एक टेम्पलेट चर में छोड़ सकते हैं और यह एक क्वेरी बनाने के लिए फ़ॉर्म को बनाने का एक सरल तरीका बनाता है मापदंडों के एक जोड़े पर।

तो यही मेरे पास डेमो के लिए है। मैं वापस स्लाइड पर जा रहा हूँ। बस पुनरावृत्ति के लिए, हमने दिखाया कि कैसे एक व्यवस्थापक, एक डेटा गवर्नर, क्वेरी टूल में दिखाई देने वाली वस्तुओं पर चेतावनी देकर हस्तक्षेप कर सकता है, कैसे Alation स्मार्ट सुझावों का उपयोग करने के लिए डेटा ऑब्जेक्ट्स के उपयोग के अपने ज्ञान का उपयोग करता है, यह कैसे लाता है प्रोफाइलिंग और अन्य युक्तियों में विश्लेषकों के वर्कफ़्लोज़ को बेहतर बनाने के लिए जब वे विशेष वस्तुओं को छू रहे हों, और नए प्रश्नों के लिखे जाने पर उस प्रकार के सभी फीड में कैसे वापस जाएँ।

जाहिर है कि मैं कंपनी की ओर से प्रवक्ता हूं। मैं डेटा कैटलॉग के बारे में अच्छी बातें कहने जा रहा हूं। यदि आप हमारे ग्राहकों में से एक से सीधे सुनना चाहते हैं, तो Safeway में क्रिस्टी एलन विश्लेषकों की एक टीम चलाता है और एक समय के बारे में एक बहुत अच्छी कहानी है जब उसे विपणन प्रयोग देने के लिए घड़ी को वास्तव में हरा देने की आवश्यकता होती है, और उसकी पूरी कैसे होती है टीम ने सहयोग के लिए और उस परियोजना पर वास्तव में जल्दी से बारी करने के लिए Alation का उपयोग किया। तो आप उस कहानी की जाँच करने के लिए इस bit.ly लिंक का अनुसरण कर सकते हैं, या यदि आप इस बारे में थोड़ा सुनना चाहते हैं कि कैसे Alation आपके संगठन में डेटा कैटलॉग ला सकता है, तो हम एक व्यक्तिगत डेमो सेट करके खुश हैं। बहुत बहुत धन्यवाद।

रेबेका जोजवियाक: बहुत बहुत धन्यवाद, डेविड। मुझे यकीन है कि इससे पहले कि मैं दर्शकों को क्यू एंड ए पर घुमाऊं, डीज़ और रॉबिन के कुछ सवाल हैं। Dez, क्या आप पहले जाना चाहते हैं?

Dez Blanchfield: बिल्कुल। मुझे प्रकाशित प्रश्नों की इस अवधारणा का विचार पसंद है और इसे संलेखन के स्रोत से जोड़ना है। मैं एक इन-हाउस ऐप स्टोर के इस विचार का लंबे समय से चैंपियन रहा हूं और मुझे लगता है कि यह उस पर निर्माण करने के लिए एक बहुत बड़ी नींव है।

मुझे इस तरह की कुछ संस्थाओं में कुछ अंतर्दृष्टि मिली, जो आप ऐसा कर रहे हैं, और कुछ सफलता की कहानियां जो उन्हें इस पूरी यात्रा के साथ न केवल आपके टूल और प्लेटफ़ॉर्म का डेटा खोजने के लिए मिलनी चाहिए थीं, बल्कि इसके बाद अपने आंतरिक सांस्कृतिक और व्यवहार लक्षणों को भी बदल देते हैं। अब इस तरह का इन-हाउस ऐप स्टोर होना चाहिए जहाँ आप केवल डाउनलोड को पसंद करते हैं, वह अवधारणा जहाँ वे न केवल इसे खोज सकते हैं, बल्कि वे वास्तव में उस ज्ञान के रखवाले के साथ छोटे समुदायों को विकसित करना शुरू कर सकते हैं।

डेविड क्रॉफोर्ड: हाँ, मुझे लगता है कि हमें आश्चर्य हुआ है। हम प्रश्नों को साझा करने के मूल्य पर विश्वास करते हैं, मेरे अतीत से एडटेक में एक उत्पाद प्रबंधक के रूप में और उन सभी ग्राहकों से जो हमने बात की है, लेकिन मुझे अभी भी आश्चर्य हुआ है कि यह ग्राहकों की पहली चीजों में से कितनी बार है? मूल्य के बारे में बात करें कि वे Alation से बाहर निकलते हैं।

मैं Invoice2go नामक हमारे ग्राहकों में से एक पर क्वेरी टूल के कुछ उपयोगकर्ता परीक्षण कर रहा था, और उनके पास एक उत्पाद प्रबंधक था जो अपेक्षाकृत नया था, और उन्होंने कहा - उन्होंने वास्तव में मुझे बताया, उपयोगकर्ता परीक्षण के दौरान अप्रकाशित, "मैं वास्तव में नहीं करूंगा एसक्यूएल को बिल्कुल भी लिखना छोड़ दें, क्योंकि यह Alation द्वारा आसान बना दिया गया है। ”और निश्चित रूप से, पीएम के रूप में, मैं एक तरह से जाना चाहता हूं, “ आपका क्या मतलब है, हमने ऐसा कैसे किया? ”और उन्होंने कहा, “ ठीक है, वास्तव में यह सिर्फ है? क्योंकि मैं लॉग इन कर सकता हूं और मैं इन सभी मौजूदा प्रश्नों को देख सकता हूं। ”SQL के साथ एक खाली स्लेट के साथ शुरू करना एक अविश्वसनीय रूप से कठिन काम है, लेकिन एक मौजूदा क्वेरी को संशोधित करना जहां आप परिणाम डाल सकते हैं और आप कह सकते हैं, "ओह, मुझे बस इस अतिरिक्त कॉलम की आवश्यकता है, " या, "मुझे इसे विशेष तिथियों तक फ़िल्टर करने की आवश्यकता है, " यह करना बहुत आसान है।

हमने इस तरह की सहायक भूमिकाओं को देखा है, जैसे उत्पाद प्रबंधक, शायद बिक्री ऑप्स के लोग, जो चुनना शुरू करते हैं, और जो हमेशा एसक्यूएल सीखना चाहते थे और इस कैटलॉग का उपयोग करके इसे चुनना शुरू करते हैं। हमने यह भी देखा है कि बहुत सारी कंपनियों ने खुले स्रोत की तरह काम करने की कोशिश की है। मैंने आंतरिक रूप से इस प्रकार की चीजों को बनाने की कोशिश की है, जहां वे प्रश्नों को ट्रैक करते हैं और इसे उपलब्ध करते हैं, और कुछ उपयोगी तरह की ट्रिकी डिजाइन चुनौतियां हैं, जो उन्हें उपयोगी बनाती हैं। फेसबुक के पास एक आंतरिक उपकरण है जिसे उन्होंने HiPal कहा है जो हाइव पर लिखे गए सभी प्रश्नों पर कब्जा कर लिया है, लेकिन आपको जो पता चलता है, वह यह है कि यदि आप उपयोगकर्ताओं को सही तरीके से परेशान नहीं करते हैं, तो आप बस एक के साथ समाप्त होते हैं चुनिंदा बयानों की बहुत लंबी सूची। और एक उपयोगकर्ता के रूप में जो यह पता लगाने की कोशिश कर रहा है कि क्या कोई क्वेरी मेरे लिए उपयोगी है या यदि यह किसी भी अच्छी है, अगर मैं सिर्फ चुनिंदा बयानों की एक लंबी सूची के माध्यम से देखता हूं, तो मुझे वहां से कुछ मूल्य प्राप्त करने में बहुत अधिक समय लगेगा। आरंभ से शुरुआत करते हुए। हमने इस बात पर बहुत ध्यान से सोचा कि कैसे एक क्वेरी कैटलॉग बनाया जाए जो सही सामान को सामने लाए और इसे उपयोगी तरीके से प्रदान करे।

डीज़ ब्लांचफील्ड: मुझे लगता है कि हम सभी बहुत कम उम्र से, वयस्कता के माध्यम से, कई मायनों में इस यात्रा से गुजरते हैं। प्रौद्योगिकियों का एक समूह। मैं, व्यक्तिगत रूप से, मैं उसी वास्तविक चीज़ से गुज़रा हूँ, जैसे, कोड काटना सीखना। मैं पत्रिकाओं और फिर पुस्तकों के माध्यम से जाता हूं, और मैं एक निश्चित स्तर तक अध्ययन करूंगा, और फिर मुझे जाने की जरूरत थी और वास्तव में इस पर कुछ और प्रशिक्षण और शिक्षा प्राप्त की।

लेकिन अनजाने में मैंने पाया कि जब मैं खुद को पढ़ाने और पत्रिकाओं को पढ़ने और किताबों को पढ़ने और अन्य लोगों के कार्यक्रमों और उस पर पाठ्यक्रमों में जाने से दूर था, तब भी मैंने पाठ्यक्रमों को करने से उतना ही सीख लिया, जितना मैंने अन्य से बात करना जिन लोगों के पास कुछ अनुभव थे। और मुझे लगता है कि यह एक दिलचस्प खोज है, जिसे अब आप डेटा एनालिटिक्स में लाते हैं, हम मूल रूप से उसी समानान्तर को देख रहे हैं, जो कि इंसानों के लिए काफी स्मार्ट हैं।

दूसरी बात जो मैं वास्तव में समझने के लिए उत्सुक हूं, बहुत उच्च स्तर पर, कई संगठन पूछने जा रहे हैं, "उस बिंदु पर पहुंचने में कितना समय लगता है?" आपके प्लेटफ़ॉर्म को स्थापित किया गया और उन्होंने उपकरणों के प्रकारों की खोज शुरू कर दी? लोग इस बात को कितनी जल्दी देख रहे हैं, यह वास्तव में एक तत्काल '' ए-हा '' क्षण में बदल जाता है, जहां उन्हें एहसास होता है कि वे अब आरओआई के बारे में चिंता नहीं कर रहे हैं क्योंकि यह वहां है, लेकिन अब वे वास्तव में जिस तरह से वे व्यवसाय कर रहे हैं वह बदल रहा है ? और उन्होंने एक खोई हुई कला की खोज की है और उन्हें उम्मीद है कि वे वास्तव में कुछ कर सकते हैं, वास्तव में इसके साथ मज़ेदार हैं।

डेविड क्रॉफर्ड: हाँ, मैं इसे थोड़ा सा छू सकता हूं। मुझे लगता है कि जब हम स्थापित हो जाते हैं, कि एक अच्छी चीज़, एक चीज़ के बारे में जो लोग एक कैटलॉग के बारे में पसंद करते हैं जो सीधे डेटा सिस्टम में जुड़ा होता है, तो यह है कि आप खाली नहीं शुरू करते हैं जहाँ आपको इसे भरना है। पेज दर पेज। और यह पिछले डेटा समाधानों के बारे में सच है जहाँ आप एक खाली टूल के साथ शुरू करेंगे और आपको वह सब कुछ के लिए एक पेज बनाना शुरू करना होगा जिसे आप दस्तावेज़ में लाना चाहते हैं।

चूंकि हम मेटाडेटा को निकालने के द्वारा स्वचालित रूप से बहुत सी चीजों को दस्तावेज करते हैं, अनिवार्य रूप से सॉफ़्टवेयर स्थापित होने के कुछ दिनों के भीतर, आपके पास अपने डेटा वातावरण की एक तस्वीर हो सकती है जो उपकरण में कम से कम 80 प्रतिशत है। और फिर मुझे लगता है कि जैसे ही लोग टूल के साथ प्रश्न लिखना शुरू करते हैं, वे स्वचालित रूप से कैटलॉग में वापस आ जाते हैं, और इसलिए वे इसे भी दिखाना शुरू कर देंगे।

मैं इसे बताते हुए अति-उत्सुक नहीं होना चाहता। मुझे लगता है कि दो सप्ताह एक बहुत अच्छा रूढ़िवादी अनुमान है, एक महीने के लिए। दो महीने से एक महीने, रूढ़िवादी अनुमान वास्तव में चारों ओर घूम रहा है और महसूस कर रहा है जैसे आप इसे से बाहर निकाल रहे हैं, जैसे कि आप कुछ ज्ञान साझा करना शुरू कर रहे हैं और वहां जाने और अपने डेटा के बारे में चीजों का पता लगाने में सक्षम हैं।

डीज़ ब्लांचफील्ड: यह काफी आश्चर्यजनक है, वास्तव में, जब आप इसके बारे में सोचते हैं। तथ्य यह है कि कुछ बड़े डेटा प्लेटफ़ॉर्म जिन्हें आप प्रभावी रूप से अनुक्रमित और सूचीबद्ध कर रहे हैं, को लागू करने और तैनात करने और ठीक से खड़े होने में कभी-कभी वर्ष लगेंगे।

रॉबिन ब्लोर से हाथ मिलाने से पहले मैंने आपके लिए जो आखिरी सवाल पूछा था, वह है कनेक्टर्स। चीजों में से एक है कि तुरंत मुझ पर कूदता है आप स्पष्ट रूप से मिल गया है कि पूरी चुनौती को हल किया। तो वहाँ वास्तव में जल्दी से कुछ सवाल है। एक, कनेक्टर कितनी तेजी से कार्यान्वित होते हैं? जाहिर है आप सबसे बड़े मंच से शुरू करते हैं, जैसे ओरकल्स और टेराडाटा और आगे और डीबी 2 एस। लेकिन आप नियमित रूप से नए कनेक्टर्स को कैसे देख रहे हैं, और वे किस मोड़ पर आते हैं? मुझे लगता है कि आपके पास उनके लिए एक मानक ढांचा है। और तुम कितने गहरे में जाते हो? उदाहरण के लिए, दुनिया के ओरेकल और आईबीएम, और यहां तक ​​कि टेरेडाटा, और फिर देर से ओपन-सोर्स प्लेटफार्मों के कुछ अधिक लोकप्रिय। क्या वे सीधे आपके साथ काम कर रहे हैं? क्या आप इसे स्वयं खोज रहे हैं? क्या आपको उन प्लेटफार्मों पर ज्ञान होना चाहिए?

एक कनेक्टर को विकसित करने के लिए यह कैसा दिखता है, और आप उन साझेदारों को यह सुनिश्चित करने के लिए कितनी गहराई तक शामिल करते हैं कि वे उन कनेक्टरों को खोज रहे हैं जो आप संभवतः कर सकते हैं?

डेविड क्रॉफोर्ड: हाँ, निश्चित रूप से, यह एक बड़ा सवाल है। मुझे लगता है कि अधिकांश भाग के लिए, हम कनेक्टर्स विकसित कर सकते हैं। हमने निश्चित रूप से तब किया जब हम एक छोटे स्टार्टअप थे और कोई ग्राहक नहीं था। हम किसी भी आंतरिक पहुंच की आवश्यकता के बिना निश्चित रूप से कनेक्शन विकसित कर सकते हैं। हमें कभी भी उन डेटा सिस्टम तक कोई विशेष पहुंच नहीं मिलती है जो सार्वजनिक रूप से उपलब्ध नहीं हैं, और अक्सर बिना किसी अंदर की जानकारी के। हम डेटा सिस्टम द्वारा उपलब्ध मेटाडेटा सेवाओं का लाभ स्वयं लेते हैं। अक्सर उन लोगों के साथ काम करने के लिए बहुत जटिल और कठिन हो सकता है। मैं विशेष रूप से SQL सर्वर को जानता हूं, जिस तरह से वे क्वेरी लॉग को प्रबंधित करते हैं, कई अलग-अलग कॉन्फ़िगरेशन हैं और यह कुछ ऐसा है जिसे आपको वास्तव में काम करना है। आपको इसे ठीक से सेट करने के लिए बारीकियों और इस पर knobs और डायल को समझना होगा, और यह कुछ ऐसा है जिसे हम ग्राहकों के साथ काम करते हैं क्योंकि हमने इसे पहले भी कई बार किया है।

लेकिन एक निश्चित सीमा तक, यह सार्वजनिक एपीआई की तरह है जो उपलब्ध हैं या सार्वजनिक इंटरफेस हैं जो उपलब्ध हैं जिनका हम लाभ उठाते हैं। हमारे पास इन कंपनियों में से कई के साथ भागीदारी है, जो ज्यादातर प्रमाणन के लिए एक आधार है, ताकि वे यह कहते हुए सहज महसूस करें कि हम काम करते हैं और यह भी कि वे हमें परीक्षण के लिए संसाधन प्रदान कर सकते हैं, कभी-कभी एक प्लेटफॉर्म पर जल्दी पहुंच शायद यह सुनिश्चित करने के लिए सामने आ रही है कि हम नए संस्करणों पर काम करते हैं।

एक नए कनेक्शन को चालू करने के लिए, मैं फिर से कहूंगा कि रूढ़िवादी होने की कोशिश कर रहा हूं, आइए छह सप्ताह से दो महीने तक कहें। यह इस पर निर्भर करता है कि यह कैसा है। तो कुछ Postgre Redshift के समान दिखने वाले काम करता है। रेडशिफ्ट और वर्टिका उनके विवरण का एक बहुत साझा करते हैं। तो हम उन चीजों का फायदा उठा सकते हैं। लेकिन हाँ, छह सप्ताह से दो महीने तक उचित होगा।

हमारे पास API भी हैं, ताकि हम - Alation को एक मेटाडेटा प्लेटफॉर्म के रूप में अच्छी तरह से समझें, इसलिए यदि कुछ भी हमारे लिए उपलब्ध नहीं है और स्वचालित रूप से हड़पने के लिए, तो ऐसे तरीके हैं जो आप कनेक्टर को स्वयं लिख सकते हैं और इसे हमारे सिस्टम में धकेल सकते हैं कि सब कुछ अभी भी एक ही खोज इंजन में केंद्रीकृत हो जाता है।

डीज़ ब्लांचफील्ड: शानदार। मैं सराहना करता हूँ। इसलिए हम इसे रॉबिन को सौंपने जा रहे हैं, क्योंकि मुझे यकीन है कि उसके पास प्रश्नों का ढेर भी है। रॉबिन?

रेबेका जोजवाक: रॉबिन म्यूट पर हो सकते हैं।

Dez Blanchfield: आप खुद को म्यूट कर चुके हैं।

रॉबिन ब्लर: हाँ, सही है। क्षमा करें, मैंने खुद को मौन कर लिया। जब आप इसे लागू करते हैं, तो प्रक्रिया क्या है? मैं एक तरह से उत्सुक हूं क्योंकि कई जगहों पर बहुत अधिक डेटा हो सकता है। तो वह कैसे काम करता है?

डेविड क्रॉफोर्ड: हाँ, ज़रूर। हम अंदर जाते हैं, पहले यह सुनिश्चित करने की एक आईटी प्रक्रिया है कि हमारे सर्वर का प्रावधान है, यह सुनिश्चित करते हुए कि नेटवर्क कनेक्शन उपलब्ध हैं, कि पोर्ट खुले हैं ताकि हम वास्तव में सिस्टम तक पहुंच सकें। वे सभी अक्सर जानते हैं कि वे किन प्रणालियों के साथ शुरू करना चाहते हैं। एक डेटा सिस्टम के अंदर जानना, जो - और कभी-कभी हम वास्तव में उनकी मदद करेंगे। हम उनकी क्वेरी लॉग पर प्रारंभिक नज़र डालने में उनकी मदद करेंगे कि यह समझने के लिए कि सिस्टम पर उनके पास कितने और कौन से उपयोगकर्ता हैं। तो हम यह पता लगाने में मदद करेंगे कि वे कहाँ हैं - अक्सर, अगर उन्हें सैकड़ों या हजारों लोग मिल गए हैं जो डेटाबेस में लॉग इन हो सकते हैं, वे वास्तव में नहीं जानते हैं कि वे कहाँ लॉग इन कर रहे हैं, इसलिए हम यहां से पता कर सकते हैं क्वेरी लॉग करता है कि आपके पास कितने अद्वितीय उपयोगकर्ता खाते हैं जो वास्तव में लॉग इन कर रहे हैं और एक या एक महीने में प्रश्नों को निष्पादित कर रहे हैं।

तो हम इसका लाभ उठा सकते हैं, लेकिन अक्सर केवल सबसे महत्वपूर्ण लोगों पर। हम उन्हें स्थापित करते हैं और फिर कहने की एक प्रक्रिया है, "चलो प्राथमिकता दें।" ऐसी कई गतिविधियाँ हैं जो समानांतर में हो सकती हैं। मैं क्वेरी टूल का उपयोग करने के लिए प्रशिक्षण पर ध्यान केंद्रित करूंगा। एक बार जब लोग क्वेरी टूल का उपयोग करना शुरू कर देते हैं, तो सबसे पहले, बहुत से लोग इस तथ्य से प्यार करते हैं कि यह उनके सभी अलग-अलग प्रणालियों के लिए केवल एक इंटरफ़ेस है। वे इस तथ्य से भी प्यार करते हैं कि यह वेब-आधारित है, यदि वे नहीं चाहते हैं तो कोई भी इंस्टाल शामिल नहीं है। एक सुरक्षा दृष्टिकोण से, वे एक प्रविष्टि बिंदु के प्रकार को पसंद करते हैं, एक नेटवर्क दृष्टिकोण से, एक कॉर्प आईटी नेटवर्क और डेटा सेंटर के बीच जहां उत्पादन डेटा स्रोत रहते हैं। और इसलिए, वे एलायन को एक क्वेरी टूल के रूप में स्थापित करेंगे और इन सभी प्रणालियों के लिए एक बिंदु के रूप में कंपोज़ का उपयोग करना शुरू करेंगे।

इसलिए एक बार ऐसा होने पर, हम वहां पर ध्यान केंद्रित करते हैं, जो यह समझते हैं कि वेब-आधारित या सर्वर-आधारित क्वेरी टूल के बीच कुछ अंतर क्या हैं, एक आपके डेस्कटॉप पर है, और कुछ का उपयोग करने की बारीकियां उस। और एक ही समय में हम जो करने की कोशिश करेंगे, वह सबसे मूल्यवान डेटा की पहचान करेगा, फिर से क्वेरी लॉग की जानकारी का लाभ उठाएगा, और कहेगा, “अरे, आप इसमें जाना चाहते हैं और लोगों को इनको समझने में मदद कर सकते हैं। आइए इन तालिकाओं पर प्रतिनिधि प्रश्नों को प्रकाशित करना शुरू करें। ”कभी-कभी लोगों को रिझाने के लिए यह सबसे प्रभावी तरीका है। आइए अपने स्वयं के क्वेरी इतिहास को देखें, इन चीजों को प्रकाशित करें ताकि वे पहले प्रश्नों के रूप में दिखाई दें। जब लोग एक टेबल पेज को देखते हैं, तो वे सभी प्रश्नों को देख सकते हैं जो उस टेबल को छूते हैं, और वे वहां से शुरू कर सकते हैं। और फिर इन वस्तुओं में शीर्षक और विवरण जोड़ना शुरू करते हैं ताकि वे खोजने और खोजने में आसान हों, ताकि आप इसका उपयोग करने की कुछ बारीकियों को जान सकें।

हम यह सुनिश्चित करते हैं कि हमें क्वेरी लॉग पर पूरी तरह से नज़र डालें ताकि हम वंश उत्पन्न कर सकें। हमारे द्वारा की जाने वाली चीजों में से एक हम उस समय क्वेरी लॉग के माध्यम से देखते हैं जब डेटा एक तालिका से दूसरी तालिका में चला जाता है, और जो हमें डेटा तालिका के बारे में सबसे अक्सर पूछे जाने वाले प्रश्नों में से एक को रखने की अनुमति देता है, यह कहां से आया है? मैं इस पर कैसे भरोसा करूं? और इसलिए हम जो दिखा सकते हैं वह न केवल कौन सी अन्य तालिकाओं से आया है, लेकिन यह कैसे मार्ग के साथ बदल गया था। फिर, यह क्वेरी लॉग द्वारा संचालित की तरह है।

इसलिए हम यह सुनिश्चित करते हैं कि उन चीजों को स्थापित किया गया है और हम सिस्टम में वंशावली प्राप्त कर रहे हैं, और हम मेटाडाटा के सबसे उच्च मूल्यवान और सबसे अधिक लीवरेज टुकड़ों को लक्षित कर रहे हैं जिन्हें हम टेबल पृष्ठों पर स्थापित कर सकते हैं, ताकि जब आप खोज करते हैं, तो आप कुछ उपयोगी पाते हैं।

रॉबिन ब्लर: ठीक है। दूसरा सवाल - दर्शकों से बहुत सारे सवाल हैं, इसलिए मैं यहां बहुत अधिक समय नहीं लेना चाहता हूं - दूसरा सवाल जो मन में आता है वह है, सिर्फ दर्द। बहुत सारे सॉफ्टवेयर खरीदे गए हैं क्योंकि लोग एक तरह से या किसी अन्य चीज़ से परेशान हैं। तो क्या आम दर्द बिंदु है जो लोगों को एलिएशन की ओर ले जाता है?

डेविड क्रॉफोर्ड: हाँ। मुझे लगता है कि कुछ ही हैं, लेकिन मुझे लगता है कि उनमें से एक है जिसे हम अक्सर सुनते हैं विश्लेषक ऑनबोर्डिंग है। "मुझे निकट भविष्य में 10, 20, 30 लोगों को नियुक्त करने की आवश्यकता है जो इस डेटा से नई अंतर्दृष्टि पैदा करने जा रहे हैं, वे कैसे गति प्राप्त करने जा रहे हैं?" इसलिए विश्लेषक ऑनबोर्डिंग कुछ हम निश्चित रूप से है? से निपटने। डेटा के बारे में अन्य लोगों के सवालों के जवाब देने में अपने सभी समय बिताने से वरिष्ठ विश्लेषकों को राहत मिलती है। यह एक बहुत ही लगातार एक है। और ये दोनों अनिवार्य रूप से शिक्षा की समस्याएँ हैं।

और फिर मैं एक और जगह कहूंगा कि हम देखते हैं कि लोग अलशन को अपना रहे हैं, जब वे काम करने के लिए एक नया डेटा वातावरण स्थापित करना चाहते हैं। वे लोगों का फायदा उठाने के लिए इस आंतरिक रूप से विज्ञापन देना और उनका विपणन करना चाहते हैं। तब Alation को उस नए एनालिटिक वातावरण का फ्रंट-एंड बनाना बहुत आकर्षक लगता है। यह दस्तावेज मिल गया है, इसे परिचय का एक एकल बिंदु मिल गया है - सिस्टम तक पहुंच का एक बिंदु, और इसलिए यह एक और जगह है जहां लोग हमारे पास आएंगे।

रॉबिन ब्लोर: ठीक है, मैं आपको रेबेका को सौंप दूंगा क्योंकि दर्शक आपसे मिलने की कोशिश कर रहे हैं।

रेबेका जोजवाक: हां, हमारे पास बहुत सारे अच्छे दर्शक सवाल हैं। और डेविड, यह एक विशेष रूप से आप के लिए प्रस्तुत किया गया था। यह किसी ऐसे व्यक्ति से है जिसे स्पष्ट रूप से लोगों के साथ दुर्व्यवहार करने वाले प्रश्नों का कुछ अनुभव है, और वह कहता है कि हम जितना अधिक उपयोगकर्ताओं को सशक्त बनाते हैं, उतना ही कठिन यह है कि वे कम्प्यूट संसाधनों के जिम्मेदार उपयोग को नियंत्रित करें। तो क्या आप गुमराह लेकिन आम क्वेरी वाक्यांशों के प्रचार से बचाव कर सकते हैं?

डेविड क्रॉफर्ड: हाँ, मैं इस प्रश्न को देखता हूं। यह एक बड़ा सवाल है - एक हम बहुत बार मिलता है। मैंने स्वयं पिछली कंपनियों में दर्द देखा है, जहाँ आपको उपयोगकर्ताओं को प्रशिक्षित करने की आवश्यकता है। उदाहरण के लिए, "यह एक लॉग टेबल है, इसे लॉग इन वर्षों के लिए वापस जाना है। यदि आप इस तालिका पर एक क्वेरी लिखने जा रहे हैं, तो आपको वास्तव में तारीख तक सीमित करना होगा। ”इसलिए, उदाहरण के लिए, एक प्रशिक्षण मैं एक पिछली कंपनी में चला गया था इससे पहले कि मुझे डेटाबेस तक पहुंच दी गई थी।

हमारे पास कुछ तरीके हैं जिनसे हम इसे संबोधित करने का प्रयास करते हैं। मैं कहूंगा कि मुझे लगता है कि क्वेरी लॉग डेटा वास्तव में इसे संबोधित करने के लिए विशिष्ट रूप से मूल्यवान है। यह एक और अंतर्दृष्टि देता है कि डेटाबेस अपने क्वेरी प्लानर के साथ आंतरिक रूप से क्या करता है। और हम क्या करते हैं, उन हस्तक्षेपों में से एक - हमारे पास मैन्युअल हस्तक्षेप हैं जो मैंने दिखाया, और यह उपयोगी है, है ना? उदाहरण के लिए, एक विशेष रूप से शामिल होने पर, आप कह सकते हैं, "चलो इसे संक्षिप्त करें।" यह स्मार्ट सुझाव में दिखाता है जब एक बड़ा लाल झंडा होगा। तो लोगों को पाने की कोशिश करने का यह एक तरीका है।

एक और चीज जो हम करते हैं, वह है निष्पादन-समय के हस्तक्षेप पर स्वचालित। इससे पहले कि हम इसे देखने के लिए दौड़ते हैं वास्तव में क्वेरी के पार्स ट्री का उपयोग करेंगे, क्या इसमें एक निश्चित फिल्टर या कुछ अन्य चीजें शामिल हैं जो हम वहां भी करते हैं। लेकिन सबसे मूल्यवान में से एक और समझाने वाला सबसे सरल है, क्या इसमें एक फ़िल्टर शामिल है? तो उस उदाहरण की तरह, जो मैंने अभी दिया था, यह लॉग टेबल, यदि आप इसे क्वेरी करने जा रहे हैं, तो एक तिथि सीमा होनी चाहिए, आप वहां तालिका पृष्ठ में निर्दिष्ट कर सकते हैं कि आपने उस तिथि सीमा फ़िल्टर को लागू करने के लिए जनादेश दिया है। यदि कोई ऐसी क्वेरी चलाने की कोशिश करता है जिसमें वह फ़िल्टर शामिल नहीं है, तो यह वास्तव में उन्हें एक बड़ी चेतावनी के साथ बंद कर देगा, और यह कहेगा, "आपको शायद कुछ SQL को जोड़ना चाहिए जो आपकी क्वेरी के लिए ऐसा दिखता है।" वे जारी रख सकते हैं। वो चाहते हैं। हम वास्तव में उन्हें पूरी तरह से इसका उपयोग करने से प्रतिबंधित नहीं करने जा रहे हैं - यह एक प्रश्न भी है, यह दिन के अंत में, प्रश्नों को चलाने के लिए है। लेकिन हमने उनके सामने एक बहुत बड़ी बाधा डाल दी और हम उन्हें एक सुझाव देते हैं, उनके प्रदर्शन को बेहतर बनाने के लिए क्वेरी को संशोधित करने के लिए एक ठोस लागू सुझाव।

हम वास्तव में ऐसा कुछ मामलों में स्वचालित रूप से करते हैं, फिर से क्वेरी लॉग को देखकर। यदि हम देखते हैं कि इस तालिका में कुछ बड़े प्रश्नों का प्रतिशत किसी विशेष फ़िल्टर या किसी विशेष जॉइन क्लॉज का लाभ उठाता है, तो हम वास्तव में इसे पॉप अप करेंगे। हम इसे एक हस्तक्षेप के लिए बढ़ावा देंगे। वास्तव में, यह मेरे लिए आंतरिक डेटा सेट पर हुआ। हमारे पास ग्राहक डेटा है और हमारे पास उपयोगकर्ता आईडी हैं, लेकिन उपयोगकर्ता आईडी सेट है, क्योंकि यह एक प्रकार का है - हमारे पास प्रत्येक ग्राहक के पास उपयोगकर्ता आईडी हैं। यह अद्वितीय नहीं है, इसलिए आपको एक यूनिक जॉइन कुंजी प्राप्त करने के लिए इसे क्लाइंट आईडी के साथ पेयर करना होगा। और मैं एक क्वेरी लिख रहा था और मैंने कुछ का विश्लेषण करने की कोशिश की और यह पॉप अप हुआ और कहा, “अरे, बाकी सभी क्लाइंट आईडी और उपयोगकर्ता आईडी दोनों के साथ इन तालिकाओं में शामिल होने लगते हैं। क्या आप सुनिश्चित हैं कि आप ऐसा नहीं करना चाहते? ”और इसने वास्तव में मुझे कुछ गलत विश्लेषण करने से रोक दिया। तो यह विश्लेषण की सटीकता और साथ ही प्रदर्शन दोनों के लिए काम करता है। तो हम उस समस्या को किस प्रकार लेते हैं।

रेबेका जोजवाक: यह मुझे प्रभावी प्रतीत होगा। आपने कहा कि आप आवश्यक रूप से लोगों को संसाधनों को हॉगिंग से नहीं रोकेंगे, लेकिन उन्हें सिखाएँ कि वे जो कर रहे हैं वह सबसे अच्छा नहीं हो सकता है, है ना?

डेविड क्रॉफर्ड: हम हमेशा यह मानते हैं कि उपयोगकर्ता दुर्भावनापूर्ण नहीं हैं - उन्हें सर्वश्रेष्ठ इरादे दें - और हम उस तरह से खुले रहने की कोशिश करते हैं।

रेबेका जोजवाक: ठीक है। यहाँ एक और सवाल है: "आपके समाधान और एमडीएम टूल जैसे कैटलॉग मैनेजर में क्या अंतर है? या क्या यह वास्तव में क्वेरी टेबल की पसंद को चौड़ा करके एक अलग प्रिंसिपल पर निर्भर करता है, जबकि एमडीएम यह स्वचालित रूप से करेगा, लेकिन मेटाडेटा एकत्र करने के उसी अंतर्निहित प्रिंसिपल के साथ। "

डेविड क्रॉफोर्ड: हाँ, मुझे लगता है कि जब मैं पारंपरिक एमडीएम समाधानों को देखता हूं, तो प्राथमिक अंतर एक दार्शनिक होता है। यह सभी के बारे में है कि उपयोगकर्ता कौन है। जैसे मैंने अपनी प्रस्तुति की शुरुआत में कहा था, अलशन, मुझे लगता है, जब हम स्थापित हुए थे, तो हम विश्लेषकों को अधिक अंतर्दृष्टि पैदा करने, उन्हें तेजी से उत्पादन करने, अंतर्दृष्टि में अधिक सटीक होने के लिए सक्षम करने के उद्देश्य से स्थापित किए गए थे उत्पादित करें। मुझे नहीं लगता कि यह कभी पारंपरिक एमडीएम समाधान का लक्ष्य रहा है। उन समाधानों को उन लोगों की ओर लक्षित किया जाता है, जिन्हें SCC या आंतरिक रूप से कुछ अन्य प्रकार के ऑडिटिंग उद्देश्य के लिए डेटा को कैप्चर करने की रिपोर्ट की आवश्यकता होती है। यह कभी-कभी विश्लेषकों को सक्षम कर सकता है, लेकिन यह अधिक बार होता है, अगर यह किसी चिकित्सक को उनके काम में सक्षम करने जा रहा है, तो यह डीबीए जैसे डेटा वास्तुकार को सक्षम करने की अधिक संभावना है।

जब आप एक विश्लेषक के दृष्टिकोण से चीजों के बारे में सोचते हैं, तो जब आप एक एमडीएम उपकरण ऐसा क्वेरी उपकरण बनाना शुरू करेंगे जो कभी नहीं होगा। यही कारण है कि जब आप प्रदर्शन के साथ-साथ सटीकता के बारे में भी सोचना शुरू करते हैं, तो यह समझने के साथ कि डेटा मेरे व्यवसाय की आवश्यकता से संबंधित है। वे सभी चीजें ऐसी चीजें हैं जो हमारे दिमाग में पॉप की तरह होती हैं जब हम उपकरण को डिजाइन करते हैं। यह हमारे खोज एल्गोरिदम में जाता है, यह कैटलॉग पृष्ठों के लेआउट और संगठन के चारों ओर से ज्ञान का योगदान करने की क्षमता में जाता है। यह इस तथ्य में जाता है कि हमने क्वेरी टूल बनाया था और हमने कैटलॉग को सीधे इसमें बनाया था, इसलिए मुझे लगता है कि यह वास्तव में उसी से आता है। आपके पास सबसे पहले कौन सा उपयोगकर्ता है?

रेबेका जोजवाक: ठीक है, अच्छा है। यह वास्तव में यह समझाने में मदद की। जो अभिलेखागार की एक पकड़ पाने के लिए मर रहा था क्योंकि उसे छोड़ना था, लेकिन वह वास्तव में अपने प्रश्न का उत्तर चाहता था। उन्होंने कहा कि शुरुआत में यह उल्लेख किया गया था कि कई भाषाएं हैं, लेकिन क्या एसक्यूएल एकमात्र भाषा है जो कंपोज घटक के भीतर है?

डेविड क्रॉफोर्ड: हां, यह सच है। और जिन चीजों पर मैंने ध्यान दिया है, उनमें से एक, जैसा कि मैंने विभिन्न प्रकार के डेटाबेसों के विस्फोट का, दस्तावेज़ डेटाबेस का, ग्राफ डेटाबेस का, प्रमुख मूल्य भंडारों का, देखा है कि वे अनुप्रयोग विकास के लिए वास्तव में शक्तिशाली हैं। वे वास्तव में अच्छी तरह से विशेष जरूरतों को पूरा कर सकते हैं, रिलेशनल डेटाबेस की तुलना में बेहतर तरीके से कर सकते हैं।

लेकिन जब आप इसे डेटा विश्लेषण में वापस लाते हैं, जब आप इसे वापस लाते हैं - जब आप उस जानकारी को उन लोगों को प्रदान करना चाहते हैं जो तदर्थ रिपोर्टिंग या डेटा में खोद रहे हैं, कि वे हमेशा एक संबंध में वापस आते हैं। कम से कम, मनुष्यों के लिए इंटरफ़ेस। इसका एक हिस्सा सिर्फ इसलिए है कि एसक्यूएल डेटा विश्लेषण का लिंगुआ फ्रेंका है, इसलिए इसका मतलब है कि मनुष्यों के लिए, यह उन उपकरणों के लिए भी है जो एकीकृत होते हैं। मुझे लगता है कि यही कारण है कि Hadoop पर SQL इतना लोकप्रिय है और इसे हल करने के लिए बहुत सारे प्रयास हैं, ऐसा इसलिए है क्योंकि दिन के अंत में, यही लोग जानते हैं। शायद लाखों लोग हैं जो एसक्यूएल लिखना जानते हैं, और मैं उन लाखों लोगों को नहीं बताऊंगा जो एक मैंगो एग्रीगेशन पाइपलाइन फ्रेमवर्क क्वेरी लिखना जानते हैं। और यह एक मानक भाषा है जिसका उपयोग वास्तव में व्यापक प्लेटफार्मों पर एकीकरण के लिए किया जाता है। तो यह सब कह रहा है, हम शायद ही कभी इसके बाहर जाने के लिए कहा है क्योंकि यह वह इंटरफ़ेस है जिसे अधिकांश विश्लेषक उपयोग करते हैं, और यह एक ऐसी जगह है जहां हमने ध्यान केंद्रित किया, विशेष रूप से कम्पोज़ में, कि हमने एसक्यूएल लिखने पर ध्यान केंद्रित किया।

मैं कहूंगा कि डेटा साइंस वह जगह है जहां वे सबसे अधिक बाहर उद्यम करते हैं, और इसलिए हमें सुअर या एसएएस का उपयोग करने के बारे में कभी-कभी प्रश्न मिलते हैं। ये ऐसी चीजें हैं जो हम निश्चित रूप से कम्पोज़ में नहीं संभालते हैं, और हम कैटलॉग में कब्जा करना चाहते हैं। और मैं आर और पायथन भी देख रहा हूं। हमारे पास कुछ ऐसे तरीके हैं जिनसे हमने इंटरफेस बनाया है कि आप R और पायथन स्क्रिप्ट के अंदर Alation में लिखे गए प्रश्नों का उपयोग कर सकते हैं, इसलिए, अक्सर जब आप एक डेटा वैज्ञानिक हैं और आप स्क्रिप्टिंग भाषा में काम कर रहे हैं, तो स्रोत डेटा एक रिलेशनल डेटाबेस में है। आप SQL क्वेरी से शुरू करते हैं और फिर आप इसे आगे प्रोसेस करते हैं और R और Python के अंदर ग्राफ बनाते हैं। और हमने ऐसे पैकेज बनाए हैं जिन्हें आप उन स्क्रिप्ट्स में आयात कर सकते हैं जो क्वेरीज़ को खींचती हैं या एलिएशन से क्वेरी रिजल्ट देती हैं ताकि आप वहां एक ब्लेंडेड वर्कफ़्लो रख सकें।

रेबेका जोजवाक: ठीक है, महान। मुझे पता है कि हमने घंटे के शीर्ष पर थोड़ा सा भाग लिया है, मैं सिर्फ एक या दो और सवाल पूछने जा रहा हूं। मुझे पता है कि आपने उन सभी अलग-अलग प्रणालियों के बारे में बात की है जिनसे आप जुड़ सकते हैं, लेकिन जहाँ तक बाहरी रूप से होस्ट किए गए डेटा और आंतरिक रूप से होस्ट किए गए डेटा की बात है, क्या एक साथ आपके एक दृश्य में, आपके एक मंच में खोजा जा सकता है?

डेविड क्रॉफोर्ड: ज़रूर। ऐसा करने के कुछ तरीके हैं। मेरा मतलब है, बाहरी रूप से होस्ट किया गया, मैं कल्पना करूँगा, मैं इसके बारे में बिल्कुल सोचने की कोशिश कर रहा हूँ कि इसका क्या मतलब हो सकता है। इसका मतलब डेटाबेस हो सकता है कि कोई आपके लिए AWS में होस्ट कर रहा है। यह data.gov से एक सार्वजनिक डेटा स्रोत का मतलब हो सकता है। हम डेटाबेस खाते के साथ, किसी अन्य एप्लिकेशन की तरह लॉग इन करके सीधे डेटाबेस से जुड़ते हैं, और इसी तरह हम मेटाडेटा को निकालते हैं। इसलिए यदि हमारे पास एक खाता है और हमारे पास एक नेटवर्क पोर्ट खुला है, तो हम इसे प्राप्त कर सकते हैं। और फिर जब हमारे पास वे चीजें नहीं होती हैं, तो हमारे पास एक वर्चुअल डेटा स्रोत नाम की कोई चीज होती है, जो आपको अनिवार्य रूप से प्रलेखन को पुश करने की अनुमति देती है, चाहे स्वचालित रूप से, अपने स्वयं के कनेक्टर को लिखकर, या सीएसवी अपलोड की तरह भी करके इसे भर सके। अपने आंतरिक डेटा के साथ डेटा का दस्तावेजीकरण करने के लिए। वह सब खोज इंजन में रखा जाता है। यह लेख के अंदर और सिस्टम के अंदर अन्य प्रलेखन और वार्तालापों के लिए उपयोग करने योग्य हो जाता है। इसलिए जब हम सीधे सिस्टम से कनेक्ट नहीं कर सकते हैं तो हम इसे कैसे संभालेंगे।

रेबेका जोजवाक: ठीक है, इससे समझ में आता है। मैं अभी तुम्हारे सामने एक और सवाल करूंगा। एक सहभागी है स्रोत डेटा के अद्यतन के रूप में, "डेटा कैटलॉग की सामग्री को कैसे मान्य, सत्यापित या बनाए रखा जाना चाहिए, जैसा कि स्रोत डेटा अपडेट किया जाता है, आदि।"

डेविड क्रॉफर्ड: हाँ, यह एक ऐसा सवाल है जो हमें बहुत मिलता है, और मुझे लगता है कि एक चीज़ जो हम - हमारे एक दर्शन की है, जैसे मैंने कहा, हम नहीं मानते कि उपयोगकर्ता दुर्भावनापूर्ण हैं। हम मानते हैं कि वे सर्वश्रेष्ठ ज्ञान का योगदान करने की कोशिश कर रहे हैं। वे आने वाले नहीं हैं और जानबूझकर लोगों को डेटा के बारे में गुमराह कर रहे हैं। यदि आपके संगठन में यह समस्या है, तो शायद आपके लिए Alation सही उपकरण नहीं है। लेकिन अगर आप उपयोगकर्ताओं द्वारा अच्छे इरादों को मानते हैं, तो, हम इसके बारे में कुछ ऐसा सोचते हैं जहां, अपडेट आते हैं, और फिर आमतौर पर हम क्या करते हैं, हम प्रत्येक डेटा ऑब्जेक्ट या डेटा के प्रत्येक अनुभाग के प्रभारी के रूप में डालते हैं। और हम उन स्टूवर्स को सूचित कर सकते हैं जब मेटाडेटा में परिवर्तन किए जाते हैं और वे इसे इस तरह से संभाल सकते हैं। वे देखते हैं कि अपडेट आते हैं, वे उन्हें सत्यापित करते हैं। यदि वे सही नहीं हैं, तो वे वापस जा सकते हैं और उन्हें संशोधित कर सकते हैं और सूचित कर सकते हैं, और उम्मीद है कि उस उपयोगकर्ता तक भी पहुंच सकते हैं जिन्होंने जानकारी का योगदान दिया और उन्हें सीखने में मदद की।

तो यह प्राथमिक तरीका है जिसे हम करने के बारे में सोचते हैं। भीड़ द्वारा इस तरह के सुझाव और प्रबंधन द्वारा, इसलिए हमारे पास कुछ क्षमताएं हैं।

रेबेका जोजवाक: ठीक है, अच्छा है। और अगर आप लोगों को यह बता सकते हैं कि वे किस तरह से अलशन के साथ शुरुआत कर सकते हैं, और वे विशेष रूप से अधिक जानकारी प्राप्त करने के लिए कहां जा सकते हैं। मुझे पता है कि आपने एक साझा किया है। क्या वह सबसे अच्छी जगह है?

डेविड क्रॉफर्ड: Alation.com/learnmore मुझे लगता है कि जाने का एक शानदार तरीका है। डेमो के लिए साइन अप करने के लिए Alation.com साइट में बहुत सारे महान संसाधन, ग्राहक श्वेत पत्र और हमारे समाधान के बारे में समाचार हैं। इसलिए मुझे लगता है कि यह एक शानदार जगह है। आप ईमेल भी कर सकते हैं।

रेबेका जोजवाक: ठीक है, महान। और मुझे पता है, उपस्थितगण, क्षमा करें, अगर मैं आज सभी सवालों के जवाब नहीं मिला, लेकिन यदि नहीं, तो उन्हें डेविड या उनकी बिक्री टीम या किसी को अलेशन पर भेज दिया जाएगा, इसलिए वे निश्चित रूप से आपके सवालों के जवाब देने और समझने में मदद कर सकते हैं Alation क्या करता है या वे क्या करते हैं।

और उस के साथ, दोस्तों, मैं आगे जाऊंगा और हमें साइन कर दूंगा। आप हमेशा के अंदर अंदर पा सकते हैं। आप इसे Techopedia.com पर भी देख सकते हैं। वे थोड़ा जल्दी अपडेट करने की कोशिश करते हैं, इसलिए इसे ज़रूर देखें। और आज डेविड क्रॉफर्ड, डीज़ ब्लांचफील्ड और रॉबिन बूर का बहुत बहुत धन्यवाद। यह एक शानदार वेबकास्ट है। और इसके साथ, मैं आपको विदाई दूंगा। धन्यवाद, दोस्तों। अलविदा।

डेविड क्रॉफोर्ड: धन्यवाद।

सुझाव की शक्ति: एक डेटा कैटलॉग विश्लेषकों को कैसे सशक्त बनाता है