प्रौद्योगिकी स्टार्टअप के बीच, डेटा वैज्ञानिक एक तेजी से सामान्य शब्द है जिसका उपयोग डेटा इंटेलिजेंस के पारंपरिक रूप से अलग कार्यात्मक क्षेत्रों को पाटने में सक्षम डेटा गीक्स को संदर्भित करने के लिए किया जाता है। एक डेटा वैज्ञानिक वह है जो डेटा इंटेलिजेंस प्रोजेक्ट्स के कई (यदि सभी नहीं) पहलुओं को पूरा करने में सहज है:
- डेटा अधिग्रहण: यह कस्टम पार्सर और वेब क्रॉलर या स्क्रिप्ट लिखने में सक्षम हो सकता है जो गैर-पारंपरिक डेटा स्रोतों के लिए विशिष्ट वेब सेवाओं या एपीआई को लक्षित करते हैं।
- डेटा प्रबंधन: ETL, हेरफेर, क्वेरी और डेटाबेस, कुंजी-मूल्य स्टोर, या Hadoop में डेटा बनाए रखें।
- सूचना विज़ुअलाइज़ेशन: स्थिर विज़ुअलाइज़ेशन टूलकिट और / या फ्लैश, जावास्क्रिप्ट या प्रसंस्करण के आधार पर इंटरैक्टिव प्लेटफार्मों के उपयोग के माध्यम से पैटर्न को उजागर करना।
- विश्लेषिकी: यह बहुभिन्नरूपी आँकड़ों, मशीन सीखने और एनएलपी में सरल से जटिल तकनीकों तक हो सकती है।
- अंतर्दृष्टि: व्यापक दर्शकों के लिए मुख्य निष्कर्ष निकालें, संक्षेप और प्रस्तुत करें।
कई उपकरण, कौशल और तकनीकी विवरण हैं, और एक ऊपर सूचीबद्ध वस्तुओं में से प्रत्येक में महारत हासिल करने के लिए साल बिता सकते हैं। हालांकि एक डेटा वैज्ञानिक के पास किसी भी क्षेत्र में सच्चा विशेषज्ञ ज्ञान नहीं हो सकता है, लेकिन वह आगे और पीछे की सभी चीजों में बुनियादी कार्य करने में सहज है। परिणाम एक डेटा गीक फुर्तीला है जो डेटा प्रोजेक्ट की शीघ्रता से जांच करने और प्रबंधन से (उच्च-स्तरीय) सवालों के जवाब देने के लिए पर्याप्त है। (डेटा वैज्ञानिकों में डेटा वैज्ञानिकों के बारे में: टेक वर्ल्ड के नए रॉक सितारे।)
डेटा वैज्ञानिकों का पोषण करने के लिए, कंपनियों को संस्कृति और संगठनात्मक संरचना पर अधिक ध्यान देने की आवश्यकता है। कई डेटा श्रमिकों के पास पर्याप्त कौशल और प्रशिक्षण है जो डेटा इंटेलिजेंस के कई क्षेत्रों में जल्दी से उत्पादक बन सकते हैं। समस्या यह है कि अधिकांश वातावरण में काम नहीं करते हैं जो उन्हें डेटा वैज्ञानिक बनने के लिए प्रोत्साहित करते हैं। वे सिलोस में फंस गए हैं और डेटा खुफिया के एक या दो क्षेत्रों तक सीमित हैं। अक्सर, वे अपने प्रबंधकों द्वारा "अनुमोदित" टूल का उपयोग करने के लिए प्रतिबंधित होते हैं।
