प्रश्न:
लीगेसी माइग्रेशन में मैन्युअल डेटा प्रविष्टि के बाद से मशीन लर्निंग के लिए डेटा स्क्रैपिंग सबसे श्रम-गहन अड़चन कैसे बन गया है?
ए:मशीन सीखने (एमएल) परियोजना को शुरू करने की कोशिश में कंपनियों की व्यावहारिक समस्याओं में से एक प्रारंभिक प्रशिक्षण डेटा सेट प्राप्त करने की चुनौती है। इसमें वेब-स्क्रैपिंग या अन्य डेटा स्क्रैपिंग जैसी श्रम-गहन प्रक्रियाएं शामिल हो सकती हैं।
वेब स्क्रैपिंग और डेटा स्क्रैपिंग शब्द काफी हद तक कंप्यूटर सॉफ्टवेयर द्वारा स्वचालित गतिविधि को संदर्भित करते हैं, लेकिन कई एमएल परियोजनाओं के लिए, ऐसे मामले होने जा रहे हैं जहां कंप्यूटर को सही लक्षित डेटा एकत्र करने के लिए परिष्कार नहीं है, इसलिए इसे करना होगा "हाथ से।" इसे आप "मानव वेब / डेटा स्क्रैपिंग" कह सकते हैं, और यह धन्यवाद का काम है। इसमें आमतौर पर प्रशिक्षण सेट के माध्यम से एमएल कार्यक्रम को "फीड" करने के लिए डेटा या छवियों की तलाश करना शामिल है। यह अक्सर सुंदर पुनरावृत्त होता है, जो इसे थकाऊ, सुस्त, काम की मांग करता है।
मुफ्त डाउनलोड: मशीन लर्निंग और क्यों यह मायने रखता है |
एमएल प्रशिक्षण सेट के लिए डेटा स्क्रैपिंग मशीन सीखने में एक विशिष्ट समस्यापूर्ण अड़चन का प्रतिनिधित्व करता है, आंशिक रूप से क्योंकि अन्य कार्यों में से बहुत अधिक वैचारिक और दोहराव नहीं है। कई लोग एक नए ऐप के लिए एक महान विचार के साथ आ सकते हैं जो मशीन सीखने के कार्यों को करता है, लेकिन नट और बोल्ट और व्यावहारिक कार्य बहुत कठिन हो सकते हैं। विशेष रूप से, प्रशिक्षण सेटों को इकट्ठा करने के काम को सौंपना वास्तव में एक एमएल परियोजना के सबसे कठिन हिस्सों में से एक हो सकता है, जैसा कि माइक जज के "सिलिकॉन वैली" टीवी शो में पूरी तरह से पता लगाया गया है। सीज़न चार एपिसोड में, एक स्टार्टअप उद्यमी पहले एक साथी को श्रम-गहन कार्य करने के लिए उकसाता है, फिर कॉलेज के छात्रों को इसे होमवर्क असाइनमेंट के रूप में बताकर इसे पास करने की कोशिश करता है।
यह उदाहरण शिक्षाप्रद है क्योंकि यह दर्शाता है कि मैनुअल डेटा स्क्रेपिंग कितना नापसंद और प्रतीत होता है कि महत्वहीन है। हालांकि, यह यह भी दर्शाता है कि मशीन सीखने के उत्पादों की एक विस्तृत श्रृंखला के लिए यह प्रक्रिया आवश्यक है। यद्यपि अधिकांश लोग डेटा प्रविष्टि से घृणा करते हैं, प्रशिक्षण सेट को किसी तरह से इकट्ठा किया जाना है। प्रक्रिया पर विशेषज्ञ अक्सर एक वेब स्क्रैपिंग सेवा का उपयोग करने की सलाह देते हैं - अनिवार्य रूप से केवल बाहरी पार्टियों के लिए इस बहुत ही श्रम-गहन कार्य को आउटसोर्सिंग करते हैं, लेकिन इससे सुरक्षा प्रभाव हो सकता है और अन्य समस्याएं पैदा हो सकती हैं। जब मैन्युअल डेटा संग्रह को घर में काम करते हुए रखा जाता है, तो फिर से, अक्सर एक बहुत ही मैनुअल और समय लेने वाली प्रक्रिया के लिए प्रावधान करना पड़ता है।
कुछ मायनों में, मशीन लर्निंग के लिए "मानव डेटा स्क्रैपिंग" मैन्युअल डेटा प्रविष्टि की तरह दिखता है जो कभी-कभी विरासत प्रवास में किया जाना था। जैसे-जैसे क्लाउड अधिक से अधिक लोकप्रिय होता गया, और कंपनियों ने अपनी प्रक्रियाओं और वर्कफ़्लोज़ को क्लाउड में डाल दिया, कुछ ने पाया कि उन्होंने अपने कॉर्पोरेट डेटा को क्लाउड-मूल अनुप्रयोगों में एक पृथक विरासत प्रणाली से प्राप्त करने के व्यावहारिक पहलुओं के माध्यम से काम नहीं किया है। नतीजतन, कुछ लोग जो अन्यथा आवश्यक आईटी कौशल वाले डेटा वैज्ञानिक या रचनात्मक लोग थे, उन्होंने खुद को अप्रिय डेटा प्रविष्टि कार्य करने के लिए पाया।
मशीन सीखने के साथ भी ऐसा ही होने की संभावना है। आप एक डेटा वैज्ञानिक को यह कहते हुए सुन सकते हैं कि "मैं एक रचनात्मक व्यक्ति हूँ" या "मैं विकास की ओर हूँ" - लेकिन किसी को गंदा काम करना होगा।
फिर, अगर वर्कफ़्लो प्रतिनिधिमंडल के व्यावहारिक मूल्यांकन से रचनात्मक प्रवाह का मिलान नहीं होता है, तो इस बात में एक बेमेल होने जा रहा है कि कार्य को कैसे निर्देशित किया जाए। जब किसी कंपनी के पास डेटा सेट एकत्र करने के लिए डेटा स्क्रैपिंग कार्य करने के लिए लोग नहीं होते हैं, तो एक सफल परियोजना के लिए प्रक्रिया की श्रृंखला का एक महत्वपूर्ण हिस्सा होता है। जब भी कोई कंपनी नई मशीन सीखने के अनुप्रयोगों को विकसित करने पर आधारित होती है, तो यह विचार करने की कोशिश करती है कि यह किसी भी समय अच्छा है।
