प्रश्न:
मशीन लर्निंग में फीचर का चयन इतना महत्वपूर्ण क्यों है?
ए:मुख्य रूप से मशीन लर्निंग में फ़ीचर का चयन बेहद महत्वपूर्ण है क्योंकि यह एक मूलभूत तकनीक के रूप में कार्य करता है, जो किसी दिए गए मशीन लर्निंग सिस्टम के लिए सबसे अधिक कुशल और प्रभावी है।
विशेषज्ञ इस बारे में बात करते हैं कि कैसे सुविधा चयन और सुविधा निष्कर्षण आयामीता के अभिशाप को कम करने या ओवरफिटिंग से निपटने में मदद करते हैं - ये अत्यधिक जटिल मॉडलिंग के विचार को संबोधित करने के विभिन्न तरीके हैं।
मुफ्त डाउनलोड: मशीन लर्निंग और क्यों यह मायने रखता है |
यह कहने का एक और तरीका यह है कि सुविधा चयन, डेवलपर्स को मशीन लर्निंग प्रशिक्षण सेटों में केवल सबसे अधिक प्रासंगिक और उपयोगी डेटा का उपयोग करने के लिए उपकरण देने में मदद करता है, जो नाटकीय रूप से लागत और डेटा की मात्रा को कम करता है।
एक उदाहरण पैमाने पर एक जटिल आकार को मापने का विचार है। कार्यक्रम के पैमाने के रूप में, यह अधिक से अधिक डेटा बिंदुओं की पहचान करता है और सिस्टम बहुत अधिक जटिल हो जाता है। लेकिन एक जटिल आकार विशिष्ट डेटा सेट नहीं है जो एक मशीन लर्निंग सिस्टम उपयोग कर रहा है। ये सिस्टम उन डेटा सेटों का उपयोग कर सकते हैं जिनमें विभिन्न चरों के बीच भिन्नता का स्तर भिन्न होता है। उदाहरण के लिए, प्रजातियों को वर्गीकृत करने में, इंजीनियर केवल उन चरों का अध्ययन करने के लिए सुविधा चयन का उपयोग कर सकते हैं जो उन्हें सबसे अधिक लक्षित परिणाम देंगे। यदि चार्ट के प्रत्येक जानवर की आंखें या पैर समान संख्या में हैं, तो उस डेटा को हटाया जा सकता है, या अन्य अधिक प्रासंगिक डेटा बिंदु निकाले जा सकते हैं।
फ़ीचर चयन एक भेदभावपूर्ण प्रक्रिया है, जिसके द्वारा इंजीनियर एक लक्ष्य की ओर मशीन लर्निंग सिस्टम को निर्देशित करते हैं। बड़े पैमाने पर सिस्टम से जटिलता को दूर करने के विचार के अलावा, मशीन चयन में विशेषज्ञ चयन "पक्षपातपूर्ण विचरण व्यापार-बंद" कहे जाने वाले पहलुओं के अनुकूलन में उपयोगी हो सकते हैं।
कारण चयन सुविधा पूर्वाग्रह और विचरण विश्लेषण के साथ मदद करता है और अधिक जटिल हैं। सुविधा चयन, पूर्वाग्रह विचलन और बैगिंग पर कॉर्नेल विश्वविद्यालय के एक अध्ययन से पता चलता है कि फीचर चयन परियोजनाओं को कैसे प्रदर्शित करता है।
लेखकों के अनुसार, पेपर "तंत्र की जांच करता है जिसके द्वारा सुविधा चयन पर्यवेक्षित सीखने की सटीकता में सुधार करता है।"
अध्ययन में आगे कहा गया है:
सुविधा चयन प्रगति के रूप में एक अनुभवजन्य पूर्वाग्रह / विचरण विश्लेषण इंगित करता है कि सबसे सटीक सुविधा सेट सीखने के एल्गोरिथ्म के लिए सबसे अच्छा पूर्वाग्रह-विचरण ट्रेडऑफ बिंदु से मेल खाती है।
मजबूत या कमजोर प्रासंगिकता के उपयोग पर चर्चा करने में, लेखक फीचर चयन के बारे में "एक विचरण कमी विधि" के रूप में बात करते हैं - यह तब समझ में आता है जब आप विचरण के बारे में अनिवार्य रूप से किसी दिए गए चर में भिन्नता की मात्रा के बारे में सोचते हैं। यदि कोई भिन्नता नहीं है, तो डेटा बिंदु या सरणी अनिवार्य रूप से बेकार हो सकती है। यदि अत्यधिक उच्च विचरण होता है, तो यह इस बात में विचलित हो सकता है कि इंजीनियर "शोर" या अप्रासंगिक, मनमाने परिणाम के बारे में क्या सोच सकते हैं, जो मशीन लर्निंग सिस्टम के प्रबंधन के लिए कठिन हैं।
इसके प्रकाश में, मशीन चयन में सुविधा चयन, डिजाइन का एक मूलभूत हिस्सा है।
