घर सॉफ्टवेयर आवाज पहचानने की तकनीक: मददगार या दर्दनाक?

आवाज पहचानने की तकनीक: मददगार या दर्दनाक?

विषयसूची:

Anonim

क्या आपने कभी किसी कंपनी को फोन किया है कि वह कुछ मदद ले या अपने बिल का भुगतान करे, केवल एक सुखद रिकॉर्डेड आवाज से अभिवादन किया जाए जो आपके साथ बातचीत करना चाहता है - लेकिन आप जो कह रहे हैं उसका आधा समझ नहीं सकते हैं? या हो सकता है कि आपके पास एक आईफोन हो, और जब सिरी पहली बार एक अच्छे सहयोगी की तरह लग रहा था, तो आपको पता चला है कि कभी-कभी (ठीक है, चलो ईमानदार हो, अक्सर) वह बस नहीं मिलता है? वॉइस रिकग्निशन टेक्नोलॉजी (वीआरटी), जिसे स्पीच-टू-टेक्स्ट के रूप में भी जाना जाता है, एक सामान्य जाल में गिर जाता है: इसमें अविश्वसनीय रूप से शांत होने की क्षमता है (और लड़का है, क्या हम इसके लिए रूटिंग कर रहे हैं), लेकिन अधिक बार, यह दांत पीसने वाला होता है हताशा में व्यायाम करें।


एक बार जब एक विचार जो विज्ञान कथा के दायरे में था, आवाज पहचान 1950 के दशक में अपनी प्रारंभिक अवस्था से बढ़ी है, जब बेल प्रयोगशालाओं ऑड्रे प्रणाली को एक स्वर में बोले गए अंकों को पहचानने के लिए डिज़ाइन किया गया था, हम संवादी इलेक्ट्रॉनिक्स के आधुनिक नेटवर्क के साथ बातचीत करते हैं दैनिक आधार पर - मिश्रित परिणामों के साथ।

एक मानव से बात करने के लिए, कृपया 0 दबाएं

आज के कई व्यवसाय अब ग्राहक सेवा कॉल को संभालने के लिए संवादात्मक आवाज प्रतिक्रिया (आईवीआर) नामक प्रणालियों का उपयोग करते हैं। सबसे आम उपयोग वॉयस-नेवीगेटेड मेनू के लिए है, लेकिन कुछ कंपनियां आईवीआर सिस्टम का उपयोग करती हैं जो ग्राहक के खाते की जानकारी तक पहुंच सकते हैं और मामूली सवालों के जवाब दे सकते हैं। मेनू आईवीआर सॉफ्टवेयर में आमतौर पर एक सीमित शब्दावली होती है, जिसे "हां, " "नहीं" और संख्या तक सीमित किया जा सकता है। अधिक जटिल प्रणालियां कंपनी-विशिष्ट शब्दों और वाक्यांशों को पहचान सकती हैं।


ये सिस्टम अधिक लोकप्रिय हो रहे हैं - कम से कम व्यवसायों के लिए - एक साधारण कारण के लिए: वे लागत प्रभावी हैं। वॉल स्ट्रीट जर्नल की 2010 की रिपोर्ट के अनुसार, एक विशिष्ट ग्राहक कॉल जो एक एजेंट तक $ 3 और $ 9 के बीच पहुंचती है, जबकि एक स्वचालित प्रणाली के माध्यम से नियंत्रित कॉल की लागत केवल पांच से सात सेंट होती है। और, ज़ाहिर है, कंप्यूटर प्रोग्राम थके हुए नहीं हैं, बीमार में कॉल करते हैं, या ग्राहकों से निराश हो जाते हैं (हालांकि ग्राहक निश्चित रूप से उनके साथ निराश हो जाते हैं!)।


सौभाग्य से, इसका मतलब यह नहीं है कि आईवीआर लोगों को नौकरियों से दूर ले जाता है - या कम से कम सभी लोग कॉल सेंटर से गायब हो रहे हैं। ये आवाज सक्रिय मददगार मानव ग्राहक सेवा को कॉल का निर्देशन और सरल सवालों के जवाब देकर अधिक उत्पादक होने की अनुमति देते हैं।


बेशक, इन तकनीकों के साथ बातचीत करने वाले मानव उपयोगकर्ताओं के लिए, यह हमेशा सहज नौकायन नहीं है। प्रौद्योगिकी आईवीआर प्रौद्योगिकी में आम समस्याओं पर सुधार करने में मदद कर रही है, जैसे कि उच्चारण के साथ परेशानी, लेकिन स्वचालित सिस्टम को बर्खास्त करना अभी भी ऑनलाइन एक सामान्य विषय है। वॉइस रिकग्निशन से लैस एक एलेवेटर के बारे में इस कॉमेडी स्किट को देखें, जो आईवीआर सिस्टम में खराबी पैदा करने वाली हताशा को उजागर करता है।

पर्सनल फोन ऐप्स: सिरी, Google नाओ

ज्यादातर लोग स्मार्टफोन के लिए आवाज पहचान से परिचित हैं। जबकि अधिकांश नवीनतम फोन मॉडल वीआर के साथ आते हैं, उनकी लोकप्रियता - और कुख्याति - जब एप्पल ने सिरी को हल्के ढंग से व्यंग्यात्मक, ध्वनि-सक्रिय "पर्सनल असिस्टेंट" के रूप में 2011 में iPhone 4S के लिए पेश किया। Google ने जल्द ही एक प्रत्यक्षदर्शी बनाया: Google अब एंड्रॉइड जेली बीन ओएस के लिए। दोनों प्रणालियों में फीमेल वॉयस और परिष्कृत पहचान की विशेषताएं हैं जो उपयोगकर्ताओं को आकस्मिक भाषा का उपयोग करके अपने फोन पर "बात" करने देती हैं।


लेकिन जब ये सिस्टम अपने पूर्ववर्तियों की तुलना में काफी अधिक परिष्कृत और कार्यात्मक हैं, तो वे यह भी बताते हैं कि प्रौद्योगिकी अभी भी लंबा रास्ता तय करना है। सिरी की विफलता के बारे में चुटकुले एक लोकप्रिय इंटरनेट मेम बन गए हैं। एक व्यक्ति ने सिरी की क्षमताओं के बारे में झूठे विज्ञापन के लिए एप्पल पर मुकदमा भी दायर किया।


शायद इसीलिए जबकि Apple ने सिरी को उन्नत और ज्ञानवर्धक बनाया, वीआर सॉफ्टवेयर भी सैसी की तरफ थोड़ा सा है। उदाहरण के लिए, यदि आप 1968 की फिल्म "2001: ए स्पेस ओडिसी" से सिनेमा के इतिहास में सबसे बदनाम खुफिया प्रौद्योगिकी लाइनों में से एक बोलते हैं - "पॉड बे दरवाजे खोलें" - सिरी फिल्म से उत्तर देने वाली रेखा के साथ जवाब देगी, " मुझे खेद है (आपका नाम), मुझे डर है कि मैं ऐसा नहीं कर सकता, "या अधिक व्यंग्यात्मक, " हम खुफिया एजेंट कभी भी उस नीचे नहीं रहेंगे, जाहिरा तौर पर। "


आपको नाम से पुकारना केवल उन कार्यों में से एक है जो सिरी को प्यार करना आसान बनाने की कोशिश करता है, और थोड़ा और मानवीय। वीआर असिस्टेंट कॉल करने, डिक्टेशन लेने और टेक्स्ट भेजने के लिए वॉयस कमांड का पालन कर सकता है, सूचनाओं के लिए इंटरनेट सर्च कर सकता है, आस-पास की दुकानों को ढूंढ सकता है, ड्राइविंग निर्देश और बहुत कुछ दे सकता है, बिना कुछ भी छूने की जरूरत के। उत्तर फोन द्वारा एक साथ बोले जाते हैं और स्क्रीन पर प्रदर्शित होते हैं।


एंड्रॉइड जेली बीन प्लेटफॉर्म का वीआर हिस्सा Google नाओ, सिरी से काफी मिलता-जुलता है। यह सिस्टम कैजुअल स्पीच को उसी कमांड में ट्रांसलेट करता है, जो यूजर्स को कॉल करने, टेक्स्ट भेजने, सर्च करने, कैलकुलेशन करने और कन्वर्सेशन, वर्ड डेफिनेशन को हथियाने, अलार्म सेट करने, गाने बजाने, और मैप्स और डायरेक्शन पाने के लिए एक ही व्यापक पहचान क्षमता प्रदान करता है।


व्यक्तिगत आवाज सहायकों जैसे सिरी और Google नाओ के साथ, लाभ स्पष्ट हैं। कॉलिंग और टेक्स्टिंग से लेकर सर्च और मनोरंजन तक सब कुछ तेज और आसान है। जैसा आप चाहते हैं वैसा ही कहें और (अधिकतर समय) वीआर ऐप आपके लिए इसे पकड़ लेता है। ड्राइविंग करते समय VR की हैंड्स-ऑफ तकनीक विशेष रूप से सहायक है। और जबकि कई लोग सिरी की खामियों को कम कर चुके हैं, और लेखकों ने तर्क दिया है कि Google नाओ की क्षमता अनिवार्य रूप से उपयोगकर्ताओं के जीवन को चलाने की क्षमता दोनों डरावना है, ज्यादातर लोग अभी भी महसूस करते हैं कि ये भविष्यवादी प्रौद्योगिकियां बहुत अच्छी हैं।


बेशक, सिरी और Google नाओ जैसे व्यक्तिगत फोन ऐप परिपूर्ण हैं - हालांकि वे दिखाते हैं कि भविष्य में इस तकनीक का नेतृत्व कहां किया जा सकता है। इसका मतलब यह है कि जब सिरी एक गलत जवाब देता है, तब भी हमें उसकी हंसी और क्षमा करने की संभावना है, यह जानकर कि अगला संस्करण बहुत बेहतर होगा।

जहां वीआर फॉल्स फ्लैट

यदि आपने कभी एक आईवीआर का सामना किया है जब आपने एक व्यवसाय कहा है, तो आपने संचार में कुछ बाधाओं को देखा होगा। कुछ कार्यक्रम एक रोबोट टेक्स्ट-टू-स्पीच आवाज का उपयोग करते हैं जो शब्दों को गलत तरीके से बताता है और चीजों को समझने में मुश्किल करता है। दूसरों को संवेदनशीलता की समस्या है, जिसके परिणामस्वरूप सॉफ़्टवेयर संसाधित करने में असमर्थ है जो आप कह रहे हैं कि यदि आप बहुत जोर से, बहुत नरम हैं, या ध्यान से संन्यास नहीं कर रहे हैं।


इसके अलावा, कई लोग अभी भी सिर्फ एक मशीन से बात करने में सहज महसूस नहीं करते हैं। यदि आप आईवीआर पर कुछ खोज चलाते हैं, तो आपको आईवीआर सिस्टम को बायपास करने के तरीकों को एक साथ रखा है और एक "वास्तविक व्यक्ति" को मिलेगा। यह समाधान "एक ऑपरेटर के लिए 0 दबाए रखें" से लेकर "मशीन की कसम खाता है जब तक कि यह एक मानव प्राप्त नहीं करता है।" नतीजतन, आईवीआर सिस्टम में हालिया विकास का अधिकांश हिस्सा मनुष्यों के लिए उन्हें अधिक स्वादिष्ट बनाने के लिए घूमता रहा है; आवाज़ों को अधिक सहानुभूतिपूर्ण और कम रोबोट बनाते हुए, सिस्टम को नेविगेट करना आसान बना देता है, और कॉल करने वालों को पता चलता है कि शुरू से अंत तक पूरी बात में कितना समय लगेगा। यह बताता है कि बेहतर तकनीक यहाँ केवल आधी लड़ाई है; अन्य आधे को मशीन पर बोलने के साथ उपयोगकर्ताओं को मिल रहा है।

भविष्य के गर्त में क्या छिपा हैं

इन चुनौतियों के बावजूद, आवाज मान्यता प्रौद्योगिकी में हर समय सुधार हो रहा है। सिरी और Google नाओ जैसे एप्लिकेशन - दोष और सभी - अभी भी उनके प्रदर्शन में असाधारण रूप से प्रभावशाली हैं, और कई कंपनियां वीआर क्षमताओं को अन्य अनुप्रयोगों में विस्तारित कर रही हैं।


उदाहरण के लिए, नुअरेन्स, ड्रैगन नेचुरलीस्पीकिंग स्पीच-टू-टेक्स्ट सॉफ़्टवेयर के निर्माता, पहले से ही टीवी और ऑटोमोबाइल के लिए आवाज नियंत्रण विकसित कर चुके हैं, और इस तकनीक के संस्करणों को कुछ फोर्ड टीवी और कुछ फोर्ड वाहनों में इस्तेमाल होने वाले SYNC मनोरंजन प्रणालियों में शामिल किया गया है।


Google और Apple अपनी आवाज पहचान प्रौद्योगिकियों के लिए नए उपयोग करना जारी रखते हैं, यह संभावना है कि हम तेजी से हर तरह की रोजमर्रा की मशीनों से बात करेंगे, हमारे टीवी से हमारे टोस्टर तक। और, एक बार फिर, ऐसा लग रहा है कि विज्ञान कथा सही थी। हमें बस उम्मीद करनी होगी कि वे चतुर लेखक एक बात के बारे में गलत थे। अगर ये मशीनें खत्म हो रही हैं, तो अगली बार जब आप सिरी को "पॉड बे दरवाजे खोलने" के लिए कहेंगे तो आप बहुत परेशानी में पड़ सकते हैं।

आवाज पहचानने की तकनीक: मददगार या दर्दनाक?