प्रश्न:
पाठ और चैटबॉट में भाषण के बीच अंतर क्या है?
ए:स्पीच-टू-टेक्स्ट टेक्नोलॉजी और चैटबॉट्स के बीच कई महत्वपूर्ण अंतर चैटबॉट और वॉइसबॉट परियोजनाओं के तेजी से विकास में जांच की जा रही है।
एक भाषण-से-पाठ तकनीक बस एक है जो एक डिजिटल पृष्ठ पर पाठ के लिए मौखिक भाषण को परिवर्तित करती है। यह इसका पूर्ण कार्य है, लेकिन यह ऐसा नहीं है जिसे डिजाइन करना सरल है। मौखिक भाषण को पाठ में परिवर्तित करने के लिए, प्रौद्योगिकी को शब्दों और वाक्यों को अलग-अलग स्वरों में तोड़ना पड़ता है और पाठ को बनाने के लिए जटिल एल्गोरिदम के अनुसार उनके साथ काम करना होता है जो सटीक होता है और स्पीकर द्वारा कही गई बातों का प्रतिनिधित्व करता है।
दूसरी ओर, चैटबॉट एक ऐसी तकनीक है जो मानव के साथ संवाद करने के लक्ष्य को पूरा करती है। चैटबॉट दो प्रकार के होते हैं: टेक्स्ट चैटबॉट और वॉइसबॉट। टेक्स्ट चैटबोट्स बहुत लंबे समय तक रहे हैं, क्योंकि उन्हें स्पीच-टू-टेक्स्ट एलिमेंट की आवश्यकता नहीं होती है, जो वॉइसबॉट उपयोग करते हैं।
भाषण-से-पाठ प्रौद्योगिकियों और चैटबॉट्स के बीच मुख्य अंतर गुंजाइश है। जैसा कि उल्लेख किया गया है, सभी भाषण-से-पाठ तकनीक को मौखिक भाषण को स्थानांतरित करना है। दूसरी ओर, चैटबोट को इसके लिए जो भी रूप में भाषण देने की आवश्यकता होती है, उसे समझें, और प्रतिक्रियाएं प्रदान करें जो कि ट्यूरिंग टेस्ट को पास करना चाहते हैं - यह परीक्षण कि क्या एक प्रौद्योगिकी यह सोचकर किसी इंसान को बेवकूफ बना सकती है कि वह है या नहीं दूसरे व्यक्ति के साथ बात करना।
यह ध्यान में रखते हुए, चैटबॉट वॉयबोट्स बनाने की तुलना में बहुत आसान हैं। चैटबॉट मानव के पाठ में लेता है और एक पाठ प्रतिक्रिया प्रदान करता है। यहां तक कि अपेक्षाकृत सरल चैटबॉट 1980 के दशक के अंत और 1990 के दशक की शुरुआत से मनुष्यों के लिए दिलचस्प और सुखद परिणाम प्रदान करने में सक्षम हैं।
दूसरी ओर, वॉइसबोट को मौखिक भाषण में लेना होता है, इसे टेक्स्ट में बदलना होता है, सटीकता के लिए इसकी जांच करना, एक प्रतिक्रिया उत्पन्न करना और मशीन की भाषा से उस प्रतिक्रिया को श्रव्य भाषण में निर्मित करना। बड़ी संख्या में काफी महत्वपूर्ण कार्यों का मतलब है कि वॉयबट कंप्यूटिंग शक्ति और निर्माण के लिए बहुत सारे डिजाइन लेता है।
सिरी, कोरटाना और एलेक्सा जैसी परियोजनाएं वॉयबॉट प्रौद्योगिकियों के मोहरा भाग का प्रदर्शन करती हैं। वे यह भी स्पष्ट करते हैं कि यह तकनीक अभी भी अपनी प्रारंभिक अवस्था में है। यद्यपि एलेक्सा और अन्य प्रौद्योगिकियां मौखिक रूप से मानव भाषण का जवाब दे सकती हैं, वे इस अर्थ में बहुत सक्षम नहीं हैं कि हम मौखिक मानव भाषण को सामान्य रूप से जोड़ते हैं। दूसरे शब्दों में, इन तकनीकों को प्रदान की जा सकने वाली प्रतिक्रियाओं के लिए काफी सीमित है। व्यक्तिगत सहायकों की आज की पीढ़ी की एक सीमित क्षमता है कि वे वास्तव में पाठ के लिए भाषण उत्पन्न कर सकते हैं, उदाहरण के लिए, एक ईमेल को स्थानांतरित करने या किसी को अपने हाथों का उपयोग किए बिना निबंध लिखने में मदद करने के प्रयोजनों के लिए। बाजार पर कुछ विशिष्ट भाषण-से-पाठ कार्यक्रम सिरी या कॉर्टाना की तुलना में बेहतर करते हैं, संभवतः संसाधनों के आवंटन के कारण। हालांकि, ऐसे संकेत हैं कि वॉइसबोट प्रगति जल्द ही बंद होने वाली है - जैसे कि अमेज़ॅन का लेक्स प्लेटफॉर्म जो इस प्रकार की प्रौद्योगिकियों के निर्माण के लिए एक स्टूडियो वातावरण की अनुमति देता है।
इस विषय पर एक चतुर और शिक्षाप्रद निबंध में, टोबियास गोएबेल इन तकनीकों के बीच अंतर के बारे में बात करता है, जो "ट्रांसक्रिप्शनिंग" की प्रक्रिया के विपरीत है, जो पाठ के लिए भाषण, समझ के कार्य को करता है, जो कि चैटबॉट करने वाले हैं।
गोएब लिखते हैं, "स्पीच रिकग्निशन की आवश्यकता को समाप्त करते हुए, चैटबॉट के लिए चीजें आसान हो जाती हैं, जो वर्किंग बॉट्स बनाने की मुख्य चुनौती है।"
गोएबेल उद्योग में वर्तमान खिलाड़ियों में से कई की पहचान करता है:
भाषण पहचान के लिए मार्केट लीडर नुआंस है, जो एक पीसी पर श्रुतलेख के लिए ड्रैगन नैचुरलीस्पीकिंग जैसी प्रसिद्ध प्रणालियों के पीछे है, जो नब्बे के दशक के बाद से है, लेकिन सिरी: Apple क्लाउड में आयोजित भाषण मान्यता / ट्रांसक्रिप्शन कार्य पर्दे के पीछे Nuance तकनीक। अन्य LumenVox, Verbio, या इंटरैक्शन हैं, लेकिन वाक् पहचान को अब Amazon, Google, Microsoft और IBM की पसंद से API के माध्यम से क्लाउड सेवा के रूप में भी पेश किया जाता है।
जैसे-जैसे चैटबॉट विकसित होते हैं, यह माना जाता है कि उनकी समझ कुछ प्रक्षेपवक्र पर बढ़ती रहेगी - और यह भी काफी हद तक माना जाता है कि अधिक बॉट प्रौद्योगिकी पाठ इंटरफेस से मौखिक इंटरफेस तक जाएगी, जिससे अतिरिक्त मात्रा में कंप्यूटिंग शक्ति की आवश्यकता होगी।
