विषयसूची:
- एनएलपी में बड़े बदलाव
- VivoText में "टेक्स्ट टू वॉयस" क्रिएशन रोमांचक
- विपणन में कृत्रिम आवाज
- आपकी आवाज रहती है
- वर्ष 2525 में
इन दिनों, अधिकांश कंप्यूटर आवाजें पास हैं। जब आप बिल भुगतान में मदद करते हैं या आपसे पूछते हैं कि आप अपने विभाग में "droid" सुनते हैं तो आप साइबरबॉर्ज और रोबोट के बारे में बहुत उत्साहित नहीं होते। लेकिन क्या होगा अगर आपने अचानक कार्ड की जानकारी के लिए कर्ट कोबेन को आपको सुना है? या जॉन एफ कैनेडी आपको शुरुआती मतदान के चमत्कार के बारे में बता रहे हैं? या एल्विस अपना नाम और पता पाने से पहले "एक हंक, जलते हुए प्यार का एक कबाड़?"
ये सब होगा … थोड़े अजीब, लेकिन क्या और भी आकर्षक है कि तकनीक मूल रूप से यहां पहले से ही है। अभी एक दशक पहले या तो, हम कंप्यूटर की क्षमता को देखकर आश्चर्यचकित थे। अब, हम मुफ्त में फ़्लॉयर करने वाले हैं, कंप्यूटर ने ऐसी आवाज़ें पैदा की हैं जो हम जैसे लोगों को मालूम हैं।
एनएलपी में बड़े बदलाव
यदि आप प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र पर ध्यान दे रहे हैं, तो आपने कुछ हालिया अग्रिमों के बारे में सुना होगा जो डिब्बाबंद आभासी सहायक आवाज़ों के प्रकार से परे हैं जो अब हम अपने वैश्विक पोजिशनिंग सिस्टम (जीपीएस) और स्वचालित व्यापार में सुनते हैं। फोन लाइनों।
एनएलपी की शुरुआत को मानव भाषण के सामान्य यांत्रिकी में पूरे शोध की आवश्यकता थी। शोधकर्ताओं और इंजीनियरों को व्यक्तिगत ध्वन्यात्मकता की पहचान करनी थी, वाक्यांशों और वाक्यों को उत्पन्न करने के लिए उन्हें अधिक से अधिक एल्गोरिदम में बदल दिया, और फिर वास्तविक लगने वाली चीज़ को उत्पन्न करने के लिए एक मेटा-स्तर पर सभी को प्रबंधित करने का प्रयास किया। समय के साथ, एनएलपी के नेताओं ने इसमें महारत हासिल कर ली और मनुष्यों के कहने पर समझने के लिए उन्नत एल्गोरिदम का निर्माण शुरू कर दिया। इन दोनों को एक साथ रखकर, कंपनियां आज के आभासी सहायकों और पूरी तरह से डिजिटल बिल-पे क्लर्कों के लिए ड्राइवरों के साथ आईं, जिनकी कार्यप्रणाली - परेशान करते हुए - अभी भी आश्चर्यजनक है जब आप उन कामों के बारे में सोचना बंद कर देते हैं जो उनमें चले गए।
अब, कुछ कंपनियाँ एक अधिक विशिष्ट वैयक्तिकृत परिणाम को एक साथ रखने के लिए जेनेरिक आभासी आवाज से परे जा रही हैं। इसके लिए किसी विशेष व्यक्ति के लेक्सिकॉन के माध्यम से जाने और बड़ी मात्रा में अनूठी आवाज वीडियो एकत्र करने की आवश्यकता होती है, फिर इस संग्रह को ध्वन्यात्मकता, जोर, ताल और अन्य सभी छोटे संकेतों के लिए जटिल लय पर लागू किया जाता है जो भाषाविदों को अक्सर "प्रॉसिकोडी" के व्यापक बैनर के तहत समूह बनाते हैं।
जो सामने आता है वह एक ऐसी आवाज़ है जिसे श्रोता किसी विशेष व्यक्ति द्वारा "स्वामित्व" के रूप में सोचते हैं - या तो कोई व्यक्ति जिसे वे जानते हैं और जिनके साथ बात की है, या किसी व्यक्ति की आवाज़ के कारण वे पहचानते हैं।
एल्विस से लेकर मार्टिन लूथर किंग तक, किसी की भी आवाज़ को अब इस तरह "क्लोन" किया जा सकता है - बशर्ते उनके भाषण का पर्याप्त पूर्व रिकॉर्ड हो। व्यक्तिगत छोटी ध्वनियों के लिए और भी अधिक विस्तृत विश्लेषण और हेरफेर को लागू करके, कंपनियां किसी की आवाज़ की एक आभासी कार्बन कॉपी बनाने में सक्षम होती हैं जो वास्तविक चीज़ की तरह लगती है।
VivoText में "टेक्स्ट टू वॉयस" क्रिएशन रोमांचक
VivoText, उदाहरण के लिए, एक कंपनी है जो ऑडीओबूक से इंटरैक्टिव आवाज प्रतिक्रिया (आईवीआर) तक सभी प्रकार के अभियानों के लिए कृत्रिम मानव आवाज़ों के उपयोग में क्रांति लाने के लिए काम कर रही है। VivoText में, अनुसंधान और उत्पादन दल ऐसी प्रक्रियाओं पर काम कर रहे हैं, जो सैद्धांतिक रूप से, मृत हस्तियों की आवाज़ों को दोहरा सकते हैं, जैसे कि स्वयं ऑल 'ब्लू आइज़'।
विवोटैक्स के सीईओ गेर्शन सिलबर्ट कहते हैं, "इस तरह की तकनीक काम कर सकती है।"
अभी, VivoText उन लोगों की आवाज़ को संग्रहित करने पर काम कर रहा है जो अभी भी हमारे साथ हैं, जैसे कि NPR संवाददाता नील कॉनन, जिन्होंने इस तरह के IT पायनियर प्रोजेक्ट के लिए एक मॉडल के रूप में हस्ताक्षर किए हैं। एक प्रचार वीडियो में विवोटेक्स्ट श्रमिकों को कानन से प्रदान किए गए वॉइस इनपुट का उपयोग करते हुए श्रमसाध्य रूप से ध्वन्यात्मक कोड मॉड्यूल बनाते हुए दिखाया गया है। वे तब पाठ से वाक् (टीटीएस) उपकरण के लिए मॉडल बनाते हैं जो नाटकीय रूप से मानव और व्यक्तिगत परिणाम उत्पन्न करते हैं।
विवोटेक्स्ट में रणनीति और व्यवसाय विकास के उपाध्यक्ष बेन फेबिलमैन के अनुसार, कंप्यूटर एक व्यक्तिगत मानव आवाज के लिए अभियोजन मॉडल के अनुरूप करने के लिए एक ध्वनि स्तर (भाषण के सबसे छोटे अद्वितीय भागों का उपयोग करके) पर काम करता है।
"यह जानता है कि आवाज कैसे बात करती है, " फैबेलमैन कहते हैं, "इकाई चयन" का उपयोग करके, कंप्यूटर एक एकल छोटे शब्द को एक साथ रखने के लिए कई टुकड़े चुनता है, जैसे "शुक्रवार" शब्द को पांच घटक दिए गए हैं जो विकास में मदद करते हैं एक विशेष जोर और तानवाला परिणाम।
विपणन में कृत्रिम आवाज
तो, विपणन में यह कैसे काम करता है? VivoText के उत्पाद ऑडियोबुक की तरह उत्पाद बनाने में बेहद उपयोगी हो सकते हैं, जो लक्षित दर्शकों तक पहुँच सकते हैं। उदाहरण के लिए, एल्विस की आवाज़ आज के जेनेरिक, डेडपैन, स्वचालित आवाज़ों की तुलना में कितनी अधिक प्रभावी होगी अगर इसका इस्तेमाल मनोरंजन से जुड़े उत्पादों को बेचने के लिए किया जाता?
या, राजनीति में कैसे? Feibleman ऐसे प्रोजेक्ट्स का उपयोग करने के लिए विभिन्न विचारों पर काम कर रहा है, जो कंपनियों या अन्य पार्टियों के लिए विपणन को बढ़ाने के लिए हैं जिन्हें अधिक प्रभावी संदेश की आवश्यकता है।
"यदि आप राष्ट्रपति के लिए चल रहे किसी भी राजनेताओं को जानते हैं, तो इससे 10 मिलियन स्विंग-राज्य मतदाताओं को एक उम्मीदवार से व्यक्तिगत कॉल मिल सकता है, उन्हें उनके समर्थन के लिए धन्यवाद देते हुए, उन्हें बताएंगे कि उन्हें वोट देने के लिए कहां जाना है, मौसम और सभी ट्रिमिंग चुनाव से पहले रात, "Feibleman ने कहा।
आपकी आवाज रहती है
इस प्रौद्योगिकी के सभी के लिए एक और स्पष्ट अनुप्रयोग है। VivoText जैसी प्राकृतिक भाषा कंपनियाँ एक ऐसी व्यक्तिगत सेवा बना सकती हैं, जो किसी ग्राहक के ध्वनि डेटा को एक ऐसे उत्पाद में अपलोड करेगी, जो उस व्यक्ति को "हमेशा के लिए बोलने" की अनुमति देगा।
व्यावहारिक रूप से कार्यान्वयन संभवत: हमारे द्वारा बोली जाने वाली आवाज़ों को सुनने और आंतरिक करने के बारे में कई प्रश्न उठाएगा। उदाहरण के लिए, ध्वनि प्रवाह को किसी की तरह ध्वनि बनाने में क्या लगता है? किसी विशेष आवाज़ को पहचानने के लिए हमें एक व्यक्ति को कितनी अच्छी तरह से जानना होगा? और, दिलचस्प बात यह है कि अगर कोई प्राकृतिक भाषा सेवा एक सम्मोहक नकल के बजाय एक कच्ची कैरिकेचर का निर्माण करती है?
परिणाम का मूल्यांकन, Feibleman कहते हैं, अक्सर संदर्भ के विचार पर निर्भर करता है। उदाहरण के लिए, वह कहता है कि बच्चे आमतौर पर किसी कहानी के बारे में सवाल नहीं पूछते हैं कि कौन क्या बोल रहा है। उन्हें बस और चाहिए। लेकिन यह भी, कई वयस्क इस बारे में नहीं सोच सकते हैं कि कौन उनसे बात कर रहा है, किसी विशेष परिदृश्य को देखते हुए, जैसे कि एक निष्क्रिय प्रसारण या फोन संदेश। इसके अलावा, फोन पर कंप्यूटर द्वारा बेवकूफ़ बनाया जाना आसान होता है क्योंकि फंसी हुई ध्वनि कंप्यूटर के परिणामों और एक मानवीय आवाज़ के बीच गड़बड़ या अन्य विसंगतियों को मुखौटा बना सकती है।
"यह आवाज की प्रामाणिकता को चुनौती देने के लिए आपके पास नहीं होता है, " फेलिबलमैन कहते हैं।
वर्ष 2525 में
जैसा कि कंपनियां उत्पादों और सेवाओं को विकसित करने और इन सवालों के जवाब देने के लिए आगे बढ़ती हैं, "जीवित भाषण" प्रौद्योगिकियां हमें प्रौद्योगिकी के उस अभिसरण और मानव मन की ओर अग्रसर कर सकती हैं, जिसे शास्त्रीय रूप से कृत्रिम बुद्धिमत्ता (एआई) कहा गया है।
यदि कंप्यूटर हमारी तरह बोल सकते हैं, तो वे अन्य उपयोगकर्ताओं को यह सोचने में सक्षम करने में सक्षम हो सकते हैं कि वे हमारी तरह सोचते हैं, विलक्षणता के बड़े सिद्धांत को खिलाते हैं, जैसा कि जॉन वॉन न्यूमैन, हमारे 1950 के दशक के एक तकनीकी विशेषज्ञ लेखक द्वारा प्रचारित किया गया था। और रे कुर्ज़वील जैसे विचारक। कुर्ज़वील की 2005 की किताब, "द सिंगुलैरिटी इज नियर, " कुछ लोगों को उत्साहित करती है और दूसरों को डराती है। कुर्ज़वील ने भविष्यवाणी की थी कि 2045 तक, एक घटना के रूप में "खुफिया" मानव मस्तिष्क से बहुत अधिक अप्रकाशित हो जाएगा और प्रौद्योगिकी में माइग्रेट हो जाएगा, मशीनों और उनके मानव स्वामी के बीच की रेखाओं को धुंधला कर देगा।
ज़गर एंड इवांस के गीत "इन द इयर 2525" में अमर (कोई भी इन लोगों की तरह डरावना विज्ञान-गाथा नहीं करता) …
वर्ष 4545 में
आप अपने दांतों की जरूरत नहीं है, की जरूरत नहीं होगी
तुम्हारी आँखें
आपको चबाने की चीज नहीं मिलेगी
कोई भी आपको देखने वाला नहीं है
वर्ष 5555 में
आपकी भुजाओं के आलिंगन का अंग आपके किनारों पर है
आपके पैरों को कुछ नहीं हुआ
कुछ मशीन के 'आप के लिए है कि
क्या कंप्यूटर की आवाजें इस दिशा में एक कदम हैं? मानव शरीर के कुछ कार्यों को आउटसोर्स करने के एक नए तरीके के रूप में (या अधिक सामान्यतः, उन्हें अनुकरण करने के लिए), इस तरह की तकनीकी प्रगति सबसे बड़े में से एक है - और शायद कमतर - क्षितिज पर अग्रिम जैसा कि हम एक एकल भविष्य में देखते हैं । (विल कंप्यूटर्स में "विलक्षणता" के बारे में मानव मन की नकल करने में सक्षम हैं?)
