शोध आलेख : मशीनी अनुवाद का ऐतिहासिक अध्ययन और संभावनाएँ / शिवम् तिवारी

मशीनी अनुवाद का ऐतिहासिक अध्ययन और संभावनाएँ

- शिवम् तिवारी

शोध सार : प्रौद्योगिकी के सतत् विकास के साथ अनुवाद की दिशा में एक नया आयाम मशीनी अनुवाद है। देश-विदेश में कई संस्थाएँ इस नई प्रौद्योगिकी के विकास में योगदान दे रही हैं। वर्ल्ड वाइड वेब के माध्यम से सामग्री के प्रवाह को देखते हुए अनुवाद के लिए माँग बढ़ रही है और मशीन अनुवाद ही इस माँग के लिए सम्भावित उत्तर है।अमेरिका, यूरोप, जापान के वैज्ञानिकों ने मशीनी अनुवाद के क्षेत्र में शानदार काम किया है और लगातार बेहतर अनुवाद के प्रयास में लगे हुए हैं। भारत में 1980 के बाद से विभिन्न तकनीकी संस्थानों की सहायता से मशीनी अनुवाद के क्षेत्र में तीव्र गति से बहुत टूल्स तैयार किए गए हैं और यह प्रयास अनवरत रूप से जारी है। मशीनी अनुवाद कीपूरी प्रक्रिया में प्रमुख रूप से आईआईटी कानपुर, आईआईटी हैदराबाद, सी-डैक पुणे, मुंबई जैसी संस्थाओं ने अमूल्य योगदान दिया है।वर्तमान में NLP, संगणकीय भाषाविज्ञान (Computational Lingusistics) एवं Cognitive Science के अनुसन्धाता सिद्धान्तों एवं यंत्रों के माध्यम से भाषा को विश्लेषित करने में लगे हुए हैं। पूरी तरह से स्वचालित (Fully Automatic), उच्च गुणवत्ता युक्त किसी भी क्षेत्र का अनुवाद करने की क्षमता रखने वाली मशीनी अनुवाद प्रणाली अब भी एक दूर का स्वप्न है। लेकिन उनका यह प्रयास वर्तमान में बेहतरी की दिशा में चल रहा है और इसको देखते हुएयह कहा जा सकता है कि मशीनी अनुवाद का इतिहास जितना मजबूत रहा है, वर्तमान भी उसका उतना ही प्रगतिशील है।

मूल आलेख : अनुवाद की सामान्य समझ किसी भी पाठ्यसामग्री को एक भाषा से दूसरी भाषा में प्रस्तुत करने की प्रक्रिया से है और मशीन के माध्यम से अनुवाद की इस प्रक्रिया को अंजाम देना मशीनी अनुवाद है। वर्तमान समय में अनुवाद के कार्य का स्वरूप काफी तेजी से बदला है। अनुवाद की सैद्धान्तिकी विकसित हुई है जिससे अनुवाद कार्य ने अपना एक वैश्विक रूप धारण कर लिया है। प्रौद्योगिकी के सतत् विकास के साथ अनुवाद का एक नया आयाम मशीनी अनुवाद हमारे सामने है। “मशीनी अनुवाद,मैकेनिकल अनुवाद या ऑटोमेटिक अनुवाद से अभिप्राय मशीन या इलेक्ट्रॉनिक कंप्यूटरों की सहायता से किसी एक भाषा से दूसरी भाषा में किए गए अनुवाद से है।^”1मशीनी अनुवाद के माध्यम से स्रोत भाषा की पाठ्यसामग्री का अनुवाद, लक्ष्य भाषा में किया जाता है। स्रोतभाषिक पाठ का लक्ष्यभाषिक पाठ में पूरी तरह मशीनी अनुवाद कर पाना संभव नहीं है। मूल पाठ की सामग्री को कम्प्यूटर सिस्टम में इनपुट किया जाता है, कम्प्यूटर में स्रोत भाषा और लक्ष्य भाषा दोनों के शब्दकोश, मुहावरे और व्याकरणिक नियम पहले से होते हैं जो स्रोत भाषा की सामग्री का अनुवाद लक्ष्य भाषा में अपने-आप करते हैं और अनूदित पाठ, आउटपुट के रूप में प्राप्त हो जाता है।

चूँकि अनुवाद एक बौद्धिक प्रक्रिया है, जिसकी क्षमता मानव में हमेशा से रही है। इसलिए मशीन मानव का स्थान नहीं ले सकती। अनुवादक की कठिनाई दो प्रकार की होती है। एक तो ये कि मूल-पाठ के किसी अंश को समझने में ही वह असमर्थ हो। दूसरी समस्या यह हो सकती है कि जिस भाषा में उसे अनुवाद करना है उसमें मूल शब्दों के प्रतिशब्द ही उपलब्ध न हों। मानव मस्तिष्क परस्पर संदर्भों की सहायता लेते हुए शब्दों की सही व्याख्या कर लेता है। वहीं मशीन में ऐसी क्षमता नहीं है, उसमें वही अर्थ आएगा जो कम्प्यूटर द्वारा समझे जा सकने वाली एल्गोरिद्म में उसकी मेमोरी में पहले से उपलब्ध होगा। कम्प्यूटर सिस्टम मानव की तरह कथ्य को एक भाषा से दूसरी भाषा में रूपांतरित नहीं कर सकता। मशीनी अनुवाद को मानव केनिर्देश की आवश्यकता पड़ती है, इसीलिए “मशीनी अनुवाद को तकनीकी अर्थ में मानव आश्रित मशीन अनुवाद (Human Assisted Machine Translatation) या कंप्यूटर आश्रित मानव अनुवाद (Machine Aided Human Translation) कहा जाता है।^”2मानव आश्रित मशीन अनुवाद में मानव का हस्तक्षेप रहता है। कम्प्यूटर आश्रित मानव अनुवाद के लिए कम्प्यूटर उपकरण के रूप में प्रयुक्त होता है। इसी के साथ पूर्ण स्वचालित मशीनी अनुवाद भी है, जिसमें मानव की सहायता की आवश्यकता नहीं होती।

मशीनी अनुवाद (Machine Translation) का इतिहास संगणक के आविष्कार से जुड़ा हुआ है। “द्वितीय विश्वयुद्ध के दौरान शत्रु की गोपनीय सूचनाओं को समझने के लिए Cryptography और Information Theory का उपयोग संगणक के माध्यम से किया गया।”3 मशीनी अनुवाद टर्म सन् 1940 के आस-पास कंप्यूटर वैज्ञानिकों के बीच चर्चा में आता है। 1945 के अंत में संप्रेषण सिद्धांत के अंतर्गत कोडीकरण और विकोडीकरण की प्रक्रिया का लाभ उठाते हुए “अमरीकी वैज्ञानिक वारेन वीवर और डयू बूथ ने मशीनी अनुवाद के लिए सर्वप्रथम प्रयास किया था। ये कोड अक्षर और शब्दों की सापेक्ष आवृत्तियों के आधार पर तैयार किए गए थे”4 जिसमें मशीनी अनुवाद की संभावनाओं की चर्चा थी।इसके साथ ही दो भाषाओं के संपूर्ण कोशों को कंप्यूटर में किस प्रकार रखा जाए और शब्द के विविध अर्थों में से दो अपेक्षित अर्थ का चयन किस प्रकार किया जाए। इस प्रपत्र का आधार यह था कि “अनुवाद भाषिक पर्यायों का प्रतिस्थापन मात्र है अर्थात् किसी एक भाषा की इकाइयों को दूसरी भाषा के पर्यायों से प्रतिस्थापित कर दिया जाता है। इसी तकनीकी विकास की कड़ी में एक ऐसे तंत्र का विकास कप्यूटर वैज्ञानिकों ने प्रस्तुत किया जो स्रोत भाषा के शब्दों को लक्ष्य भाषा के शब्दों से प्रतिस्थापित कर सकता था। इसके सोपान थे- (1) शब्द प्रतिस्थापन और (2) पुनर्सयोजन। ”5

अमेरिका में इस दौरान अनेक अनुसन्धान समूह मशीनी अनुवाद परियोजनाओं पर (विशेषतः रूसी से अंग्रेजी) हेतु आगे आए। सोवियत संघ (USSR) में भी अंग्रेजी एवं फ्रेंच से रूसी में विभिन्न स्तर पर अनुवाद-यंत्र बनाने के कार्य में प्रगति हुई। लेकिन शुरुआत केदिनों में यह दावा किया गया था कि मशीनी अनुवाद किसी भी मानवीय हस्तक्षेप के बिना सामान्य दस्तावेजों के लिए उच्च गुणवत्ता युक्त अनुवाद का निर्माण करने में सक्षम हो जाएगा। “मशीन अनुवाद अनुसन्धान के परीक्षण हेतु अमेरिका में ALPAC नामक समिति का गठन किया गया। समिति ने इस सम्बन्ध में निर्णय दिया कि उपर्युक्त अनुसन्धान के सम्बन्ध में जो दावा किया गया था, वह असफल रहा। समिति की सन् 1966 की रिपोर्ट में कहा गया था कि इस सन्दर्भ में और अधिक मूलभूत अनुसन्धान की आवश्यकता है एवं भविष्य में मशीन अनुवाद प्रायोगिक दृष्टि से उपयोगी नहीं सिद्ध होगा।”6 इसके बाद बार हिल्लेल को अनुभव हुआ कि अनुवाद के लिए मशीन में विश्व ज्ञान का संग्रह किया जाना आवश्यक है और इसके साथ ही कंप्यूटर प्रोग्राम में व्याकरण के नियमों का समावेश किया जाए।

अर्थ को समझे बिना और कम्प्यूटर में उसे निरूपित किए बिना अनुवाद करना संभव नहीं है। इसलिए ऐसी विधियाँ, जो अर्थ निरूपण में सहायक हो साथ में उसमें निहित संदिग्धार्थकता को भी दूर कर सके। इसी विकास क्रम में मुख्यतः दो विधियों का विकास हुआ। पहली विधि “अमरीकी भाषावैज्ञानिक नोअम चॉम्स्की द्वारा प्रतिपादित ‘रूपांतरण प्रजनक व्याकरण’ (Transformational Generative Grammar) पर आधारित है। इसमें रूपांतरण नियमों को बार-बार प्रयोग कर के ऐसे पदबंध बनाए जाते हैं, जो दिए गए पदबंध से मेल खाते हैं। दूसरी विधि पदबंध अभिरचना (Phrase pattern) पर आधारित है, जिसमें मूल शब्द (Key word) अथवा शब्द अनुक्रम (word sequence) को दिए गए पदबंध से अर्थ निकालने के लिए प्रयोग में लाते हैं।”7 इसकी सहायता से ‘स्टूडेंट प्रोग्राम’ में मानव भाषा में दी गई सरल बीजगणितीय समस्याओं को हल करने की व्यवस्था की गई ।1970 के प्रारंभ होने वाले इस दशक को अर्थपरक संरचनात्मक मशीनी अनुवाद काल की संज्ञा दे सकते हैं। इस अवधि में विनूगार्ड के ‘श्रड्लू’ (Shrdlo) और वुड्स के ‘ल्यूनर’ (Lunar) दो प्रोग्राम आए। ‘श्रुड्लू’ प्रोग्राम रोबोट की भूमिका निभाता है, जिसमें मानव भाषा में वार्तालाप किया जा सकता है। ‘ल्यूनर’ प्रोग्राम से ग्रहों के आंकड़ों की संहिता से मानव भाषा में जानकारी प्राप्त कर सकते हैं। इसी दौरान फिल्मोर ने कारक व्याकरण (Case Grammar) का प्रतिपादन किया, जो अर्थ को समझने में काफी सिद्ध हुआ। इसी से मिलता-जुलता सिद्धांत एक विद्वान रोजर शैक का ‘संकल्पनात्मक निर्भरता सिद्धांत’ है, इसमें किसी पदबंध में निहित संकल्पना के बीच अर्थपरक संबंधों को आरेख द्वारा दिखाया जाता है, जिसे संकल्पना आरेख कहते हैं। नासा के वैज्ञानिक रिक ब्रिग्गस ने संस्कृत के कारक व्याकरण को स्पष्ट कोड के संदर्भ में श्रेष्ठ बताते हुए कहा कि संस्कृत भाषा कंप्यूटर संसाधन में उपयोगी मानव भाषा सिद्ध होगी।

मशीनी अनुवाद के विकास को समझने के लिए तीनचरण /पद्धतियाँहैं - प्रत्यक्ष विधि, परोक्ष विधि और अंतरभाषा विधि। प्रत्यक्ष विधि में दो भाषाओं के शब्दकोश, शब्द-रचना के कुछ नियम संचित किए जाते हैं लेकिन न तो इसमें व्याकरणिक नियम थे औरन उनकी पद व्याख्या। इस विधि के आधार पर 1964 में जॉर्ज टाउन विश्वविद्यालय में रूसी-अंग्रेज़ी अनुवाद तंत्र विकसित किया गया। 1976 में इसे SYSTRAN के रूप में परिवर्त्तित एवं परिमार्जित किया गया। इसी परिष्कृत और संवर्धित संस्करण से इंटरनेट के कुछ वेबसाइट्स में अंग्रेजी, फ्रांसीसी, जर्मन और स्पेनिश भाषाओं के ऑनलाइन अनुवाद किए जाते हैं। इस विधि के आधार पर ही हांगकांग के चीनी विश्वविद्यालय ने गणित और भौतिकी विषयों से सबधित चीनी शोध पत्रों को अंग्रेजी में अनूदितकरनेवाले‘CULT’ नामक मशीनी अनुवाद तंत्र का विकास किया। प्रत्यक्ष विधि के आधार पर हीTITUS(टैक्सटाइल टेक्नोलॉजी के लिए अंग्रेजी से फ्रेंच)प्रणाली विकसित की गई।

दूसरी पद्धति परोक्ष विधिया अंतरणविधि, जिसमें अनुवाद की प्रक्रियाव्याकरण संबंधी विश्लेषण, अंतरण और संश्लेषण के माध्यम से संपन्न होतीथी।“इस विधि के अंतर्गत जर्मनी की SUSY और फ्रांस कीGETA आदि प्रणालियाँ विकसित हुई, जिनमें अंग्रेजी, रूसी, जर्मन और फ्रांसीसी भाषाओं के परस्पर अनुवाद की व्यवस्था है।”8 ज्यादातर अनुवाद तंत्र अंतरण विधि पर आधारित हैं।

तीसरी पद्धति अंतरभाषा विधि, जिस भाषा से अनुवाद करना है उस भाषा के पाठ को पहले माध्यम भाषा से जोड़ा जाता था अर्थात् स्रोतभाषिक पाठ वाक्य को विश्लेषित करके माध्यम भाषा में प्रस्तुत किया जाता था। इसमें शब्दों और अर्थों का विश्लेषण कर कृत्रिम बुद्धि के भाषायी पक्ष को मजबूत बनाने की महसूस हुई। उपर्युक्त के आधार पर मशीनी अनुवाद का विकास होता रहा,जिसमें कृत्रिम बुद्धि की विशेष भूमिका रही है, जो स्रोत भाषा के पाठ का विश्लेषण करते हुए लक्ष्य भाषा में उसका अंतरण करती है।

मानव भाषा में मशीन में निरूपित करने के लिए कई विधियाँ हैं। इनमें प्रमुख हैं “पुनरावर्ती संक्रमण नेटवर्क (Recursive Transition Network – RTN) और संवर्धी संक्रमण नेटवर्क (Augmented Transition Network – ATN) विधि, जिनका प्रतिपादन बुड्स ने किया था। इन्हीं विधियों के आधार पर मशीनी अनुवाद पर विभिन्न देशों में काम हुआ है। अमेरिका में स्वचालित भाषा संसाधन प्रणाली (Automated Language Processing System – ALPS), वाइनर कम्युनिकेशन (Weidner Communication) (इलिनाय) और लोगोस कंप्यूटर सिस्टम (Logos Computer System) (Mass.) आदि मशीनी अनुवाद के साफ्टवेयर तैयार कर रहे हैं। जापान में फुजित्सु लि. ने एटलस I और एटलस II (Atlas 1 और Atlas II), एन.ई.सी. कार्पोरेशन ने पिवट (PIVOT), ब्रेवाइस इंटरनेशनल इंक ने मीडियम पैक, शार्प कार्पोरेशन ने माइक्रो पैक, तोशीबा कार्पोरेशन ने ‘टॉरस’ (Tauras) आदि जापानी-अंग्रेज़ी और अंग्रेजी-जापानी मशीनी अनुवाद प्रणालियों का विकास किया गया है।”9कुछ प्रणालियों में प्रत्येक शब्द के लिए अर्थपरक चिह्नक (Semantic marker) की व्यवस्था हैं।

मशीन अनुवाद को भाषा विज्ञान के अत्यधिक परिष्कृत सिद्धान्त की आवश्यकता थी जिससे उचित गुणवत्ता का उत्पादन किया जा सके। संगणकीय व्याकरण (Computational Grammars) के नेतृत्व में भाषा विज्ञान के क्षेत्र में संगणकोपयोगी भाषा सम्बन्धी व्याकरण लिखने के कार्य प्रारम्भ हुए। परिणामस्वरूप Lexical Functional Grammar (LFG), Head Driven Phrase Structure Grammar (HPSG), Tree Adjoining Grammar (TAG) नामक भिन्न- भिन्न संगणकोपयोगी भाषा-व्याकरणों का निर्माण हुआ।

आठवें दशक तक अधिकांश मशीन अनुवाद भाषाविषयक नियमों पर आधारित थे। वे शब्दों का विश्लेषण, शब्दार्थ निर्णय आदि कार्यों के लिए भाषाविषयक नियमों का आधार लेते थे। अधिक नियमों सेयंत्र प्रभावशालीहुए लेकिन जटिलता भी बढ़ी और यंत्र का रखरखावमें कठिनाई हुई। “1980 के दशक में जापान के वैज्ञानिकों ने राष्ट्रीय स्तर के MU नामक परियोजना के अन्तर्गत अंग्रेजी और जापानी के मध्य मशीन अनुवाद को सफलतापूर्वक पूर्ण किया। यूरोपियन समुदाय ने सभी यूरोपीय भाषाओं के मशीन अनुवाद हेतु EUROTRA नामक एक उत्साही परियोजना हाथ में ली।”10 परिणाम ये हुआ कि बहुत से यूरोपीय देशों में अनेक संगणकीय भाषा वैज्ञानिक समुदायों (Computational Linguistic Groups) की स्थापना हुई।

नौवें दशक में मशीन अनुवाद के क्षेत्र मेंगतिशीलता आई। मशीनी अनुवाद के लिए सांख्यिकीय तकनीक का उद्भव हुआ। “IBM द्वारा CANDIDE नामक एक यंत्र बनाया गया। उन दिनों Interlingua तकनीक के आधार पर बना Pangloss एवं भाषाशास्त्र व सांख्यिकीय तकनीक के आधार पर बना Lingstat नामक मशीन अनुवाद के यंत्रों का मुकाबला पूर्णतः सांख्यिकीय तत्त्वों पर आधारित CANDIDE कर पाया। ध्वनि को एक भाषा से दूसरी भाषा में अनुवादित करने के लिए जर्मनी में Verbmobile नामक यंत्र का विकास हुआ।”11 सांख्यिकी तकनीक पर आधारित यंत्र का मूल्यांकन 1994 के दौरान DARPA यंत्र के मूल्यांकन के बराबर था। लेकिन केवल सांख्यिकी तकनीक से बेहतर परिणाम मिल सकते हैं, इस बात को लोगों ने नहीं माना। CANDIDE की सफलता से केवल यह सिद्ध हुआ कि सांख्यिकी तकनीक भाषावैज्ञानिक संरचना पद्धति (Linguistic Approaches) के लिए पूरक हो सकती है। 1994 से मशीन अनुवाद अनुसन्धाताओं ने सांख्यिकी तकनीक एवं भाषावैज्ञानिक तकनीक से युक्त एक संकर प्रतिरूप (Model) का उपयोग किया।

बीसवीं शताब्दी मेंहुएमहत्वपूर्ण प्रयत्न केपरिणाम सामने आए हैं। पिछले दशक में कई शब्दकोशों का Digitization हो चुका है और वे Online उपलब्ध हैं। अनुवाद के काम में सहायता के लिए Translation Memory नामक साफ्टवेयर्स उपलब्ध होने लगे हैं। मशीन अनुवाद के क्षेत्र में उपलब्ध विविध व्यावसायिक साफ्टवेयर्स की एक सूची International Association of MT ने बनाई है।इनके अलावा विविध विश्वविद्यालयों और संशोधकों के द्वारा मशीन अनुवाद से सम्बन्धित संसाधन निःशुल्क उपलब्ध हैं।

भारत ने मशीनी अनुवाद संबंधी तकनीक में काफी उन्नति की है।1980 में “यूनिवर्सल डिजिटल कम्युनिकेशन रिसर्च इंस्टीट्यूट के निदेशक अबासामा ने ‘अंकीय कोश’ की विस्तृत योजना बनाई ।इस अनुसंधान से एक प्राकृतिक भाषा से दूसरी प्राकृतिक भाषा में सम्पर्क कोश के माध्यम से अनुवाद प्रणाली विकसित हुई ।”12भारतीय भाषा विज्ञान संस्थान, बंगलोर के प्रो० पी सी गणेश सुंदरम के निर्देशन में हुए कार्य ने अंग्रेज़ी, हिन्दी, कन्नड़, तमिल और इसी भाषा के सरल वाक्यों के अनुवाद के लिए विशेष अनुवाद प्रणालियों का विकास किया।नौवें दशक में हिन्दी और भारतीय भाषाओं के परिप्रेक्ष्य में भारत में कईअनुसंधान समूहमशीनी अनुवाद परकाम कररहेथे।“NCST (National Center for Software Technology) के एक समूह ने अंग्रेजी समाचारों का हिन्दी अनुवाद करने के लिए मात्रा (Machine Translation) नामक यंत्र बनाया। मात्रा-2 अंग्रेजी से भारतीय भाषाओं (वर्तमान में हिन्दी) में अनुवाद के लिए अनुवादकों की सहायता के लिए बनाया गया एक अनुवादक यंत्र है।”13

नौवें दशक के उत्तरार्ध में C- DAC ने अंग्रेजी- हिन्दी मशीन अनुवाद यंत्र पर काम शुरू किया। C-DACनेTAG“(Tree Adjoining Grammar) से राजभाषा विभाग, गृह मंत्रालय, भारत सरकार के लिए राजभाषा और कार्यालयी हिन्दी विषय को ले कर ‘मंत्रा’ (MAchiNe assisted TRAnslation) मशीनी अनुवाद का विकास किया है। इस तकनीक के आधार पर ‘मंत्रा राज्यसभा’ का भी विकास किया जा रहा है, जिसके अंतर्गत सीमित क्षेत्रों में ‘सर्वर’ के ज़रिए राज्यसभा की कार्यवाहियों का ‘आन-लाइन’ हिन्दी अनुवाद होगा।”14मंत्र टेक्नोलॉजी पर आधारित यह उपकरण सी-डैक, पुणे के एप्लाइड आर्टिफिशियल इंटेलीजेंस ग्रुप द्वारा विकसित किया गया है। सी-डैक (पूर्व NCST) मुंबई में पत्रकारिता विषय-क्षेत्र पर आधारित ‘मात्रा’ (Machine TRAnslation) मशीन अनुवाद का विकास हुआ हैं। यह प्रणाली मुख्यतः वाक्यों के अर्थपरक विश्लेषण पर आधारित है।C-DAC द्वारा बनाया हुआ मंत्र-राजभाषा एक यंत्र साधित अनुवाद उपकरण है, जो राजभाषा के प्रशासनिक, वित्तीय, कृषि, लघु उद्योग, सूचना प्रौद्योगिकी, स्वास्थ्य रक्षा, शिक्षा एवं बैंकिंग क्षेत्रों के दस्तावेजों का अंग्रेजी से हिन्दी में अनुवाद करता है। भारत सरकार के गृह मंत्रालय के राजभाषा विभाग द्वारा प्रायोजित मंत्र-राजभाषा स्टैंडएलोन, इंट्रानेट और इंटरनेट संस्करणों को विकसित किया गया है। मंत्र भारत सरकार के सभी मंत्रालयों तथा विभागों में हिन्दी अनुवाद में लगाया गया है।

इसी समय आईआईटी कानपुर के प्रो. आर.एम. के. सिन्हा के निर्देशन मेंएक समूह ने अंग्रेजी से भारतीय भाषाओं के लिए ‘आंग्ल-भारती’ एवं भारतीय भाषाओं के मध्य ‘अनु भारती’ इन दो यंत्रों का विकास किया। इसमें नियम आधारित प्रणाली और उदाहरण आधारित प्रणाली दोनों का संयुक्त रूप है। यह अंग्रेजी से हिन्दी में अनुवाद करता है। इसकी विषय सामग्री लोक स्वास्थ्य सेवा, कार्यालयी पत्राचार और तकनीकी संदर्शिका है।जन स्वास्थ्य अभियानों में प्रयुक्तअंग्रेजीभाषामें दस्तावेजों के हिन्दी अनुवाद के लिए भारतीय प्रौद्योगिकी संस्थान, (IIT) कानपुर में विकसित ‘आंग्लभारती’ प्रणाली काप्रयोग किया गया।‘अनुभारती’ की पद्धति का विकास सन् 1995 में हुआ। यह उदाहरण आधारित प्रणाली पर निर्भर है। इस पर अभी कार्य चल रहा है।

भारतीय प्रौद्योगिकी संस्थान, (IIT) मुम्बई नेमशीनी अनुवाद में सेतु-भाषा (Interlingua) का उपयोग किया ।“Universal Networking Language (UNL) का मध्यस्थ भाषा के रूप में प्रयोग किया गया। अंग्रेजी/हिन्दी एवं मराठी से UNL एवं UNL से हिन्दी/मराठी यंत्रआज उपलब्ध हैं। वर्तमान में 5000 नियम व्यापक रूप से भाषाविषय को संचालित कर रहे हैं। अंग्रेजी-हिन्दी मशीन अनुवाद यंत्र Concept Based शब्दकोशका उपयोग कर रहा है जिसमें लगभग 80,000 शब्द हैं।”15

हैदराबाद विश्वविद्यालय के Computer Science Department ने Universal Clause Structure Grammar (UCSG) पर आधारित मशीन अनुवाद यंत्र विकसित किया। इस यंत्र का प्रयोग कर्नाटक बजट दस्तावेज का अंग्रेजी से कन्नड़ में अनुवादित करने के काम में किया गया था।Anna University की एक शाखा के. बी. चन्द्रशेखर अनुसन्धान, तमिल- हिन्दी एवं अंग्रेजी-तमिल मशीन अनुवाद पर कार्य कर रही है। इसमें तमिल-हिन्दी मशीन साधित अनुवाद प्रणाली का विकास हुआ है, जो अनुसारक पद्धति पर आधारित है।IISC के सहयोग से IITबंगलूरू ने भी उदाहरण पर आधारित मशीन अनुवाद पर कार्य शुरू किया।

IBM India Research Lab ने अंग्रेजी एवं भारतीय भाषाओं के बीच सांख्यिकीय विधि से मशीनी अनुवाद पर कार्य किया। एक स्वायत्तशासी संस्थान Super Infosoft Pvt. Ltd. ने अनुवाक नाम का एक मशीन अनुवाद बनाया, जो सामान्य उद्देश्य से अंग्रेजी से हिन्दी में अनुवाद का कार्य करता था।इसमें प्रशासन, बैंक, कृषि आदि विभिन्न क्षेत्रों की अंग्रेजी-हिन्दी शब्दावली और पदबंधीय कोश सन्निहित हैं। इसी कारण इसमें सरकारी कार्यालयों, उपक्रमों, प्रतिष्ठानों, बैंकों आदि के अंग्रेजी वाक्यविन्यास का हिन्दी में अनुवाद करने की क्षमता है। हाल ही में Google ने भी अंग्रेजी एवं हिन्दी के लिए एक मशीन अनुवाद उपलब्ध करवाया है। यह यंत्र सांख्यिकीय तत्त्वों के आधार पर कार्य करता है, यंत्र के पास जितना अधिक अंग्रेजी वाक्य और उसका हिन्दी अनुवाद हो उतना उसका आउटपुट भी अच्छा आता है।

अनुसारक अथवा Language Accessor एक अन्य संरचना पद्धति है, जिसका मुख्य उद्देश्य स्त्रोत ग्रन्थ तक पहुँचना है, इसलिए यह ‘उच्च गुणवत्ता’ को सीमित कर शुद्धता को प्रमुखता देता है।

“भारतीय प्रौद्योगिकी संस्थान, कानपुर (IIT) में भारतीय भाषाओं के परस्पर मशीनी अनुवाद के संदर्भ में ‘अक्षर भारती’ वर्ग ने काम प्रारंभ किया। इस वर्ग ने अंतरभाषा के आधार पर भारतीय भाषाओं में परस्पर मशीनी अनुवाद की संकल्पना प्रस्तुत की”16औरकन्नड़ग्रन्थोंकोहिन्दीमाध्यमसेसमझनेकेलिए 'अनुसारक' नामकप्रणालीको प्रस्तुतकिया।“पाणिनी के कारक व्याकरण के आधार पर ‘पाणिनीय पार्सर’ का विकास हुआ। सन् 1995 में इस वर्ग ने हैदराबाद विश्वविद्यालय के सहयोग से तेलुगु-हिन्दी, कन्नड़-हिन्दी, पंजाबी-हिन्दी, बंगला-हिन्दी और मराठी-हिन्दी का विकास हुआ। ये अनुसारक लिनक्स (Linux) प्लेटफार्म पर तैयार किए ।”17

अंतरराष्ट्रीय सूचना प्रौद्योगिकी संस्थान (IIIT) हैदराबाद और हैदराबाद विश्वविद्यालय ने अनुसारक पद्धति से तेलुगु से हिन्दी में अनुवाद करने की मशीनी अनुवाद प्रणाली का विकास किया है, जिसमें पाणिनि व्याकरण के सिद्धांतों को आधार बनाया गया है। आई.आई.आई.टी. हैदराबाद, कार्नेगी मेलन विश्वविद्यालय और भारतीय विज्ञान संस्थान, बैंगलूर के संयुक्त तत्वावधान में अंग्रेज़ी के साथ हिन्दी, मराठी और तेलुगु तीन भाषाओं का मशीनी अनुवाद ‘शक्ति’ और ‘शिवा’ का विकास उदाहरण आधारित प्रणाली से हो रहा है।हैदराबाद विश्वविद्यालय के कंप्यूटर और सूचनाविज्ञान विभाग ने अंग्रेजी-कन्नड़ मशीनी अनुवाद प्रणाली का विकास किया है, जिसमें सार्वभौमिक वाक्यांश व्याकरण (Universal Phrase Grammar) का प्रयोग हुआ है।

‘आंग्लभारती’ प्रौद्योगिकी के अंतर्गत से अन्य भारतीय भाषाओं के सॉफ्टवेयरों पर C-DAC के पुणे, नोएडा, कोलकाता, तिरुवनंतपुरम के अतिरिक्त भारतीय प्रौद्योगिकी संस्थान के मुंबई और गुवाहाटी परिसरों आदि में कार्य चल रहा है। इनमें हिन्दी-पंजाबी, पंजाबी-हिन्दी, मराठी-हिन्दी, तेलुगु-हिन्दी, कन्नड़-हिन्दी, बंगला-हिन्दी, अंग्रेजी-पंजाबी, अंग्रेजी-उर्दू, अंग्रेजी-बंगला, अंग्रेजी-मलयालम आदि भारतीय भाषाएँ प्रमुख है। एक अन्य साफ्टवेयर ‘यूनिवर्सिल नेटवर्किंग लेंग्वेज’ (UNL) के माध्यम से हिन्दी को संयुक्त राष्ट्रसंघ की भाषाओं से जोड़ने के लिए आई.आई.टी. मुंबई और अन्ना विश्वविद्यालय, चेन्नई दोनों में काम चल रहा है। इसमें हिन्दी से UNL में रूपांतरण के लिए संपरिवर्तक(Enconvertor) और UNL से हिन्दी में रूपांतरण के लिए विपरिवर्तक (Deconvertor) तैयार कियाजा रहा है।

इसी के साथ-साथ मौखिक मशीनी अनुवाद (Speech to speech machine translation) का विकास हो रहा है। जापान में डॉ. सातोशी नाकामुरा के नेतृत्व में बहुभाषी मौखिक मशीनी अनुवाद का विकास हो रहा है। इसमें जापानी के साथ-साथ अंग्रेजी, हिन्दी, चीनी, थाई, कोरियाई, इंडोनेशियाई और ताईवानी सात भाषाएँरहेंगी। इसकी विषय-सामग्री पर्यटन कार्यक्षेत्र से संबंधित है।

भारतीय भाषाओं के लिए मशीन अनुवाद यंत्र बनाने में सबसे बड़ी समस्या भारतीय भाषाकोश संसाधनों की कमी है। 21वीं सदी की शुरुआत में भारत में मशीन अनुवाद के कार्य में बड़े बदलाव देखने कोमिलरहेहैं। कई समूहों ने मशीनी अनुवाद के लिए विभिन्न कोश संसाधनों के विकास की प्रक्रिया प्रारम्भ कीहै। सांख्यिकीय पद्धति से निर्मित मशीन अनुवाद की सफलता से वैज्ञानिकों को एवं प्रौद्योगिकविदों में भारतीय भाषा में ऐसे यंत्रों को लेकर उत्साह है।भारत में NLP के क्षेत्र में काम कर रहे समूहों में एक नई क्रान्ति देखने को मिलरहीहै। विविध भारतीय भाषाओं मेंकई स्तर पर साम्य है, इस कारण भाषा संसाधन उपकरणों को प्रायः एक बार विकसित किया जा सकता है और अन्य भारतीय भाषाओं के लिए प्रयुक्त किया जा सकता है। “विविध अनुसन्धान समूहों के द्वारा चल रहे प्रयासों के दोहराव को रोकने के लिए एवं मानकीकरण लाने के हेतु से 2006 में अनुसन्धान समूह की एक अवधारणा को सामने रखा गया। इसके अन्तर्गत विभिन्न संशोधक साथ में काम करते हैं और संशोधित परिणाम एवं संसाधनों को आपस में उपलब्ध करा देते हैं। मशीन अनुवाद के क्षेत्र में ऐसे पाँच समूहों का गठन किया गया। एक समूह जो कि आधुनिक भारतीय भाषाओं के मध्य मशीन अनुवाद यंत्र पर, दूसरा संस्कृत से हिन्दी मशीन अनुवाद यंत्र पर, दो समूह अंग्रेजी से हिन्दी मशीन अनुवाद पर और एक Cross Lingual Information Access यंत्र पर कार्य कर रहा है।”18 वार्तालाप को सीधे अनुवाद करने की दृष्टि से Speech Technology में कुछ संशोधक कार्यरत हैं और हाथ से लिखी लिखावट को समझने के लिए Optical Character Recognition पर एक समूह कार्य कर रहा है।

निष्कर्ष : वर्ल्ड वाइड वेब के माध्यम से सामग्री के प्रवाह को देखते हुए अनुवाद के लिए माँग बढ़ रही है और मशीन अनुवाद ही इस माँग के लिए सम्भावित उत्तर है।शुरुआत के वर्षों में मशीन अनुवाद की कठिनाइयों को बड़े पैमाने पर अनगिना किया था। जिस प्रकार 18वीं सदी के वैज्ञानिक जो कि यह मानते थे कि एक प्रकार की ऊर्जा को दूसरे प्रकार की ऊर्जा में परिवर्तित करने पर ऊर्जा की क्षति नहीं होगी और इस कारण ऐसे यंत्र बनाए जा सकते है जिन्हें एक बार ऊर्जा देने पर वे सतत चलते रहेंगे। जबकि बाद में यह सिद्ध हुआ कि ऊर्जा कोपरिवर्तित करने पर उसकी क्षति तो होगी ही। उसी प्रकार NLP अनुसन्धाता जो कि यह जानते हैं कि स्रोत भाषा का अनुवाद यथावत् लक्ष्य भाषा में नहीं हो सकता फिर भी वे उत्साहपूर्वक मशीन अनुवाद यंत्र बनाने में यत्नपूर्वक लगे हुए हैं। उनके उत्साह में कमी न होने का कारण, सांख्यिकीय प्रणाली का प्रादुर्भाव, संगणकीय भाषाविज्ञान में प्रगति, अत्याधुनिक कम्प्यूटर हार्डवेयर इत्यादि की उपलब्धि है। वर्तमान में NLP, संगणकीय भाषाविज्ञान (Computational Lingusistics) एवं Cognitive Science के हजारों अनुसन्धाता सिद्धान्तों एवं यंत्रों के माध्यम से भाषा को विश्लेषित करने में लगे हुए हैं।इस प्रकार मशीनी अनुवाद के लिए भाषावैज्ञानिकों ने जो सिद्धांत मनुष्य को केंद्र में रखकर बनाए हैं, उन सिद्धांतों को मशीन के द्वारा प्रयोग के लायक बनाने के लिए प्रयास जारी है । भारत से पूर्व यूरोप, अमेरिका और जापान में गत वर्षों से कार्य चल रहा है।वास्तव में मशीनी अनुवाद द्वारा तीव्र गति से अनुवाद प्राप्त किया जा सकताहै। इसमें मानव अनुवादक की आवश्यकताभी पड़ेगी।भारत जैसे बहुभाषी देश में इसकी बहुत संभावनाएँहैं।

संदर्भ :

श्रीवास्तव, रवीन्द्रनाथ, गोस्वामी, कृष्ण कुमार, अनुवाद सिद्धांतऔर समस्याएँ, आलेख प्रकाशन, दिल्ली, प्रथम संस्करण 1985, पृष्ठ 129
गोस्वामी, कृष्ण कुमार, अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ संख्या 155
ए.अरविंदाक्षन, अनुवाद सृजन,राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 11
गोस्वामी, कृष्ण कुमार, अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ संख्या 162
जैन, वृषभ प्रसाद, अनुवाद और मशीनी अनुवाद, सारांश प्रकाशन, दिल्ली, संस्करण 1995, पृष्ठसंख्या 64
ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 11
गोस्वामी, कृष्ण कुमार, अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ 163
वही, पृष्ठसंख्या 157
वही, पृष्ठ संख्या 164
ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 12
वही, पृष्ठ संख्या 12
भाटिया, कैलाश चंद्र,अनुवाद कला सिद्धांत और प्रयोग, तक्षशिला प्रकाशन, नई दिल्ली, संस्करण 2017, पृष्ठ संख्या 38
ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 15
गोस्वामी, कृष्ण कुमार,अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ संख्या 166
ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 16
गोस्वामी, कृष्ण कुमार,अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ संख्या 165
वहीपृष्ठ संख्या 166
ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 18
Bharati A., Chaitanya V., Sangal R.: Natural Language Processing: A Paninian Perspective. Prentice Hall of India, New Delhi, 1995.

“The history of MT can be traced starting from the early 50s when it was realized that computers could be used for translation. In the US, a large number of research groups sprang up to work on the task (usually RussianTo English), with funding from defence and intelligence establishments. In the USSR, there was a similar effort to translate from English and French to Russian.
As mentioned earlier, most of this work based itself on bilingual dictio- nary lookup. The developers quickly started realizing that far more was needed. But unfortunately, in their enthusiasm and optimism during the early days, they had proclaimed that MT systems were around the corner, and that the MT systems would be capable of producing high-quality trans- lations for general texts without any human intervention. Thus in the US, when a committee called ALPAC was set up to evaluate the MT research, it easily came to the conclusion that research had failed to live up to its promises. It said in its report in 1966 that basic research was needed and MT was not feasible in the foreseeable future.
The ALPAC report rang the death knell of MT efforts In the US at that time. All funding ceased, the research groups disintegrated, and the field went in disrepute. The fate of MT in Europe and the USSR did not change so dramatically. It was generally recognized, however, that it was a field whose time had not yet come. Only a few research groups continued to remain active.
The field revived In the late 70s after the successful completion of the TAUM-METEO system in Canada in 1977. It translates the Canadian weather forecasts from English to French. Around the same time other sys- tems like Titus (English to French for textile technology), CULT (Chinese to English for Mathematics and Physics journals), etc. were also developed.
In the 80s, the Japanese successfully completed a national project (Mu) on MT between English and Japanese. The European Community has also undertaken an ambitious project called Eurotra covering all the languages of the Community. Work has also been undertaken by groups in France, Germany, Switzerland, the US and India.” Page No. 103- 104

शिवम् तिवारी

शोधार्थी, हिन्दी विभाग, काशी हिन्दू विश्वविद्यालय, वाराणसी

shivamravitiwari@gmail.com, 6388287010

संस्कृतियाँ जोड़ते शब्द (अनुवाद विशेषांक)

अतिथि सम्पादक : गंगा सहाय मीणा, बृजेश कुमार यादव एवं विकास शुक्ल

चित्तौड़गढ़ (राजस्थान) से प्रकाशित UGC Approved Journal

अपनी माटी (ISSN 2322-0724 Apni Maati) अंक-54, सितम्बर, 2024

Facebook SDK

शोध आलेख : मशीनी अनुवाद का ऐतिहासिक अध्ययन और संभावनाएँ / शिवम् तिवारी

1 टिप्पणियाँ

एक टिप्पणी भेजें

संपर्क फ़ॉर्म

Facebook SDK

शोध आलेख : मशीनी अनुवाद का ऐतिहासिक अध्ययन और संभावनाएँ / शिवम् तिवारी

Links to this post

1 टिप्पणियाँ

एक टिप्पणी भेजें

संपर्क फ़ॉर्म