शोध सार : प्रौद्योगिकी के सतत् विकास के साथ अनुवाद की दिशा में एक नया आयाम मशीनी अनुवाद है। देश-विदेश में कई संस्थाएँ इस नई प्रौद्योगिकी के विकास में योगदान दे रही हैं। वर्ल्ड वाइड वेब के माध्यम से सामग्री के प्रवाह को देखते हुए अनुवाद के लिए माँग बढ़ रही है और मशीन अनुवाद ही इस माँग के लिए सम्भावित उत्तर है।अमेरिका, यूरोप, जापान के वैज्ञानिकों ने मशीनी अनुवाद के क्षेत्र में शानदार काम किया है और लगातार बेहतर अनुवाद के प्रयास में लगे हुए हैं। भारत में 1980 के बाद से विभिन्न तकनीकी संस्थानों की सहायता से मशीनी अनुवाद के क्षेत्र में तीव्र गति से बहुत टूल्स तैयार किए गए हैं और यह प्रयास अनवरत रूप से जारी है। मशीनी अनुवाद कीपूरी प्रक्रिया में प्रमुख रूप से आईआईटी कानपुर, आईआईटी हैदराबाद, सी-डैक पुणे, मुंबई जैसी संस्थाओं ने अमूल्य योगदान दिया है।वर्तमान में NLP, संगणकीय भाषाविज्ञान (Computational Lingusistics) एवं Cognitive Science के अनुसन्धाता सिद्धान्तों एवं यंत्रों के माध्यम से भाषा को विश्लेषित करने में लगे हुए हैं। पूरी तरह से स्वचालित (Fully Automatic), उच्च गुणवत्ता युक्त किसी भी क्षेत्र का अनुवाद करने की क्षमता रखने वाली मशीनी अनुवाद प्रणाली अब भी एक दूर का स्वप्न है। लेकिन उनका यह प्रयास वर्तमान में बेहतरी की दिशा में चल रहा है और इसको देखते हुएयह कहा जा सकता है कि मशीनी अनुवाद का इतिहास जितना मजबूत रहा है, वर्तमान भी उसका उतना ही प्रगतिशील है।
मूल आलेख : अनुवाद की सामान्य समझ किसी भी पाठ्यसामग्री को एक भाषा से दूसरी भाषा में प्रस्तुत करने की प्रक्रिया से है और मशीन के माध्यम से अनुवाद की इस प्रक्रिया को अंजाम देना मशीनी अनुवाद है। वर्तमान समय में अनुवाद के कार्य का स्वरूप काफी तेजी से बदला है। अनुवाद की सैद्धान्तिकी विकसित हुई है जिससे अनुवाद कार्य ने अपना एक वैश्विक रूप धारण कर लिया है। प्रौद्योगिकी के सतत् विकास के साथ अनुवाद का एक नया आयाम मशीनी अनुवाद हमारे सामने है। “मशीनी अनुवाद,मैकेनिकल अनुवाद या ऑटोमेटिक अनुवाद से अभिप्राय मशीन या इलेक्ट्रॉनिक कंप्यूटरों की सहायता से किसी एक भाषा से दूसरी भाषा में किए गए अनुवाद से है।”1 मशीनी अनुवाद के माध्यम से स्रोत भाषा की पाठ्यसामग्री का अनुवाद, लक्ष्य भाषा में किया जाता है। स्रोतभाषिक पाठ का लक्ष्यभाषिक पाठ में पूरी तरह मशीनी अनुवाद कर पाना संभव नहीं है। मूल पाठ की सामग्री को कम्प्यूटर सिस्टम में इनपुट किया जाता है, कम्प्यूटर में स्रोत भाषा और लक्ष्य भाषा दोनों के शब्दकोश, मुहावरे और व्याकरणिक नियम पहले से होते हैं जो स्रोत भाषा की सामग्री का अनुवाद लक्ष्य भाषा में अपने-आप करते हैं और अनूदित पाठ, आउटपुट के रूप में प्राप्त हो जाता है।
चूँकि अनुवाद एक बौद्धिक प्रक्रिया है, जिसकी क्षमता मानव में हमेशा से रही है। इसलिए मशीन मानव का स्थान नहीं ले सकती। अनुवादक की कठिनाई दो प्रकार की होती है। एक तो ये कि मूल-पाठ के किसी अंश को समझने में ही वह असमर्थ हो। दूसरी समस्या यह हो सकती है कि जिस भाषा में उसे अनुवाद करना है उसमें मूल शब्दों के प्रतिशब्द ही उपलब्ध न हों। मानव मस्तिष्क परस्पर संदर्भों की सहायता लेते हुए शब्दों की सही व्याख्या कर लेता है। वहीं मशीन में ऐसी क्षमता नहीं है, उसमें वही अर्थ आएगा जो कम्प्यूटर द्वारा समझे जा सकने वाली एल्गोरिद्म में उसकी मेमोरी में पहले से उपलब्ध होगा। कम्प्यूटर सिस्टम मानव की तरह कथ्य को एक भाषा से दूसरी भाषा में रूपांतरित नहीं कर सकता। मशीनी अनुवाद को मानव केनिर्देश की आवश्यकता पड़ती है, इसीलिए “मशीनी अनुवाद को तकनीकी अर्थ में मानव आश्रित मशीन अनुवाद (Human
Assisted Machine Translatation) या कंप्यूटर आश्रित मानव अनुवाद (Machine Aided
Human Translation) कहा जाता है।”2 मानव आश्रित मशीन अनुवाद में मानव का हस्तक्षेप रहता है। कम्प्यूटर आश्रित मानव अनुवाद के लिए कम्प्यूटर उपकरण के रूप में प्रयुक्त होता है। इसी के साथ पूर्ण स्वचालित मशीनी अनुवाद भी है, जिसमें मानव की सहायता की आवश्यकता नहीं होती।
मशीनी अनुवाद (Machine
Translation) का इतिहास संगणक के आविष्कार से जुड़ा हुआ है। “द्वितीय विश्वयुद्ध के दौरान शत्रु की गोपनीय सूचनाओं को समझने के लिए Cryptography और Information
Theory का उपयोग संगणक के माध्यम से किया गया।”3 मशीनी अनुवाद टर्म सन् 1940 के आस-पास कंप्यूटर वैज्ञानिकों के बीच चर्चा में आता है। 1945 के अंत में संप्रेषण सिद्धांत के अंतर्गत कोडीकरण और विकोडीकरण की प्रक्रिया का लाभ उठाते हुए “अमरीकी वैज्ञानिक वारेन वीवर और डयू बूथ ने मशीनी अनुवाद के लिए सर्वप्रथम प्रयास किया था। ये कोड अक्षर और शब्दों की सापेक्ष आवृत्तियों के आधार पर तैयार किए गए थे”4 जिसमें मशीनी अनुवाद की संभावनाओं की चर्चा थी।इसके साथ ही दो भाषाओं के संपूर्ण कोशों को कंप्यूटर में किस प्रकार रखा जाए और शब्द के विविध अर्थों में से दो अपेक्षित अर्थ का चयन किस प्रकार किया जाए। इस प्रपत्र का आधार यह था कि “अनुवाद भाषिक पर्यायों का प्रतिस्थापन मात्र है अर्थात् किसी एक भाषा की इकाइयों को दूसरी भाषा के पर्यायों से प्रतिस्थापित कर दिया जाता है। इसी तकनीकी विकास की कड़ी में एक ऐसे तंत्र का विकास कप्यूटर वैज्ञानिकों ने प्रस्तुत किया जो स्रोत भाषा के शब्दों को लक्ष्य भाषा के शब्दों से प्रतिस्थापित कर सकता था। इसके सोपान थे- (1) शब्द प्रतिस्थापन और (2) पुनर्सयोजन। ”5
अमेरिका में इस दौरान अनेक अनुसन्धान समूह मशीनी अनुवाद परियोजनाओं पर (विशेषतः रूसी से अंग्रेजी) हेतु आगे आए। सोवियत संघ (USSR) में भी अंग्रेजी एवं फ्रेंच से रूसी में विभिन्न स्तर पर अनुवाद-यंत्र बनाने के कार्य में प्रगति हुई। लेकिन शुरुआत केदिनों में यह दावा किया गया था कि मशीनी अनुवाद किसी भी मानवीय हस्तक्षेप के बिना सामान्य दस्तावेजों के लिए उच्च गुणवत्ता युक्त अनुवाद का निर्माण करने में सक्षम हो जाएगा। “मशीन अनुवाद अनुसन्धान के परीक्षण हेतु अमेरिका में ALPAC नामक समिति का गठन किया गया। समिति ने इस सम्बन्ध में निर्णय दिया कि उपर्युक्त अनुसन्धान के सम्बन्ध में जो दावा किया गया था, वह असफल रहा। समिति की सन् 1966 की रिपोर्ट में कहा गया था कि इस सन्दर्भ में और अधिक मूलभूत अनुसन्धान की आवश्यकता है एवं भविष्य में मशीन अनुवाद प्रायोगिक दृष्टि से उपयोगी नहीं सिद्ध होगा।”6 इसके बाद बार हिल्लेल को अनुभव हुआ कि अनुवाद के लिए मशीन में विश्व ज्ञान का संग्रह किया जाना आवश्यक है और इसके साथ ही कंप्यूटर प्रोग्राम में व्याकरण के नियमों का समावेश किया जाए।
अर्थ को समझे बिना और कम्प्यूटर में उसे निरूपित किए बिना अनुवाद करना संभव नहीं है। इसलिए ऐसी विधियाँ, जो अर्थ निरूपण में सहायक हो साथ में उसमें निहित संदिग्धार्थकता को भी दूर कर सके। इसी विकास क्रम में मुख्यतः दो विधियों का विकास हुआ। पहली विधि “अमरीकी भाषावैज्ञानिक नोअम चॉम्स्की द्वारा प्रतिपादित ‘रूपांतरण प्रजनक व्याकरण’ (Transformational
Generative Grammar) पर आधारित है। इसमें रूपांतरण नियमों को बार-बार प्रयोग कर के ऐसे पदबंध बनाए जाते हैं, जो दिए गए पदबंध से मेल खाते हैं। दूसरी विधि पदबंध अभिरचना (Phrase
pattern) पर आधारित है, जिसमें मूल शब्द (Key word) अथवा शब्द अनुक्रम (word
sequence) को दिए गए पदबंध से अर्थ निकालने के लिए प्रयोग में लाते हैं।”7 इसकी सहायता से ‘स्टूडेंट प्रोग्राम’ में मानव भाषा में दी गई सरल बीजगणितीय समस्याओं को हल करने की व्यवस्था की गई ।1970 के प्रारंभ होने वाले इस दशक को अर्थपरक संरचनात्मक मशीनी अनुवाद काल की संज्ञा दे सकते हैं। इस अवधि में विनूगार्ड के ‘श्रड्लू’ (Shrdlo) और वुड्स के ‘ल्यूनर’ (Lunar) दो प्रोग्राम आए। ‘श्रुड्लू’ प्रोग्राम रोबोट की भूमिका निभाता है, जिसमें मानव भाषा में वार्तालाप किया जा सकता है। ‘ल्यूनर’ प्रोग्राम से ग्रहों के आंकड़ों की संहिता से मानव भाषा में जानकारी प्राप्त कर सकते हैं। इसी दौरान फिल्मोर ने कारक व्याकरण (Case Grammar)
का प्रतिपादन किया, जो अर्थ को समझने में काफी सिद्ध हुआ। इसी से मिलता-जुलता सिद्धांत एक विद्वान रोजर शैक का ‘संकल्पनात्मक निर्भरता सिद्धांत’ है, इसमें किसी पदबंध में निहित संकल्पना के बीच अर्थपरक संबंधों को आरेख द्वारा दिखाया जाता है, जिसे संकल्पना आरेख कहते हैं। नासा के वैज्ञानिक रिक ब्रिग्गस ने संस्कृत के कारक व्याकरण को स्पष्ट कोड के संदर्भ में श्रेष्ठ बताते हुए कहा कि संस्कृत भाषा कंप्यूटर संसाधन में उपयोगी मानव भाषा सिद्ध होगी।
मशीनी अनुवाद के विकास को समझने के लिए तीनचरण /पद्धतियाँहैं - प्रत्यक्ष विधि, परोक्ष विधि और अंतरभाषा विधि। प्रत्यक्ष विधि में दो भाषाओं के शब्दकोश, शब्द-रचना के कुछ नियम संचित किए जाते हैं लेकिन न तो इसमें व्याकरणिक नियम थे औरन उनकी पद व्याख्या। इस विधि के आधार पर 1964 में जॉर्ज टाउन विश्वविद्यालय में रूसी-अंग्रेज़ी अनुवाद तंत्र विकसित किया गया। 1976 में इसे SYSTRAN के रूप में परिवर्त्तित एवं परिमार्जित किया गया। इसी परिष्कृत और संवर्धित संस्करण से इंटरनेट के कुछ वेबसाइट्स में अंग्रेजी, फ्रांसीसी, जर्मन और स्पेनिश भाषाओं के ऑनलाइन अनुवाद किए जाते हैं। इस विधि के आधार पर ही हांगकांग के चीनी विश्वविद्यालय ने गणित और भौतिकी विषयों से सबधित चीनी शोध पत्रों को अंग्रेजी में अनूदितकरनेवाले‘CULT’ नामक मशीनी अनुवाद तंत्र का विकास किया। प्रत्यक्ष विधि के आधार पर हीTITUS(टैक्सटाइल टेक्नोलॉजी के लिए अंग्रेजी से फ्रेंच)प्रणाली विकसित की गई।
दूसरी पद्धति परोक्ष विधिया अंतरणविधि, जिसमें अनुवाद की प्रक्रियाव्याकरण संबंधी विश्लेषण, अंतरण और संश्लेषण के माध्यम से संपन्न होतीथी।“इस विधि के अंतर्गत जर्मनी की SUSY और फ्रांस कीGETA आदि प्रणालियाँ विकसित हुई, जिनमें अंग्रेजी, रूसी, जर्मन और फ्रांसीसी भाषाओं के परस्पर अनुवाद की व्यवस्था है।”8 ज्यादातर अनुवाद तंत्र अंतरण विधि पर आधारित हैं।
तीसरी पद्धति अंतरभाषा विधि, जिस भाषा से अनुवाद करना है उस भाषा के पाठ को पहले माध्यम भाषा से जोड़ा जाता था अर्थात् स्रोतभाषिक पाठ वाक्य को विश्लेषित करके माध्यम भाषा में प्रस्तुत किया जाता था। इसमें शब्दों और अर्थों का विश्लेषण कर कृत्रिम बुद्धि के भाषायी पक्ष को मजबूत बनाने की महसूस हुई। उपर्युक्त के आधार पर मशीनी अनुवाद का विकास होता रहा,जिसमें कृत्रिम बुद्धि की विशेष भूमिका रही है, जो स्रोत भाषा के पाठ का विश्लेषण करते हुए लक्ष्य भाषा में उसका अंतरण करती है।
मानव भाषा में मशीन में निरूपित करने के लिए कई विधियाँ हैं। इनमें प्रमुख हैं “पुनरावर्ती संक्रमण नेटवर्क (Recursive
Transition Network – RTN) और संवर्धी संक्रमण नेटवर्क (Augmented
Transition Network – ATN) विधि, जिनका प्रतिपादन बुड्स ने किया था। इन्हीं विधियों के आधार पर मशीनी अनुवाद पर विभिन्न देशों में काम हुआ है। अमेरिका में स्वचालित भाषा संसाधन प्रणाली (Automated
Language Processing System – ALPS), वाइनर कम्युनिकेशन (Weidner
Communication) (इलिनाय) और लोगोस कंप्यूटर सिस्टम (Logos
Computer System) (Mass.) आदि मशीनी अनुवाद के साफ्टवेयर तैयार कर रहे हैं। जापान में फुजित्सु लि. ने एटलस I और एटलस II (Atlas 1 और Atlas II), एन.ई.सी. कार्पोरेशन ने पिवट (PIVOT), ब्रेवाइस इंटरनेशनल इंक ने मीडियम पैक, शार्प कार्पोरेशन ने माइक्रो पैक, तोशीबा कार्पोरेशन ने ‘टॉरस’ (Tauras) आदि जापानी-अंग्रेज़ी और अंग्रेजी-जापानी मशीनी अनुवाद प्रणालियों का विकास किया गया है।”9कुछ प्रणालियों में प्रत्येक शब्द के लिए अर्थपरक चिह्नक (Semantic
marker) की व्यवस्था हैं।
मशीन अनुवाद को भाषा विज्ञान के अत्यधिक परिष्कृत सिद्धान्त की आवश्यकता थी जिससे उचित गुणवत्ता का उत्पादन किया जा सके। संगणकीय व्याकरण (Computational
Grammars) के नेतृत्व में भाषा विज्ञान के क्षेत्र में संगणकोपयोगी भाषा सम्बन्धी व्याकरण लिखने के कार्य प्रारम्भ हुए। परिणामस्वरूप Lexical
Functional Grammar (LFG), Head Driven Phrase Structure Grammar (HPSG), Tree
Adjoining Grammar (TAG) नामक भिन्न- भिन्न संगणकोपयोगी भाषा-व्याकरणों का निर्माण हुआ।
आठवें दशक तक अधिकांश मशीन अनुवाद भाषाविषयक नियमों पर आधारित थे। वे शब्दों का विश्लेषण, शब्दार्थ निर्णय आदि कार्यों के लिए भाषाविषयक नियमों का आधार लेते थे। अधिक नियमों सेयंत्र प्रभावशालीहुए लेकिन जटिलता भी बढ़ी और यंत्र का रखरखावमें कठिनाई हुई। “1980 के दशक में जापान के वैज्ञानिकों ने राष्ट्रीय स्तर के MU नामक परियोजना के अन्तर्गत अंग्रेजी और जापानी के मध्य मशीन अनुवाद को सफलतापूर्वक पूर्ण किया। यूरोपियन समुदाय ने सभी यूरोपीय भाषाओं के मशीन अनुवाद हेतु EUROTRA नामक एक उत्साही परियोजना हाथ में ली।”10 परिणाम ये हुआ कि बहुत से यूरोपीय देशों में अनेक संगणकीय भाषा वैज्ञानिक समुदायों (Computational
Linguistic Groups) की स्थापना हुई।
नौवें दशक में मशीन अनुवाद के क्षेत्र मेंगतिशीलता आई। मशीनी अनुवाद के लिए सांख्यिकीय तकनीक का उद्भव हुआ। “IBM द्वारा CANDIDE नामक एक यंत्र बनाया गया। उन दिनों Interlingua तकनीक के आधार पर बना Pangloss एवं भाषाशास्त्र व सांख्यिकीय तकनीक के आधार पर बना Lingstat नामक मशीन अनुवाद के यंत्रों का मुकाबला पूर्णतः सांख्यिकीय तत्त्वों पर आधारित CANDIDE कर पाया। ध्वनि को एक भाषा से दूसरी भाषा में अनुवादित करने के लिए जर्मनी में Verbmobile नामक यंत्र का विकास हुआ।”11 सांख्यिकी तकनीक पर आधारित यंत्र का मूल्यांकन 1994 के दौरान DARPA यंत्र के मूल्यांकन के बराबर था। लेकिन केवल सांख्यिकी तकनीक से बेहतर परिणाम मिल सकते हैं, इस बात को लोगों ने नहीं माना। CANDIDE की सफलता से केवल यह सिद्ध हुआ कि सांख्यिकी तकनीक भाषावैज्ञानिक संरचना पद्धति (Linguistic
Approaches) के लिए पूरक हो सकती है। 1994 से मशीन अनुवाद अनुसन्धाताओं ने सांख्यिकी तकनीक एवं भाषावैज्ञानिक तकनीक से युक्त एक संकर प्रतिरूप (Model) का उपयोग किया।
बीसवीं शताब्दी मेंहुएमहत्वपूर्ण प्रयत्न केपरिणाम सामने आए हैं। पिछले दशक में कई शब्दकोशों का Digitization हो चुका है और वे Online उपलब्ध हैं। अनुवाद के काम में सहायता के लिए Translation
Memory नामक साफ्टवेयर्स उपलब्ध होने लगे हैं। मशीन अनुवाद के क्षेत्र में उपलब्ध विविध व्यावसायिक साफ्टवेयर्स की एक सूची International
Association of MT ने बनाई है।इनके अलावा विविध विश्वविद्यालयों और संशोधकों के द्वारा मशीन अनुवाद से सम्बन्धित संसाधन निःशुल्क उपलब्ध हैं।
भारत ने मशीनी अनुवाद संबंधी तकनीक में काफी उन्नति की है।1980 में “यूनिवर्सल डिजिटल कम्युनिकेशन रिसर्च इंस्टीट्यूट के निदेशक अबासामा ने ‘अंकीय कोश’ की विस्तृत योजना बनाई ।इस अनुसंधान से एक प्राकृतिक भाषा से दूसरी प्राकृतिक भाषा में सम्पर्क कोश के माध्यम से अनुवाद प्रणाली विकसित हुई ।”12भारतीय भाषा विज्ञान संस्थान, बंगलोर के प्रो० पी सी गणेश सुंदरम के निर्देशन में हुए कार्य ने अंग्रेज़ी, हिन्दी, कन्नड़, तमिल और इसी भाषा के सरल वाक्यों के अनुवाद के लिए विशेष अनुवाद प्रणालियों का विकास किया।नौवें दशक में हिन्दी और भारतीय भाषाओं के परिप्रेक्ष्य में भारत में कईअनुसंधान समूहमशीनी अनुवाद परकाम कररहेथे।“NCST
(National Center for Software Technology) के एक समूह ने अंग्रेजी समाचारों का हिन्दी अनुवाद करने के लिए मात्रा (Machine
Translation) नामक यंत्र बनाया। मात्रा-2 अंग्रेजी से भारतीय भाषाओं (वर्तमान में हिन्दी) में अनुवाद के लिए अनुवादकों की सहायता के लिए बनाया गया एक अनुवादक यंत्र है।”13
नौवें दशक के उत्तरार्ध में C- DAC ने अंग्रेजी- हिन्दी मशीन अनुवाद यंत्र पर काम शुरू किया। C-DACनेTAG“(Tree Adjoining Grammar) से राजभाषा विभाग, गृह मंत्रालय, भारत सरकार के लिए राजभाषा और कार्यालयी हिन्दी विषय को ले कर ‘मंत्रा’ (MAchiNe
assisted TRAnslation) मशीनी अनुवाद का विकास किया है। इस तकनीक के आधार पर ‘मंत्रा राज्यसभा’ का भी विकास किया जा रहा है, जिसके अंतर्गत सीमित क्षेत्रों में ‘सर्वर’ के ज़रिए राज्यसभा की कार्यवाहियों का ‘आन-लाइन’ हिन्दी अनुवाद होगा।”14मंत्र टेक्नोलॉजी पर आधारित यह उपकरण सी-डैक, पुणे के एप्लाइड आर्टिफिशियल इंटेलीजेंस ग्रुप द्वारा विकसित किया गया है। सी-डैक (पूर्व NCST) मुंबई में पत्रकारिता विषय-क्षेत्र पर आधारित ‘मात्रा’ (Machine
TRAnslation) मशीन अनुवाद का विकास हुआ हैं। यह प्रणाली मुख्यतः वाक्यों के अर्थपरक विश्लेषण पर आधारित है।C-DAC द्वारा बनाया हुआ मंत्र-राजभाषा एक यंत्र साधित अनुवाद उपकरण है, जो राजभाषा के प्रशासनिक, वित्तीय, कृषि, लघु उद्योग, सूचना प्रौद्योगिकी, स्वास्थ्य रक्षा, शिक्षा एवं बैंकिंग क्षेत्रों के दस्तावेजों का अंग्रेजी से हिन्दी में अनुवाद करता है। भारत सरकार के गृह मंत्रालय के राजभाषा विभाग द्वारा प्रायोजित मंत्र-राजभाषा स्टैंडएलोन, इंट्रानेट और इंटरनेट संस्करणों को विकसित किया गया है। मंत्र भारत सरकार के सभी मंत्रालयों तथा विभागों में हिन्दी अनुवाद में लगाया गया है।
इसी समय आईआईटी कानपुर के प्रो. आर.एम. के. सिन्हा के निर्देशन मेंएक समूह ने अंग्रेजी से भारतीय भाषाओं के लिए ‘आंग्ल-भारती’ एवं भारतीय भाषाओं के मध्य ‘अनु भारती’ इन दो यंत्रों का विकास किया। इसमें नियम आधारित प्रणाली और उदाहरण आधारित प्रणाली दोनों का संयुक्त रूप है। यह अंग्रेजी से हिन्दी में अनुवाद करता है। इसकी विषय सामग्री लोक स्वास्थ्य सेवा, कार्यालयी पत्राचार और तकनीकी संदर्शिका है।जन स्वास्थ्य अभियानों में प्रयुक्तअंग्रेजीभाषामें दस्तावेजों के हिन्दी अनुवाद के लिए भारतीय प्रौद्योगिकी संस्थान, (IIT) कानपुर में विकसित ‘आंग्लभारती’ प्रणाली काप्रयोग किया गया।‘अनुभारती’ की पद्धति का विकास सन् 1995 में हुआ। यह उदाहरण आधारित प्रणाली पर निर्भर है। इस पर अभी कार्य चल रहा है।
भारतीय प्रौद्योगिकी संस्थान, (IIT) मुम्बई नेमशीनी अनुवाद में सेतु-भाषा (Interlingua) का उपयोग किया ।“Universal
Networking Language (UNL) का मध्यस्थ भाषा के रूप में प्रयोग किया गया। अंग्रेजी/हिन्दी एवं मराठी से UNL एवं UNL से हिन्दी/मराठी यंत्रआज उपलब्ध हैं। वर्तमान में 5000 नियम व्यापक रूप से भाषाविषय को संचालित कर रहे हैं। अंग्रेजी-हिन्दी मशीन अनुवाद यंत्र Concept Based
शब्दकोशका उपयोग कर रहा है जिसमें लगभग 80,000 शब्द हैं।”15
हैदराबाद विश्वविद्यालय के Computer
Science Department ने Universal Clause Structure Grammar (UCSG) पर आधारित मशीन अनुवाद यंत्र विकसित किया। इस यंत्र का प्रयोग कर्नाटक बजट दस्तावेज का अंग्रेजी से कन्नड़ में अनुवादित करने के काम में किया गया था।Anna
University की एक शाखा के. बी. चन्द्रशेखर अनुसन्धान, तमिल- हिन्दी एवं अंग्रेजी-तमिल मशीन अनुवाद पर कार्य कर रही है। इसमें तमिल-हिन्दी मशीन साधित अनुवाद प्रणाली का विकास हुआ है, जो अनुसारक पद्धति पर आधारित है।IISC के सहयोग से IITबंगलूरू ने भी उदाहरण पर आधारित मशीन अनुवाद पर कार्य शुरू किया।
IBM India
Research Lab ने अंग्रेजी एवं भारतीय भाषाओं के बीच सांख्यिकीय विधि से मशीनी अनुवाद पर कार्य किया। एक स्वायत्तशासी संस्थान Super
Infosoft Pvt. Ltd. ने अनुवाक नाम का एक मशीन अनुवाद बनाया, जो सामान्य उद्देश्य से अंग्रेजी से हिन्दी में अनुवाद का कार्य करता था।इसमें प्रशासन, बैंक, कृषि आदि विभिन्न क्षेत्रों की अंग्रेजी-हिन्दी शब्दावली और पदबंधीय कोश सन्निहित हैं। इसी कारण इसमें सरकारी कार्यालयों, उपक्रमों, प्रतिष्ठानों, बैंकों आदि के अंग्रेजी वाक्यविन्यास का हिन्दी में अनुवाद करने की क्षमता है। हाल ही में Google ने भी अंग्रेजी एवं हिन्दी के लिए एक मशीन अनुवाद उपलब्ध करवाया है। यह यंत्र सांख्यिकीय तत्त्वों के आधार पर कार्य करता है, यंत्र के पास जितना अधिक अंग्रेजी वाक्य और उसका हिन्दी अनुवाद हो उतना उसका आउटपुट भी अच्छा आता है।
अनुसारक अथवा Language
Accessor एक अन्य संरचना पद्धति है, जिसका मुख्य उद्देश्य स्त्रोत ग्रन्थ तक पहुँचना है, इसलिए यह ‘उच्च गुणवत्ता’ को सीमित कर शुद्धता को प्रमुखता देता है।
“भारतीय प्रौद्योगिकी संस्थान, कानपुर (IIT) में भारतीय भाषाओं के परस्पर मशीनी अनुवाद के संदर्भ में ‘अक्षर भारती’ वर्ग ने काम प्रारंभ किया। इस वर्ग ने अंतरभाषा के आधार पर भारतीय भाषाओं में परस्पर मशीनी अनुवाद की संकल्पना प्रस्तुत की”16औरकन्नड़ग्रन्थोंकोहिन्दीमाध्यमसेसमझनेकेलिए 'अनुसारक' नामकप्रणालीको प्रस्तुतकिया।“पाणिनी के कारक व्याकरण के आधार पर ‘पाणिनीय पार्सर’ का विकास हुआ। सन् 1995 में इस वर्ग ने हैदराबाद विश्वविद्यालय के सहयोग से तेलुगु-हिन्दी, कन्नड़-हिन्दी, पंजाबी-हिन्दी, बंगला-हिन्दी और मराठी-हिन्दी का विकास हुआ। ये अनुसारक लिनक्स (Linux) प्लेटफार्म पर तैयार किए ।”17
अंतरराष्ट्रीय सूचना प्रौद्योगिकी संस्थान (IIIT) हैदराबाद और हैदराबाद विश्वविद्यालय ने अनुसारक पद्धति से तेलुगु से हिन्दी में अनुवाद करने की मशीनी अनुवाद प्रणाली का विकास किया है, जिसमें पाणिनि व्याकरण के सिद्धांतों को आधार बनाया गया है। आई.आई.आई.टी. हैदराबाद, कार्नेगी मेलन विश्वविद्यालय और भारतीय विज्ञान संस्थान, बैंगलूर के संयुक्त तत्वावधान में अंग्रेज़ी के साथ हिन्दी, मराठी और तेलुगु तीन भाषाओं का मशीनी अनुवाद ‘शक्ति’ और ‘शिवा’ का विकास उदाहरण आधारित प्रणाली से हो रहा है।हैदराबाद विश्वविद्यालय के कंप्यूटर और सूचनाविज्ञान विभाग ने अंग्रेजी-कन्नड़ मशीनी अनुवाद प्रणाली का विकास किया है, जिसमें सार्वभौमिक वाक्यांश व्याकरण (Universal
Phrase Grammar) का प्रयोग हुआ है।
‘आंग्लभारती’ प्रौद्योगिकी के अंतर्गत से अन्य भारतीय भाषाओं के सॉफ्टवेयरों पर C-DAC के पुणे, नोएडा, कोलकाता, तिरुवनंतपुरम के अतिरिक्त भारतीय प्रौद्योगिकी संस्थान के मुंबई और गुवाहाटी परिसरों आदि में कार्य चल रहा है। इनमें हिन्दी-पंजाबी, पंजाबी-हिन्दी, मराठी-हिन्दी, तेलुगु-हिन्दी, कन्नड़-हिन्दी, बंगला-हिन्दी, अंग्रेजी-पंजाबी, अंग्रेजी-उर्दू, अंग्रेजी-बंगला, अंग्रेजी-मलयालम आदि भारतीय भाषाएँ प्रमुख है। एक अन्य साफ्टवेयर ‘यूनिवर्सिल नेटवर्किंग लेंग्वेज’ (UNL) के माध्यम से हिन्दी को संयुक्त राष्ट्रसंघ की भाषाओं से जोड़ने के लिए आई.आई.टी. मुंबई और अन्ना विश्वविद्यालय, चेन्नई दोनों में काम चल रहा है। इसमें हिन्दी से UNL में रूपांतरण के लिए संपरिवर्तक(Enconvertor) और UNL से हिन्दी में रूपांतरण के लिए विपरिवर्तक (Deconvertor) तैयार कियाजा रहा है।
इसी के साथ-साथ मौखिक मशीनी अनुवाद (Speech to
speech machine translation) का विकास हो रहा है। जापान में डॉ. सातोशी नाकामुरा के नेतृत्व में बहुभाषी मौखिक मशीनी अनुवाद का विकास हो रहा है। इसमें जापानी के साथ-साथ अंग्रेजी, हिन्दी, चीनी, थाई, कोरियाई, इंडोनेशियाई और ताईवानी सात भाषाएँरहेंगी। इसकी विषय-सामग्री पर्यटन कार्यक्षेत्र से संबंधित है।
भारतीय भाषाओं के लिए मशीन अनुवाद यंत्र बनाने में सबसे बड़ी समस्या भारतीय भाषाकोश संसाधनों की कमी है। 21वीं सदी की शुरुआत में भारत में मशीन अनुवाद के कार्य में बड़े बदलाव देखने कोमिलरहेहैं। कई समूहों ने मशीनी अनुवाद के लिए विभिन्न कोश संसाधनों के विकास की प्रक्रिया प्रारम्भ कीहै। सांख्यिकीय पद्धति से निर्मित मशीन अनुवाद की सफलता से वैज्ञानिकों को एवं प्रौद्योगिकविदों में भारतीय भाषा में ऐसे यंत्रों को लेकर उत्साह है।भारत में NLP के क्षेत्र में काम कर रहे समूहों में एक नई क्रान्ति देखने को मिलरहीहै। विविध भारतीय भाषाओं मेंकई स्तर पर साम्य है, इस कारण भाषा संसाधन उपकरणों को प्रायः एक बार विकसित किया जा सकता है और अन्य भारतीय भाषाओं के लिए प्रयुक्त किया जा सकता है। “विविध अनुसन्धान समूहों के द्वारा चल रहे प्रयासों के दोहराव को रोकने के लिए एवं मानकीकरण लाने के हेतु से 2006 में अनुसन्धान समूह की एक अवधारणा को सामने रखा गया। इसके अन्तर्गत विभिन्न संशोधक साथ में काम करते हैं और संशोधित परिणाम एवं संसाधनों को आपस में उपलब्ध करा देते हैं। मशीन अनुवाद के क्षेत्र में ऐसे पाँच समूहों का गठन किया गया। एक समूह जो कि आधुनिक भारतीय भाषाओं के मध्य मशीन अनुवाद यंत्र पर, दूसरा संस्कृत से हिन्दी मशीन अनुवाद यंत्र पर, दो समूह अंग्रेजी से हिन्दी मशीन अनुवाद पर और एक Cross Lingual Information Access यंत्र पर कार्य कर रहा है।”18 वार्तालाप को सीधे अनुवाद करने की दृष्टि से Speech Technology में कुछ संशोधक कार्यरत हैं और हाथ से लिखी लिखावट को समझने के लिए Optical Character Recognition पर एक समूह कार्य कर रहा है।
निष्कर्ष : वर्ल्ड वाइड वेब के माध्यम से सामग्री के प्रवाह को देखते हुए अनुवाद के लिए माँग बढ़ रही है और मशीन अनुवाद ही इस माँग के लिए सम्भावित उत्तर है।शुरुआत के वर्षों में मशीन अनुवाद की कठिनाइयों को बड़े पैमाने पर अनगिना किया था। जिस प्रकार 18वीं सदी के वैज्ञानिक जो कि यह मानते थे कि एक प्रकार की ऊर्जा को दूसरे प्रकार की ऊर्जा में परिवर्तित करने पर ऊर्जा की क्षति नहीं होगी और इस कारण ऐसे यंत्र बनाए जा सकते है जिन्हें एक बार ऊर्जा देने पर वे सतत चलते रहेंगे। जबकि बाद में यह सिद्ध हुआ कि ऊर्जा कोपरिवर्तित करने पर उसकी क्षति तो होगी ही। उसी प्रकार NLP अनुसन्धाता जो कि यह जानते हैं कि स्रोत भाषा का अनुवाद यथावत् लक्ष्य भाषा में नहीं हो सकता फिर भी वे उत्साहपूर्वक मशीन अनुवाद यंत्र बनाने में यत्नपूर्वक लगे हुए हैं। उनके उत्साह में कमी न होने का कारण, सांख्यिकीय प्रणाली का प्रादुर्भाव, संगणकीय भाषाविज्ञान में प्रगति, अत्याधुनिक कम्प्यूटर हार्डवेयर इत्यादि की उपलब्धि है। वर्तमान में NLP, संगणकीय भाषाविज्ञान (Computational Lingusistics) एवं Cognitive Science के हजारों अनुसन्धाता सिद्धान्तों एवं यंत्रों के माध्यम से भाषा को विश्लेषित करने में लगे हुए हैं।इस प्रकार मशीनी अनुवाद के लिए भाषावैज्ञानिकों ने जो सिद्धांत मनुष्य को केंद्र में रखकर बनाए हैं, उन सिद्धांतों को मशीन के द्वारा प्रयोग के लायक बनाने के लिए प्रयास जारी है । भारत से पूर्व यूरोप, अमेरिका और जापान में गत वर्षों से कार्य चल रहा है।वास्तव में मशीनी अनुवाद द्वारा तीव्र गति से अनुवाद प्राप्त किया जा सकताहै। इसमें मानव अनुवादक की आवश्यकताभी पड़ेगी।भारत जैसे बहुभाषी देश में इसकी बहुत संभावनाएँहैं।
संदर्भ :
- श्रीवास्तव, रवीन्द्रनाथ, गोस्वामी, कृष्ण कुमार, अनुवाद सिद्धांतऔर समस्याएँ, आलेख प्रकाशन, दिल्ली, प्रथम संस्करण 1985, पृष्ठ 129
- गोस्वामी, कृष्ण कुमार, अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ संख्या 155
- ए.अरविंदाक्षन, अनुवाद सृजन,राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 11
- गोस्वामी, कृष्ण कुमार, अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ संख्या 162
- जैन, वृषभ प्रसाद, अनुवाद और मशीनी अनुवाद, सारांश प्रकाशन, दिल्ली, संस्करण 1995, पृष्ठसंख्या 64
- ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 11
- गोस्वामी, कृष्ण कुमार, अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ 163
- वही, पृष्ठसंख्या 157
- वही, पृष्ठ संख्या 164
- ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 12
- वही, पृष्ठ संख्या 12
- भाटिया, कैलाश चंद्र,अनुवाद कला सिद्धांत और प्रयोग, तक्षशिला प्रकाशन, नई दिल्ली, संस्करण 2017, पृष्ठ संख्या 38
- ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 15
- गोस्वामी, कृष्ण कुमार,अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ संख्या 166
- ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 16
- गोस्वामी, कृष्ण कुमार,अनुवाद विज्ञान की भूमिका, राजकमल प्रकाशन, नई दिल्ली, संस्करण 2008, पृष्ठ संख्या 165
- वहीपृष्ठ संख्या 166
- ए.अरविंदाक्षन, अनुवाद सृजन, राधाकृष्ण प्रकाशन, नई दिल्ली, संस्करण 2019, पृष्ठ संख्या 18
- Bharati A., Chaitanya V., Sangal R.: Natural Language Processing: A Paninian Perspective. Prentice Hall of India, New Delhi, 1995.
- “The history of MT can be traced starting from the early 50s when it was realized that computers could be used for translation. In the US, a large number of research groups sprang up to work on the task (usually RussianTo English), with funding from defence and intelligence establishments. In the USSR, there was a similar effort to translate from English and French to Russian.
- As mentioned earlier, most of this work based itself on bilingual dictio- nary lookup. The developers quickly started realizing that far more was needed. But unfortunately, in their enthusiasm and optimism during the early days, they had proclaimed that MT systems were around the corner, and that the MT systems would be capable of producing high-quality trans- lations for general texts without any human intervention. Thus in the US, when a committee called ALPAC was set up to evaluate the MT research, it easily came to the conclusion that research had failed to live up to its promises. It said in its report in 1966 that basic research was needed and MT was not feasible in the foreseeable future.
- The ALPAC report rang the death knell of MT efforts In the US at that time. All funding ceased, the research groups disintegrated, and the field went in disrepute. The fate of MT in Europe and the USSR did not change so dramatically. It was generally recognized, however, that it was a field whose time had not yet come. Only a few research groups continued to remain active.
- The field revived In the late 70s after the successful completion of the TAUM-METEO system in Canada in 1977. It translates the Canadian weather forecasts from English to French. Around the same time other sys- tems like Titus (English to French for textile technology), CULT (Chinese to English for Mathematics and Physics journals), etc. were also developed.
- In the 80s, the Japanese successfully completed a national project (Mu) on MT between English and Japanese. The European Community has also undertaken an ambitious project called Eurotra covering all the languages of the Community. Work has also been undertaken by groups in France, Germany, Switzerland, the US and India.” Page No. 103- 104
एक टिप्पणी भेजें