载《中国翻译》1995年第2期,第47-54页
欧美的机器翻译
南京大学 柯平
自从1954年美国IBM公司与乔治城大学联手进行世界上第一次俄英机器翻译试验以来,欧美的机器翻译(Machine Translation,简称MT)研究已走过了80年的路程。1966年,美国国家科学院语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,缩写为ALPAC)发表黑皮书《语言和机器:翻译和语言学中的计算机》,即闻名的ALPAC 报告,做出发展机器翻译技术“得不偿失”的结论。该报告使美国的机器翻译研究一度严重受挫,不过世界范围内的机器翻译研究仍在进行。在过去的20年里,人们逐渐认识到:ALPAC报告的结论是片面的、不公平的。理论语言学、计算语言学和人工智能研究的新成就已使机器翻译研究中的许多理论问题得到了解决或部分解决;各种实用型机译系统的开发成功更使正在快速进入信息时代的社会看到了机器翻译研究的实用价值和广阔前景。机器翻译研制工作已从低谷中走出,进入实用性开发阶段。
近20年来欧美机器翻译事业迅猛发展,其技术方面的重要原因之一,就是计算机和现代通信技术的飞速发展与推广使用。从40年代的第一代电子管计算机发展到今天第五代超大规模集成电路计算机,只用了短短的40几年时间。计算机就象纸和笔一样,已成为不可缺少的办公用具,并在迅速成为普通家庭里的常备电器之一。(据最近的统计,全美国有1/3的家庭里备有个人计算机。)对于使用计算机较多的教育部门,欧美厂商一般都给个人购机者5-10%的教育折扣,以鼓励购买。笔者在英国剑桥大学进修时所在系里的教师,几乎人人都有个人计算机,博士生中个人有机者也大有人在;大学计算中心每天开放24小时,中心的网络服务器除偶尔进行维修外,永远在工作。随着计算机应用的普及以及用电话线、有线电视电缆和光纤电缆联结起来的计算机网络的日益强大,愈来愈多的文字与数据材料开始以电子形式存在。有人甚至预言:90年代里,电子文本与文字文本原先1∶9的比例会倒过来成为9∶1。这些以ASCII码(美国信息交换标准代码)形式存在、可在商业性或学术性网络上方便地进行传输的电子文本为情报检索、人工智能与机器翻译的研究和应用提供了很大的方便。现代化的信息处理与通信手段也为翻译机构和个人译者借助于大型机译系统或在微机上使用翻译软件包进行机器翻译创造了必不可少的条件。
不过应该指出的是:70年代以来机器翻译研究的复苏与进展是建立在理智的基础之上的。同机器翻译诞生伊始时的情况不同,如今的研究者和使用者们在看到机译速度快、吞吐量大的长处时,也清醒地认识到至少在现阶段它所具有的局限性,即:需要不同程度的人工辅助以及质量次于人工翻译。人们已不再理想化地追求什么都能译、什么都译得一样好的机译系统,而是综合译文的准确性、可理解性或可接收性、翻译速度、翻译成本等多项因素来考虑某一专业领域内机器翻译的可取性。
从机器翻译的角度来看,日常翻译的材料主要可分为以下5类:
1. 文学作品;
2. 法律文件;
3. 非文学性出版物;
4. 情报资料;
5. 文摘。
就文学作品而言,机器翻译成功的希望不大。即使经过高明的译后编辑加工,也难以保证机器译文能正确地复现原文的节奏感与精细的风格特色。用机器翻译法律文件的前景也还不是很乐观,因为法律文件对细节的准确性要求甚严,措辞与含义上任何含糊不清或模棱两可的地方都可能带来严重的后果。不过,下文将要提到的SYSTRAN系统通过译后加工,可以对付一些欧洲法律术语的翻译。此外,对于专利事务代理人这类的用户而言,再粗糙的机器译文也还是有用处的。所以相对于文学作品而言,法律文件实现机器翻译的可能性要大一些。非文学性出版物的机器翻译已经在实地进行,如翻译各种技术说明书、手册、天气预报等等,而且质量不错,译文都不算粗糙。至于情报资料方面的机器翻译,美国、加拿大、西欧和前苏联已经实际进行了多年。例如,美国空军每年就要用机器翻译1,700万字的情报资料。在翻译这类材料时,译后加工未必是必不可少的。比起专业人员来,翻译人员似乎有点过分关心译文的可读性了。其实,了解主题、有明确阅读目的的专业人员完全可以读懂翻译人员可能会觉得不知所云的东西。此外,对于许多用户来说,只需要译文中最严重的错误得到纠正即可。即使是未做过任何译后加工的译文也可供浏览信息之用,以帮助有关人选出需要译后加工或人工重译的段落,进行选择性翻译(摘译)。机器翻译界业已认识到:最完美的翻译未必总是用户所需要的翻译。情报资料性质的机器翻译已经不再受到轻视,只要其成本效益合适即可。据测算,如果一个机构每年需要某一范围较宽的专业领域(如化学)内某种外文的情报资料译文200万字左右,就适宜购买一个在大型计算机上运行的高质量机译系统。在操作人员熟悉机器以后,这样的系统可以提高翻译效率2-5倍。
欧美现有的机译系统,按功能从弱到强的次第,大体可分为5大类:
1. 单一语料型。这类系统专门从事某一种题材的语言材料的翻译,效果良好,但不能翻译别的材料,即便是题材相近的材料也不行。这类系统主要用于研究工作,本文暂且略而不论。
2. 这类系统可以翻译原文经过某种简化的语言材料。简化控制可以通过对原文的自然语言进行译前编辑加工来进行,也可以通过用句法和词汇经过简化的语言来写作原文的方式来实现。采用这种工作方式的机译系统有美国施乐(Xerox)公司的SYSTRAN、加拿大联邦政府翻译局的METEO以及法国纺织研究所的TITUS(后者同时采用下面将要介绍的人机交互方式作为辅助)。
SYSTRAN 的创始人托马(Peter Toma)曾经参与世界上第一次机器翻译实验中所用的“乔治城自动翻译机”(Georgetown Automatic Translator,简称GAT)的研制与安装工作。60年代期间他先后在德国波恩大学和美国他自己的公司里进行研究,成功地研制了世界上最早投入实际应用的机译系统SYSTRAN。该系统最初用来进行俄英翻译,现已有多个可译语言对,属于全自动低质量型翻译(Full Automatic Low-Quality Translation,简称 FALQT)系统。SYSTRAN的详情将在下文讨论,这里介绍的施乐公司所用的SYSTRAN是它的一个功能较弱的变体。施乐公司使用SYSTRAN主要是为了将本公司产品的技术说明书翻译成外文。说明书的编写者使用一种句型和词汇都经过简化的所谓“面向多国用户的英语”(Multinational Customized English)来编写原文文本,再由SYSTRAN将这种简化的英文译成法文、意大利文、西班牙文和葡萄牙文。用这种方式进行的机器翻译比人工翻译速度约快5倍。
3. 人机交互型。ALPAC报告的结果之一是使许多人相信:全自动高质量的机器翻译(Full Automatic High-Quality Translation,简称FAHQT)是不可能做到的。这使得一些研究人员转而探讨人机交互式翻译的可能性,并研制出了一些实用型的系统,如美国奥帕斯网络公司(ALPnet)的TransActive、香港中文大学的CULT等。这类系统的特点是:机器和人工译员协同工作;机器遇到语法分析(parsing)或歧义处理方面的问题时,便向人工译员提出,得到解答后再继续往下译。不同的系统需要人工干预的程度各不相同,但所有的系统都要求人工译员在原文分析和词典编制方面提供帮助。
试举CULT为例。该系统全称为Chinese University Language Translator(中文大学语言翻译器),是香港中文大学于70年代研制成功并投入实地使用的一个人机交互式机译系统。中文大学在亚洲基金会和洛克菲勒兄弟基金会的资助下,利用该系统把我国出版的《数学学报》每期逐字逐句译成英文出版(一度还用它摘译过《物理学报》)。系统工作时,语法分析器(parser)以一系列工作循环(pass)的方式对句子进行分析和翻译。每个工作循环分析一个句子的一部分,该循环完成时,句子的相应部分便被译成英语。由于语法分析器功能不强,只能辨析出语法范畴(名词词组、动词词组、修饰成分等)的表层组合,所以人工译员(操作者)随时要根据需要在译文中补上冠词,选择时态和语态,以及解决句法或语义上的歧义。如果语法分析器在什么地方分析出错的话,操作者就要视具体情况在机器词典里增加阕如的词条,或者干脆自己译出整个句子。翻译时句子的分析与合成是结合在一起的,不过整个翻译过程仍可大致分为如下几个阶段,即原文准备,通过中文键盘输入原文,词汇分析(查原文词典,包括随机更新机器词典等),句法和语义分析,相关语序分析(辨认名词词组、动词词组和修饰成分之间的关系),译文等值分析(解决多义问题),译文输出(查目标语词典),以及译文修改(重排格式、插入数学符号)。
机器提问、操作员随时解答这种人机交互式的工方法是机器翻译研究中最有影响的创举之一。它和现阶段机器翻译研究的整体水平是相适应的,因此,目前正在研制的各类机译系统,无论是大型机上用的,还是个人机上用的,都会带有某种交互式的因素。
4. 批处理型。又称“词典易于更新式批处理型”。该类型的系统工作时先输入全部原文,由机器查阅词典,然后一次性产生全部译文。系统在查阅了自身所带的词典后,往往还会请人工译员输入与所译文本主题有关的词项,以屏幕提问的方式让译员输入这些词项的词法、句法和语义信息。机器词典的更新因而变得十分简便。代表性的系统有美国华纳通讯公司(Weidner Communications)的WEIDNER和美国逻各斯公司的Logos Intelligent Translation System(逻各斯智能翻译系统)。属于全自动低质量型机译系统。WEIDNER已于1988年关闭,以下我们重点介绍LOGOS系统的工作情况。
“逻各斯智能翻译系统”是逻各斯公司为翻译机构开发的一个产品,于1982年推向市场,最初只有德英和英德两个版本。该系统把机器翻译放在文字处理的环境下进行;译者根据需要改制机器词典、运行翻译程序、修改机器译文等项操作均可在计算机(或文字处理机)终端上完成。译者可用一个名为ALEX的交互式词典编辑系统在机器词典中添加具体翻译时需要用到的术语。ALEX就输入词语的语法和语义特征向译者提问,以保证它们的编码方式同词典中已有词项的编码方式保持一致。译者可以给输入的术语加上学科标记,以便能根据主题上下文给出多义词确切的译文。80年代初时,LOGOS系统的翻译速度为24小时2万字强,足以供给3个人工译员做译后编辑的材料。据使用LOGOS系统的翻译机构报道,德英系统可提高工效1倍多;60-80%的译文不需译后加工便可供初步的情报浏览之用。翻译效果最好的是那些专业性强、并已向机器词典中输入了有关术语的文本;翻译效果最不理想的是普通来往信函以及专业术语较少或跨学科性的材料。
5. 通用型。该型实际上是批处理型的高级形式。它的目标是翻译所输入的任何材料(当然,翻译质量会因所译材料的性质不同而有高下之分)。这类系统对原文分析的可靠程度较高。机器词典容量很大,包含大量的语义编码。系统需在大型计算机上运行,操作需要有专门的训练和经验。代表性系统有美国得克萨斯大学语言研究中心先后在美国政府和德国西门子公司资助下研制成功的全自动高质量型翻译系统METAL、总部设在美国首都华盛顿的泛美卫生组柱使用的ENGSPAN和SPANAM、前文已经提及的SYSTRAN,以及欧洲共同体委员会委托开发的EUROTRA。以下重点对SYSTRAN和EUROTRA作一些介绍。
与其前身GAT相比,SYSTRAN在语言学基础方面没有多少改进,但在计算技术方面则有显著的进步,这主要是指它的模块化程序设计而言。该系统主要有两类程序,即系统程序和翻译程序。系统程序是一些控制与实用程序,用汇编代码写成,与特定的语言无关。翻译程序被分成许多阶段,每个阶段都单独有自己的程序模块。用于源语言分析和目标语言合成的翻译程序在一定程度上独立于原文和译文所用的具体语言,这种模块化的设计使开发人员能够方便地引入新的分析技术,修改翻译过程的任何一部分,而不太至于破坏系统的整体效能。
同GAT一样,SYSTRAN的主要部分仍然是一个庞大的双语词典库,里面不仅收进了源语言和目标语言的等值词语,而且包含着原文分析与译文合成过程中需要用到的语法和语义信息。词典库里首先是两部分别容纳单字条目和多字条目的双语词典,从这两部词典里又派生出以下几部词典:
(1)由介词、连词、不规则动词词形、习语中的头两个词等成分组成的高频词典;
(2)把习语和复合名词作为词汇单位处理的”有限语义词典”(Limited Semantics Dictionary)
(3)处理语义相容性与配价的”条件有限语义词典”(Conditional Limited Semantics Dictionary);
(4)分成词根和词尾(英语例外)两部分的主词典。
SYSTRAN的翻译过程可分为5个阶段,即原文输入、主词典查阅、句法分析、转换(Transfer)和译文合成。
输入程序负责装入原文,并在高频词典中查找其中的每一个词。在第二个阶段 —— 主词典查阅阶段,机器对高频词典中未查到的词按字母顺序排序,在主词典的词根部分继续进行查找,查到的词回过头来再按原文的词序排列好。如果原文是用俄语或法语等形态变化丰富的语言写成的,那么在进入正式的句法分析阶段以前还要进行形态分析。
原文的句法分析由7个“工作循环”组成:
(1)通过检查相邻词的语法范畴区分同形异义词(homograph)(SYSTRAN为英语确定了83种不同的同形异义词);
(2)通过查找有限语义词典,找出复合词(如blast furnace“高炉”);
(3)通过查找段落标记、连词、关系代词等(亦即基本的短语结构分析),找出词组和短语;
(4)以自右向左扫描的方式,粗线条地分辨句法关系,如形容词与动词的一致、名词对动词的支配、名词与名词的同位排列等;
(5)找出由相连的形容词或名词构成的短语中的并列结构,利用语义标记确定可以接受的连接关系,例如在英语短语smog pollution control中,可以接受的连接关系是smog与pollution,而不是smog与control;
(6)通过首先搜寻限定动词、再搜寻限定动词前尚未被标记为“宾语”或“修饰成分”的名词的方式,找出主语和谓语;
(7)通过首先自右向左搜寻介词、再自左向右搜寻与其相关的名词短语的方式,分辨介词结构。
转换程序包括3个部分:
(1)参考有限语义词典,搜寻在某些情况下有习语译法的词语,例如英语的agree在用被动语态时译成法语的convenir,而在其他情况下则被译成 être d’accord;
(2)根据支配介词以及受介词支配的词所带的语义信息翻译介词;
(3)解决余下的歧义问题。一般来说,这要通过特殊词语词典中所载明的测验来进行。
在翻译的最后一个阶段,SYSTRAN的译文合成程序查出原文词语的目标语等值成分,对动词词形和形容词词尾做必要的修正,并重新按排词序(如把英语中形容词在前、名词在后的词序变换成法语的名词在前、形容词在后的词序),从而产生译文。
SYSTRAN最初只是设在美国加州拉霍亚的Latsec公司(首脑即前述的Toma)于60年代末70年代初为美国空军开发的一个俄英机器翻译系统。由于它所具有的开放性结构特点以及一系列的后续开发工作,现在它已成为欧美使用最广泛的一个大型机译系统,自1970年以来,陆续被美国空军国外技术部、美国国家宇航局、欧洲原子能联营、德国的原子核研究中心、加拿大通用汽车公司、美国施乐公司、欧洲共同体等机构所采用,可译语言对包括俄英、英俄、英法、法英、英德、德英、英意、英西、英葡等。据每年用它翻译10万多页情报资料的美国空军国外技术部报道,大部分用于情报浏览的译文不作译后编辑即可使用,只有20%左右的译文在交付使用前“略作加工”;译文准确率达90-95%,“用户相当满意”。
1976年,欧共体翻译局购买了英法版的SYSTRAN,并与Latsec公司达成协议,由欧共体组织自己的技术力量开发用于欧共体成员国所用语言间翻译的系统。这样便开始了SYSTRAN历史上一个实质性的后续开发阶段。欧共体委员会委托英国的“剑桥语言研究小组”(Cambridge Language Research Unit)编写了一个程序,使得欧共体的技术人员可以方便地修改SYSTRAN的程序。到1983年为止,欧共体共投入了将近450万欧洲货币单位(约合400万美元)的资金,由平均12名专业人员(语言学家和数据处理专家)组成的班子专职开发达8年之久,对SYSTRAN系统做了一系列的改进工作,其中最重要的一项便是大幅度扩展了语义标识符的使用和语义的分类。SYSTRAN原有20几个用于不同主题范围的“过程类型”标识符(如“农业”、“分析”、“航空”、“生物学”、“创造的”、“电的”等);机器词典内的具体词项加注何种标识符主要取决于主观判断。改进后的语义标识符是通用型的,可以更加客观和统一地标记词项的语义性质,如DEV(装置、工具、仪器)、CONTR(容器)、MATER(生产或操作中所用的材料或物质)等。
欧共体开发人员所做的第二项革新是在系统中加进了一个处理机器词典中所没有的词的例行程序。在一般的情形下,这样的词系统不加翻译,原样留在译文里。但是开发人员觉得,对于词尾规则的词似乎可以做点处理。他们设计的程序不但可以给出这类词可能的语义标识符(例如,以meter结尾的法语词被标记为“装置”;以 -ologie或-isme结尾的法语词被标记为“学科”),而且还提供目标语的标准译法。这样法语的radiologue就会被译成英语的radiologist。此外,该程序还可以根据英语的表达习惯把法语和意大利语文本的会议纪要(欧共体内数量极大的一类文件)中习用的现在时态自动地改成过去时态,并相应地把其中基于现在时态的时间副词,如法语的demain改成英语中基于过去时态的the day after等。
对SYSTRAN所做的第三项改进是在句法方面。例如,为了防止把The committee discussed faulty equipment and office management 这句英语句子误译成法语的Le comité à etudié l'équipement et l'administration de bureau d'éfectueux,在机器词典中给形容词 faulty加上了语义编码,使它同被标记为“装置”的名词连系在一起。
1978年,有关专家就可理解性、准确性与错误类型这三项指标将SYSTRAN英法系统的译文与人工译文进行比较,对其做了评估。经过译后编辑的译文的可理解性得分为98%,几乎等于经过修改的人工译文得分(98-99%),而原文的可理解性得分为94-99%。未经译后编辑的译文准确性得分为73%。译后编辑中所修改的词语的比例为36%,其中约有一半的词语被替换。错译主要起因于机器词典的不完善(当时系统的词典内只有 45,000个词条)。随着词典功能的增强,错译率已经下降。以下是1983年SYSTRAN所译的一段会议纪要:
[英语原文] The Working Group's attention was also drawn to the fact that about 50% of the data processing money devoted to the survey had to be used for controls and correstions of the national data tapes, causing subsequent financi al restraints in the final analyses of the data
[法语译文] L'attention du groupe de travail estéga également attirée sur le fait qu'environ 50% de argent de traitement de données consacrée à l'enquête doit être employé pour des controles et des corrections des bandes nationales de données, provoquant des contraintes financières ultérieures en analyses finales des données.
如果过去有人不相信机器翻译可行的话,那么在 SYSTRAN面前,谁也不能够再怀疑它已是一个成功的现实。
前面说过,SYSTRAN结构的主要部分是一部庞大的机器词典。SYSTRAN的成功在于此,而它的局限也在于此。由于大量的语法和语义信息被放在词典部分里,语法规则的设计对词典的依赖性就很大,整个系统存在着混淆句法程序和词汇程序的危险。随着系统的改进,词典的容量愈来愈大,结构也愈来愈复杂,针对某一个具体问题的改进便因可能影响系统另一部分的效能而变得愈益困难,最终使整个系统的改制(adaptation)达到极限(SYSTRAN俄英系统似乎就已达到了这个极限)。SYSTRAN结构上这一内在的局限使得它虽可引入新的语言对,但却难以发展成为一个真正的多语种(multilingual)翻译系统。因此,70年代中期欧共体在确定对SYSTRAN作后续开发这一短期目标的同时,又制定了研制大规模多语种通用型机译系统EUROTRA的长期计划,并于1979年开始实施。到1981年时,已有80名左右的专职研究人员投身到EUROTRA的研制工作中,他们主要来自于欧洲的大学(如丹麦的哥本哈根大学、比利时的卢万天主教大学、荷兰的乌得勒支应用语言学学院、德国的萨尔大学、法国的格雷诺布尔大学、意大利的图灵大学、米兰大学和比萨大学等),分别代表欧共体当时的8个成员国。1982年11月,EUROTRA成为共同体的专项基金项目,得到1,600万欧洲货币(约合1,200万美元)的项目基金支持。研制班子总部设在卢森堡,在欧共体科技情报文献委员会的领导下工作,项目负责人是曾在欧洲原子能联营主持过一个多语种机译系统研制工作的谢尔盖·佩施克(Serge Perschke)。
EUROTRA在技术方面的细节公开批露的还很少,这里只讨论一下它在总体结构设计方面的3个特点:
(1)多种语言对多种语言的翻译。这是长期以来欧共体孜孜以求的一个目标。早在1974年,欧共体翻译局就发起过一个名为“莱布尼茨计划”的项目,联合法国、德国、意大利、英国和加拿大的研究队伍进行国际合作,研究欧洲语言间的多语种机器翻译。在许多方面,该项目都算得上是EUROTRA的先驱。EUROTRA是一个以语言学和计算技术方面的最新成就为依托的多语种翻译系统,要求能以共同体成员国所用语言中的任何一种输入原文,而以所有其他的语种同时输出译文,以满足共同体内文件翻译的需要。整个系统的设计从一开始就是以多种语言对多种语言的翻译为宗旨的,所以它要求所有的成员国都参加研制工作。丹麦语、荷兰语、英语、法语、德语、希腊语、意大利语、西班牙语和葡萄牙语等具体语言的分析、转换与合成程序的开发是由各成员国的技术队伍同时展开的。为了实现多语种输出,向转换程序与合成程序输入的信息必须十分明确肯定,为此,分析程序就要解决单个语言中的所有歧义问题。为了减少双语词典和语法部分潜在的复杂性,转换模块也必须尽可能地缩小。
(2)可扩展性。在某种意义上,EUROTRA并不是一个实验性的项目,它并不去探索新技术本身,而是企图把现有各种机译系统中的优点集中到一起,并且做到今后也能够不断地吸收语言学、计算技术与人工智能研究方面的新成就。为了使系统的扩展尽可能的方便,必须能够灵活地向其中纳入新的语法和词典,能够简便地修改语法规则和词典中的词项,而不会牵一发动全身,产生难以预料的后果。总之,系统必须有适应新的语言学方法和计算方法的潜在能力。
(3)实用性。欧共体委员会对EUROTRA的要求之一,是它应该尽早成为一个实用的操作系统。实用性要求系统有程序运行出错后仍能往下运行(fail-safe)的机制,以确保万一分析程序没有能产生转换程序所要求的语义表达信息时,系统还是能生成一些合理的译文。为此最好在所有的分析层面上(包括形态信息、词汇特征、语法关系和语义相容性等)都保留源语言的结构特征。
EUROTRA 是欧美迄今为止最为雄心勃勃的一个机器翻译研究计划。它集中了规模前所未有的人力、物力、财力资源,利用了如此多的国家在语言学与计算技术方面的专业成就,向实现多种语言对多种语言全自动翻译这一艰巨的目标迈出了实实在在的步伐。在整个机器翻译发展史上,它将成为一个重要的里程碑。
以上介绍的5类机译系统大都是为大型计算机开发的,因为在很长一段时间里,机器翻译一直是跨国公司、政府部门、国际组织等大型用户的保留地。但是到1983年时,这种情况有了改变。在这一年里,华纳通讯公司首次开办了对社会的服务,并且设计了能在IBM个人计算机上行的WIDNER软件,从而把这个系统放到了小型翻译机构、甚至自由职业译者可望及的范围之内。在现代化电讯手段普及的今天,利用机器进行翻译并不意味着身边一定要有机译系统。只要有电话线和调制解调器,机器翻译可以在世界上任何地方的计算机上进行。SYSTRAN、LOGOS和美国斯马特公司(Smart SI)的SMART系统在全球许多地方都设有网络分站(bureau),为自己没有系统的公司或个人提供翻译服务。SYSTRAN的服务分站设在欧洲的卢森堡等地,可以直接或间接地通过用电话线或有线电视电缆将信息从计算机网络送往用户终端的视传系统(viewdata)连通使用,法国家庭中普遍使用的MINITEL就是这样的一个视传系统。除此以外,一些机器翻译的大型用户也为小型用户和自由职业译者提供分站服务。所有这些都使机器翻译成了欧美翻译工作者可望也可及的一件事情。
值得注意的是,近年来欧美市场上出现了几种为个人计算机开发的机器翻译软件,如LINGUISTIC PRODUCTS、GLOBALINK、EUROGLOT等,它们大多价格适中,以软件包的形式发售,为普通译者,乃至任何需要外文译文的人提供了实实在在的方便。以下仅对后两种软件略述一二:
GLOBALINK翻译软件
该软件有批处理和人机交互式两种工作方式。采用批处理工作方式时,先输入全文,再由机器一次性翻译完毕。原文文本可以用文字处理软件写成,可以用扫描等方式输入机器。采用人机交互式工作方式时,译者边从键盘输入原文,机器边时产生译文。翻译时以句子为基本单位,译文符合习惯用法。
软件所带的机器词典中收有大量的单词和词组,并完全可以根据用户的需要改制;果充分利用这一特性,译文的准确性据称可达到90%,因而只需要很少的译后加工;如果所要求的译文只是草稿的话,甚至可以省去译后工。该软件采用选项单式操作,户界面友好,其翻译速度可达每小时2万词,比人工翻译快得多。
GLOBALINK分专业版(GTS Professional 3.0)和普通版(GTS Power Translator 2.0)两个高低不同的版本。专业版可进行英法、英德、英西三个语言对之间的互译;通版可在上述三个语言对中任选一对进行互译。笔者1993年在英期间,以上两个版本的软件坊间都可购到,价格分别为955英镑和244英镑。
EUROGLOT翻译软件
该软件由懂计算机的语言学家们开发而成,由英国牛津麦克米兰出版有限公司(Oxford Macmillan Ltd.)发行。它可以在 DOS和WINDOWS两种操作系统下运行,可与Wordstar、WordPerfect 和Microsoft Word等主要西文文字处理软件一同使用,进行对上下文敏感(context-sensitive)的翻译,并可由用户自定义词典,以方便专业文献的翻译。
该软件有专业版和双语版两个版本。专业版(EUROGLOT PROFESSIONAL)可进行英、法、德、西、意、荷6种语言间的互译;机器词典中收有每种语言的单词6万左右,另有100万条动词变化形式和120万个同义词。售价为995英镑。双语版(EUROGLOT BILINGUAL)可从事以上6种语言中任意两种语言间的互译,其机器词典中也收有每种语言的6万左右单词,另有35万条动词变化形式和约20万个同义词。售价为249英镑。
英国机器翻译专家哈钦斯(W. J. Hutchins)预言:在不久的将来,译者很可能将在一种被称为“译者工作站”的计算机上工作。这种工作站由一个文字处理器、一个包括词典与其他参考书的电子工具书库、一个多层次的交互式机译系统(ALPS型的)和一个全自动通用型机译系统组成。译者可根据所译材料选择使用哪种系统。随着计算机硬件的普及和通信技术的现代化,这种译者工作模式在我国翻译界成为现实也并非没有可能,但是在计算机软件(包括机器翻译软件)的开发方面我们还很落后,当欧美计算机软硬件的发展比例已经达到60:40的时侯,国内的软件份额却只占5%(据《计算机世界》
参考书目:
1. Hutchins, W.J.
(1986). Machine Translation: Past, Present, Future.
2. Slocum, J. (ed.).
(1988). Machine Translation Systems.
3. Lawson, V. (ed.).
(1982). Practical Experience of Machine Translation.
4. __ (ed.).
(1985). Tools for the Trade. Translating and the Computer 5.
5. __ (1989). "Machine
Translation" in Picken, Catriona (ed.). The Translator's Handbook. 2nd ed.,
6. 冯志伟, 杨平. (1987).《自动翻译》, 上海: 知识出版社.
1993年3月完成于剑桥大学
1993年8月改于南京大学