guidelines

第十四届全国机器翻译研讨会(CWMT 2018)机器翻译评测大纲

（CWMT 2018 MT Evaluation）

一. 引言

　　第十四届全国机器翻译研讨会（CWMT 2018）将于2018年10月25日至26日在中国福建举行。根据惯例，本次研讨会将继续组织统一的机器翻译评测。

　　CWMT 2018机器翻译评测包括：

新增英汉、汉英翻译质量评估任务评测，由CWMT与北京语智云帆科技有限公司联合组织。
原日汉专利领域翻译评测项目升级为英、日、汉多语言翻译任务，由CWMT与北京语智云帆科技有限公司联合组织。
其余翻译任务与CWMT2017保持一致，包括由CWMT与WMT2018合作组织的汉英、英汉新闻领域的翻译评测；以及维汉、蒙汉、藏汉的翻译评测等。

　　与上次评测相同，本次评测不再设置统一发放数据的时间，各参评单位报名之后即可获取数据并进行系统训练，请有意向参与的单位尽快报名；本次评测的评测论文将与CWMT学术论文一同接受匿名审稿，并择优推荐至《厦门大学学报》或《中文信息学报》发表。

　　希望本次评测能够促进国内外科研单位、产业界相关单位之间的学术交流和联系，共同推动机器翻译研究和技术的发展。

　　本次评测的组织信息如下（三个以上的并列项以汉语拼音为序）：

　　评测主办机构：
　　　　中国中文信息学会

　　评测组织单位：
　　　　南京大学

　　评测资源提供单位：
　　　　北京大学
　　　　北京语智云帆科技有限公司
　　　　点通数据有限公司
　　　　东北大学
　　　　哈尔滨工业大学
　　　　南京大学
　　　　内蒙古大学
　　　　青海师范大学
　　　　西北民族大学
　　　　西藏大学
　　　　厦门大学
　　　　新疆大学
　　　　中国科学院合肥智能机械研究所
　　　　中国科学院计算技术研究所
　　　　中国科学院新疆理化技术研究所
　　　　中国科学院自动化研究所

　　评测委员会主席：
　　　　黄书剑（南京大学）

　　评测委员会委员：
　　　　艾山·吾买尔（新疆大学）
　　　　陈毅东（厦门大学）
　　　　魏勇鹏（北京语智云帆科技有限公司）
　　　　肖桐（东北大学）
　　　　杨雅婷（中国科学院新疆理化技术研究所）
　　　　伊力亚尔·加尔木哈买提（南京大学）
　　　　张家俊（中国科学院自动化研究所）
　　　　赵红梅（中国科学院计算技术研究所）

　　有关研讨会的更多信息请参见以下网址：待更新　　　　
　　有关评测的更多信息请参见以下网址： http://nlp.nju.edu.cn/cwmt2018

二. 评测任务

　　本次评测由翻译任务、多语言翻译任务和翻译质量评估任务三个任务组成，我们将为各个评测项目的参评单位提供相应的训练语料和开发语料，每个任务详细评测方法请参见大纲后续部分说明。

　　本次翻译任务评测包含5个评测项目。具体项目设置如表1所示。

表1 CWMT 2018 翻译任务评测项目表

序号	项目代号	评测项目名称	语种	领域
1	CE	汉英新闻领域机器翻译	汉语->英语	新闻领域
2	EC	英汉新闻领域机器翻译	英语->汉语	新闻领域
3	MC	蒙汉日常用语机器翻译	蒙语->汉语	日常用语
4	TC	藏汉政府文献机器翻译	藏语->汉语	政府文献
5	UC	维汉新闻领域机器翻译	维语->汉语	新闻领域

　　本次多语言翻译任务评测包含1个评测项目。具体项目设置如表2所示。

表2 CWMT 2018 多语言翻译任务评测项目表

序号	项目代号	评测项目名称	语种	领域
1	JE	日英专利领域多语言机器翻译	日语->英语	专利领域

　　本次翻译质量评估任务评测包含英汉翻译和汉英翻译2个项目。训练过程允许使用翻译任务中汉英、英汉方向的双语平行数据作为辅助数据。具体项目设置如表3所示。

表3 CWMT 2018 翻译质量评估任务评测项目表

序号	项目代号	评测项目名称	语种	领域
1	CE-QE	汉英多领域机器翻译质量评估	汉语->英语	时政、经济、文化、科技等领域
2	EC-QE	英汉多领域机器翻译质量评估	英语->汉语	时政、经济、文化、科技等领域

三. 翻译任务评测方法

1. 任务介绍

　　与往年一致，翻译任务主要评测参评单位在双语翻译任务上的性能。评测翻译语言对包括英汉、汉英、蒙汉、藏汉、维汉等。

2. 评测指标

自动评测：自动评测是指利用自动评价工具对参评单位提交的最终翻译结果文件进行评价。

本次评测中的自动评测采用多种自动评价标准，包括：BLEU-SBP、BLEU-NIST、TER、METEOR、NIST、GTM、mWER、mPER以及ICT。

评测组织方进行自动评价时将采用如下设置：
- 所有自动评测将采用大小写敏感（case-sensitive）的方式，评测结果中也包含部分大小写不敏感的评价作为参考；
- BLEU-SBP作为主要的自动评价指标；
- 英汉、藏汉、维汉和蒙汉四个方向将采用基于字符（character-based）的评价方式；
- 英汉、藏汉、维汉和蒙汉四个方向中，评测组织方将对GB2312编码的A3区字符进行全角到半角的转换；
- 汉英项目则采用基于词（word-based）的评价方式。

3. 评测数据

　　本次评测由主办方提供全部训练、开发、测试集数据，数据格式情况参见附件二，数据详细情况请参见附件五。关于数据使用的要求，请参见后续系统要求部分。

　　(1). 训练数据

　　　　本次评测训练数据的情况请见表4。提供单位排名不分先后，以汉语拼音为序。

表4 CWMT 2018翻译任务训练数据情况

评测项目名称	规模（单位：句)	提供单位	说明
汉英-英汉新闻领域机器翻译	9,023,471	点通数据有限公司、东北大学、中国科学院计算技术研究所、中国科学院自动化研究所	平行语料
	5,281	中国科学院计算技术研究所	汉语和四个英语参考译文
	8,665	中国科学院计算技术研究所	英语和四个汉语参考译文
	约1100万词	厦门大学	汉语单语语料
蒙汉日常用语机器翻译	261,643	内蒙古大学、中国科学院合肥智能机械研究所、中国科学院计算技术研究所	平行语料
藏汉政府文献机器翻译	156,580	青海师范大学、西北民族大学、西藏大学、厦门大学、中国科学院计算技术研究所	平行语料
维汉新闻领域机器翻译	352,523	新疆大学、中国科学院计算技术研究所、中国科学院新疆理化技术研究所	平行语料

　　(2). 开发数据

　　　　本次评测开发数据的情况请见表5。其中，汉英、英汉新闻领域机器翻译项目使用相同的开发集，分别包含由英汉的1002句对和汉英的1000句对，共2002句对。另外，蒙汉日常用语、藏汉政府文献、维汉新闻领域机器翻译项目开发数据为CWMT2017对应翻译项目的测试数据。

表5 CWMT 2018翻译任务开发数据情况

评测项目名称	规模（单位：句）	提供单位	说明
汉英-英汉新闻领域机器翻译	2002	南京大学	单参考译文
蒙汉日常用语机器翻译	1001	内蒙古大学	四个参考译文
藏汉政府文献机器翻译	729	青海师范大学	四个参考译文
维汉新闻领域机器翻译	1000	新疆大学	四个参考译文

　　(3). 测试数据

　　　　本次评测测试数据的情况请见表6。

表6 CWMT 2018翻译任务测试数据情况

评测项目名称	规模（单位：句）	提供单位	说明
汉英新闻领域机器翻译	1000	WMT	单参考译文
英汉新闻领域机器翻译	1000	WMT	单参考译文
蒙汉日常用语机器翻译	1000	内蒙古大学	单参考译文
藏汉政府文献机器翻译	1000	青海师范大学	单参考译文
维汉新闻领域机器翻译	1000	中国科学院新疆理化技术研究所	单参考译文

4. 系统要求

　　对于每个评测项目，参评单位可以自由选择所采用的机器翻译技术（如：基于规则的机器翻译技术、基于实例的机器翻译技术、统计机器翻译技术及神经网络机器翻译技术等）。参评单位也可以使用系统融合技术，但在系统描述中必须做出明确说明，并在技术报告中说明进行系统融合的各个单系统的性能。此处，系统融合技术指使用两个及两个以上单系统的翻译结果进行字、词、短语、句子级别的重构或选择的技术。没有明确产生两个或两个以上单系统翻译结果的技术，如统计机器翻译中的协同解码、神经网络机器翻译的输出层ensemble、单个系统结果的重排序等，本次评测不认定为系统融合技术。评测组织方在发布评测结果时，将对使用系统融合技术的系统进行标注说明。

　　对于以基于平行数据进行训练的机器翻译技术（如统计机器翻译、神经网络机器翻译等）为主的参评系统，可以以“受限”和“非受限”两种方式参与评测。下面对两种方式进行详细说明：

受限训练：受限训练是指只可以使用评测组织方指定范围的数据进行训练。具体说明如下：
- 参评单位提交的“主系统”必须采用受限训练，以便于在尽可能一致的条件下对不同参评系统所采用的技术进行比较；
- 对于以基于规则的机器翻译技术为主的参评系统，允许采用通过人工方式构造的翻译知识（如规则、模板、词典等），但要在系统描述和技术报告中对所使用的翻译知识的规模、构造和使用方式等给出清晰的说明。
- 单语分析工具可以使用外部数据，如词法分析、句法分析及命名实体识别工具等可以使用外部数据；涉及双语翻译的工具不能使用外部数据，包括命名实体翻译、音字转换工具等（数词和时间词翻译不受此约束）；
- 每个评测项目只允许使用评测组织方发布的该项目相关的训练数据，不可以使用其他评测项目的数据。即对于参加多个评测项目的单位，不同项目提供的数据不可以联合使用。
- 与WMT联合组织的汉英、英汉领域评测项目的受限训练语料包括附件五列表中的CWMT方提供的数据；也包括由WMT组织提供的数据。为便于比较，请参评单位提交汉英、英汉领域系统的评测报告时说明是使用CWMT数据还是WMT数据还是两者皆有，评测组织方将在发布评测报告时对相应的系统结果予以标识。
非受限训练：非受限训练是指可以使用评测组织方指定范围的数据之外的数据进行训练。具体说明如下：
- 参评单位提交的 “对比系统” 可以采用非受限训练。
- 采用非受限训练方式的系统，需要在系统描述和技术报告中对使用的数据进行说明（如数据规模和领域类型、是否为可公开获取的数据等。若为可公开获取的数据，则需说明数据出处）。
- 欢迎参评单位使用自有的在线系统参与评测。在线系统一般认定为非受限系统，需要在系统描述和技术报告中对技术做简要说明。在线系统的结果仅作为参考，不参与非受限训练排名。

5. 提交结果

　　参评单位收到测试数据后，应在规定时间内提交最终翻译结果文件。对于每个评测子项，参评单位可以提交一个主系统翻译结果（Primary Result）及最多三个对比系统的翻译结果（Contrast Result）。提交的每个结果文件都应包含详细的系统描述。具体数据格式请参见附件二。

　　汉英、英汉新闻领域机器翻译项目的参评单位可以选择向CWMT2018，或WMT18，或同时向WMT18和CWMT2018，提交测试数据的翻译结果。向WMT18提交的结果应满足WMT18对结果提交的要求，向CWMT2018提交的结果应满足CWMT2018对结果提交的要求。

四. 多语言翻译任务评测方法

1. 任务介绍

　　多语言翻译任务尝试发掘不同语言之间的对应和转换关系，本次评测提供专利领域的英汉、日汉双语平行数据作为训练数据，任务目标为评价日英翻译方向的翻译性能。

2. 评测指标

　　请参见翻译任务评测方法中的英文为目标的评价方法。

3. 评测数据

　　由CWMT和北京语智云帆科技有限公司合作提供日汉和英汉的训练数据（300万句对），开发集数据日汉、英汉、日英（各3000句对），以及日英方向的测试数据（1000句）。

4. 系统要求

　　本任务要求所有系统都在受限训练条件下训练，请参见翻译任务评测方法中相应的系统要求。

5. 提交结果

　　请参见翻译任务评测方法中的结果提交方法。

五. 翻译质量评估任务评测方法

1. 任务介绍

　　本次翻译质量评估任务为：对于给定的待评估译文，在没有参考译文的情况下，以句子为单位，评估其翻译质量。目前译文的翻译质量通过专业译员进行译后编辑的代价来评估。我们请专业译员对训练集、开发集和测试集中的译文进行译后编辑，并参照译后编辑的结果对待评估的译文计算HTER值（Human-targeted Translation Edit Rate, Snover M, Dorr B, Schwartz R, et al. A study of translation edit rate with targeted human annotation[J]. Machine Translation Workshop North Bethesda Md, 2006(1):223--231.），用以衡量该译文的翻译质量。翻译质量评估的任务即为预测不同译文的HTER值。

2. 评测指标

　　该任务采用自动评价方法对参评系统进行评价。评价指标为在测试集合上所有译文的评估得分与相应给出的真实HTER得分之间的皮尔森相关系数（Pearson’s correlation coefficient）。其他参考指标还包括Mean Average Error（MAE）和Root Mean Squared Error（RMSE）)等。

3. 评测数据

　　本项目的数据包括两个部分，一方面主办方提供用于训练质量评估模型的带翻译质量标注的训练集和开发集数据；另一方面，参评单位也可以使用汉英-英汉任务对应的数据资源用于辅助系统的训练和学习。下面简要介绍带翻译质量标注数据的相关情况。　　

　　数据来源：所有的源语言句子来源于试译宝上的翻译训练题，覆盖时政、经济、文化、科技等领域。待评估译文选自试译宝上的人工答题译文和若干个机器翻译引擎的结果。

　　生成过程：人工译文来源于试译宝上的人工答题译文；机器译文来源于5个在线翻译引擎（通过在线翻译服务获得）和1个统计机器翻译引擎（由小牛翻译提供）。根据试译宝打分标准，从人工译文和机器译文分别筛选出不同等级的N个译文（N<=9）；并筛选结果合并得到最终的待评估译文集合。待评估译文由专业译员进行以后编辑得到编辑结果。

　　最终数据：训练数据包含英汉方向2095句原文，12865句译文及其对应的编辑结果；汉英方向1926句原文，8785句译文及其对应的编辑结果。开发数据包含英汉方向150句原文，1040句译文及其对应的编辑结果；汉英方向240句原文，1064句译文及其对应的编辑结果。

4. 系统要求

　　参评系统可以采用各种方法进行学习和训练，如需要平行语料或单语语料，可使用CWMT2018汉英、英汉项目对应的数据。所有数据资源的使用应该在系统说明和评测报告中予以说明。

5. 提交结果

　　参评单位收到测试数据后，对于每个评测子项，应在规定时间内提交最终翻译质量评估结果文件和系统描述信息文件。具体数据格式请参见附件三。

六. 提交技术报告及参加评测研讨会

　　评测结束后，每个评测项目的参评单位应向CWMT 2018研讨会提交一份详细的技术报告，说明系统的架构、原理，使用的主要技术，以及数据使用的情况。评测报告将与CWMT2018投稿论文采用相同的匿名同行评审机制，并择优推荐至《厦门大学学报》或《中文信息学报》等期刊发表。参评单位应派至少一人参加CWMT 2018研讨会进行相应技术交流。技术报告相关要求请参见附件四。

七. 评测日程

日期
2018.03.01	发布评测大纲，评测报名开始。评测组织方向报名单位提供训练集、开发集数据，以及BLEU-SBP打分程序、格式检查程序（通过ftp方式发放）
2018.03.31	报名截止，停止发放训练集、开发集数据
2018.05.14 10:00am	评测组织方发放翻译任务的汉英、英汉新闻领域机器翻译两个项目的测试数据；发放多语言翻译任务的日英项目的测试数据；发放翻译质量评估任务的汉英、英汉新闻领域机器翻译两个项目的测试数据。
2018.05.21 10:00am	参评单位提交翻译任务的汉英、英汉新闻领域机器翻译两个项目的翻译结果；提交多语言翻译任务的日英项目的翻译结果；提交翻译质量评估任务的汉英、英汉新闻领域机器翻译两个项目的翻译结果。
2018.05.21 10:00am	评测组织方发放维汉新闻领域、蒙汉日常用语、藏汉政府文献机器翻译三个项目的测试数据
2018.05.28 10:00am	参评单位提交维汉新闻领域、蒙汉日常用语、藏汉政府文献机器翻译三个项目的翻译结果
2018.06.25	评测组织方向参评单位通知初步评测结果
2018.07.10	参评单位提交评测技术报告（参照CWMT学术论文投稿要求和方法）
2018.08.15	评测组织方返回评审结果
2018.08.31	评测技术报告终稿提交
2018.10.25-10.26	研讨会召开，会上正式报告评测结果并进行研讨

八. 附件

附件一:报名表及评测协议
 附件二:机器翻译评测任务数据文件格式说明
 附件三:翻译质量评估任务数据文件格式说明
 附件四:技术报告要求
 附件五:评测组织方发布的资源列表