附件二

机器翻译评测任务数据文件格式说明

附件二：机器翻译评测任务数据文件格式说明

　　本文档对评测中的相关数据文件及格式进行说明，文件包括评测组织方发放的数据文件以及参评单位需要提交的结果文件。

　　所有文件均要求为UTF-8编码，其中评测组织方发放的开发集（含参考答案）、测试集以及参评单位最终提交的翻译结果文件为XML文件（所使用的文档类型定义请参见本附件第二部分），其它文件均要求为纯文本文件。

一、评测组织方发放的数据格式说明

　　评测组织方发放的数据有三种，分别为：训练集、开发集和测试集。此处，以“汉-英翻译”子项为例说明这些数据文件的格式。

1. 训练集

　　子训练集由句逐行对应的源语言文件和目标语言文件组成，每行为一个句子。

　　图1和图2示例说明了“汉-英翻译”子项中源语言文件和目标语言文件的格式。　　

战法训练有了新的突破
第一章总则
人民币依其面额支付
……

图1 训练语料源语言文件（以汉语为例）

Tactical training made new breakthrough
Chapter I general rules
The renminbi is paid by denomination
……

图2 训练语料目标语言文件（以英语为例）

2. 开发集

　　开发集包括源语言文件和参考译文文件两种。

（1）源语言文件

　　源语言文件包含一个srcset元素，这个元素包含以下属性：

setid: 开发集的id
srclang: 源语言标识，值为：en（英语）、zh（汉语）、mn（蒙古语）、uy（维语）、ti（藏语）或jp（日语）
trglang: 目标语言标识，值为：en、zh、mn、uy、ti或jp

　　srcset元素包含一个或多个DOC元素，每个DOC具有属性：

docid: 表示文档名称

　　DOC元素还可以包含零个或多个p元素，不同的p元素对应着不同的篇章。每个DOC元素或p元素包含1个或多个seg元素，每个seg元素有一个属性id。

　　图3给出了一个开发集源语言文件的示例。

<?xml version="1.0" encoding="UTF-8"?> <srcset setid="zh_en_news_trans" srclang="zh" trglang="en"> <DOC docid="news"> <seg id="1">句子1</seg>. <seg id="2">句子2</seg> …… …… </DOC> </srcset>

图3 开发集源语言文件示例

（2）参考译文文件

　　参考译文文件包含一个refset元素，DOC元素包含docid和site两个属性，其中docid表示文档名称，site用以区分不同的参考译文。本次评测中，汉英、英汉和日汉开发集数据的每个句子将有1个不同的参考译文，蒙汉、藏汉和维汉开发集数据的每个句子将给出4个不同的参考译文。

　　图4给出了一个开发集参考译文的示例。

<?xml version="1.0" encoding="UTF-8"?> <refset setid="zh_en_news_trans" srclang="zh" trglang="en"> <DOC docid="news" sysid="ref" site="1"> <seg id="1">参考译文11 </seg> <seg id="2">参考译文21</seg> …… …… </DOC> <DOC docid="news" sysid="ref" site="2"> <seg id="1">参考译文21 </seg> <seg id="2">参考译文22</seg> …… …… </DOC> <DOC docid="news" sysid="ref" site="3"> <seg id="1">参考译文31</seg> <seg id="2">参考译文32</seg> …… …… </DOC> <DOC docid="news" sysid="ref" site="4"> <seg id="1">参考译文41 </seg> <seg id="2">参考译文42</seg> …… …… </DOC> </refset>

图4 开发集参考文件示例

3. 测试集

　　为了方便组织评测，在评测阶段组织方将只发放测试集源语言文件，其格式与开发集源语言文件格式相同。

二、参评单位需要提交的数据格式说明

　　参评单位仅需要提供最终的结果文件及系统描述信息，其格式说明如下。

1. 文件命名

　　所有需要提交的文件的命名方式请遵循下表要求：
（其中：项目代号以ce为例，参评单位代号以ict为例，评测语料年份以2018为例）

文件	文件名模式	文件名举例
最终翻译结果	项目代号-评测语料年份-参评单位代号-主/对比系统-参评系统代号.xml	ce-2018-ict-primary-a.xml ce-2018-ict-contrast-b.xml

注：文件名模式中主/对比系统-参评系统代号必须以英文字母顺序排序，顺序中包含主及对比系统，例如：主系统为a，则对比系统从b开始。

2. 最终翻译结果

　　最终翻译结果文件为解码器输出文件经过后处理的结果。

　　最终翻译结果文件格式与测试集源语言文件格式基本相同。

　　最终翻译结果文件包含一个tstset元素，tstset元素包含一个system元素，system元素包含site（说明单位名称）和sysid（说明系统标识）两个属性。

　　其中，system元素应给出参评系统的描述信息，即对以下内容给出说明：

软硬件环境：包括操作系统及其版本、CPU数量、CPU类型及其频率、系统内存大小等等；
运行时间：参评系统从接受输入到产生全部输出所花费的时间；
技术概要：简要说明参评系统所采用的主要技术和重要参数，如果采用了系统融合技术，这里要进行说明；
训练数据说明：说明参评系统所使用的训练数据和开发数据，并注明是受限训练还是非受限训练，对于英汉、汉英项目，还应注明使用的数据为WMT数据，CWMT数据，还是两者皆有；
外部技术说明：说明除了参评单位自己的技术外，还采用了哪些外部技术，包括各种开源代码、自由软件、共享软件或商业软件。

　　tstset元素中的DOC元素及其内部的p元素、seg元素应与测试集源语言文件中相应的元素及其属性保持一一对应关系。

　　图5示例说明了最终翻译结果文件的格式。

<?xml version="1.0" encoding="UTF-8"?> <system site="单位名称" sysid="系统标识"> 参评系统的描述信息 ............ </system> <DOC docid="文档名称" sysid="系统标识"> <seg id="1">提交译文1</seg> <seg id="2">提交译文2</seg> …… …… </DOC> </tstset>

图5 最终翻译结果文件示例

3. 文件细节

　　关于最终提交的结果文件，请参评单位注意以下细节：

本次评测的输入输出文件格式采用严格的XML格式。XML格式与NIST评测的文件格式的最主要的区别在于，XML格式的文件中，标签以外的文本如果出现以下五个字符，必须采用相应的转义序列来表示：　　　　　　　　　　　

字符 & > ＜ " '

转义序列 & < > " '
汉语译文中，外国人名中间的中圆点统一采用UTF-8编码中十六进制为“ E2 80 A2”的样式，如“托德·西蒙斯” ；

英文token采用的标准：对语料进行后处理时，按照NIST的mteval-v11b.pl中normalizeText函数的tokenization方式。如图6所示，我们对其中的主要语句增加了汉语注释，供大家参考。

# language-dependent part (assuming Western languages):
$normtext = " $normtext ";
#把原文的最开头和最末尾各加上一个空格（最后再删去）
$normtext =~ tr/[A-Z]/[a-z]/ unless $preservecase;
#除非用户指定保留大小写，否则一般把英文大写字母转化成小写
$normtext =~ s/([{-~[-` -&(-+:-\@\/])/ $1 /g; # tokenize punctuation
#把下述符号两边各加上一个空格（对应ASCII字符集中的十六进制值标注在后）：
#{ | } ~ (0x7b-0x7e)
#[ \ ] ^ - ` (0x5b-0x60)
#(空格）! " # $ % & (0x20-0x26)
#( ) * + (0x28-0x2b)
# : ; < = > ? @ (0x3a-0x40)
# / (0x2f)
$normtext =~ s/([^0-9])([.,])/$1 $2 /g; # tokenize period and comma unless preceded by a digit
#当非数字0-9后面紧跟着句号"."或者逗号","时,在句号或者逗号两边各加一个空格（即数字后面紧跟句号或逗号时，不在句号或逗号两边加空格）
$normtext =~ s/([.,])([^0-9])/ $1 $2/g; # tokenize period and comma unless followed by a digit
#当句号"."或者逗号","后面没有紧跟数字0-9时，在句号或者逗号两边各加一个空格
$normtext =~ s/([0-9])(-)/$1 $2 /g; # tokenize dash when preceded by a digit
#当连字符号"-"前面紧跟数字0-9时，在"-"两边各加一个空格
$normtext =~ s/\s+/ /g; # one space only between words
#把多个空格替换成一个空格
$normtext =~ s/^\s+//; # no leading space #把文章打头的空格去掉
$norm_text =~ s/\s+$//; # no trailing space #把文章末尾的空格去掉

三、CWMT 2018 XML文件文档结构描述说明

<?xml version="1.0" encoding="UTF-8"?>
<!ELEMENT srcset (DOC+)>
<!ATTLIST srcset setid CDATA #REQUIRED>
<!ATTLIST srcset srclang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ATTLIST srcset trglang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ELEMENT refset (DOC+)>
<!ATTLIST refset setid CDATA #REQUIRED>
<!ATTLIST refset srclang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ATTLIST refset trglang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ELEMENT tstset (DOC+)>
<!ELEMENT tstset (system+)>
<!ATTLIST tstset setid CDATA #REQUIRED>
<!ATTLIST tstset srclang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ATTLIST tstset trglang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ELEMENT system (#PCDATA) >
<!ATTLIST system site CDATA #REQUIRED >
<!ATTLIST system sysid CDATA #REQUIRED >
<!ELEMENT DOC ( p* )>
<!ATTLIST DOC docid CDATA #REQUIRED>
<!ATTLIST DOC site CDATA #IMPLIED>
<!ELEMENT p(seg*)>
<!ELEMENT seg (#PCDATA)>
<!ATTLIST seg id CDATA #REQUIRED>

字符	&	>	＜	"	'
转义序列	&	<	>	"	'