机器翻译评测任务数据文件格式说明

附件二:机器翻译评测任务数据文件格式说明

  本文档对评测中的相关数据文件及格式进行说明,文件包括评测组织方发放的数据文件以及参评单位需要提交的结果文件。

  所有文件均要求为UTF-8编码,其中评测组织方发放的开发集(含参考答案)、测试集以及参评单位最终提交的翻译结果文件为XML文件(所使用的文档类型定义请参见本附件第二部分),其它文件均要求为纯文本文件。

一、评测组织方发放的数据格式说明

  评测组织方发放的数据有三种,分别为:训练集、开发集和测试集。此处,以“汉-英翻译”子项为例说明这些数据文件的格式。

1. 训练集

  子训练集由句逐行对应的源语言文件和目标语言文件组成,每行为一个句子。

  图1和图2示例说明了“汉-英翻译”子项中源语言文件和目标语言文件的格式。   

战法训练有了新的突破
第一章总则
人民币依其面额支付
……
图1 训练语料源语言文件(以汉语为例)

Tactical training made new breakthrough
Chapter I general rules
The renminbi is paid by denomination
……
图2 训练语料目标语言文件(以英语为例)

2. 开发集

  开发集包括源语言文件和参考译文文件两种。

(1)源语言文件

  源语言文件包含一个srcset元素,这个元素包含以下属性:

  srcset元素包含一个或多个DOC元素,每个DOC具有属性:

  DOC元素还可以包含零个或多个p元素,不同的p元素对应着不同的篇章。每个DOC元素或p元素包含1个或多个seg元素,每个seg元素有一个属性id。

  图3给出了一个开发集源语言文件的示例。

<?xml version="1.0" encoding="UTF-8"?> <srcset setid="zh_en_news_trans" srclang="zh" trglang="en"> <DOC docid="news"> <p> <seg id="1">句子1</seg>. <seg id="2">句子2</seg> …… </p> …… </DOC> </srcset>
图3 开发集源语言文件示例

(2) 参考译文文件

  参考译文文件包含一个refset元素,DOC元素包含docid和site两个属性,其中docid表示文档名称,site用以区分不同的参考译文。本次评测中,汉英、英汉和日汉开发集数据的每个句子将有1个不同的参考译文,蒙汉、藏汉和维汉开发集数据的每个句子将给出4个不同的参考译文。

  图4给出了一个开发集参考译文的示例。

<?xml version="1.0" encoding="UTF-8"?> <refset setid="zh_en_news_trans" srclang="zh" trglang="en"> <DOC docid="news" sysid="ref" site="1"> <p> <seg id="1">参考译文11 </seg> <seg id="2">参考译文21</seg> …… </p> …… </DOC> <DOC docid="news" sysid="ref" site="2"> <p> <seg id="1">参考译文21 </seg> <seg id="2">参考译文22</seg> …… </p> …… </DOC> <DOC docid="news" sysid="ref" site="3"> <p> <seg id="1">参考译文31</seg> <seg id="2">参考译文32</seg> …… </p> …… </DOC> <DOC docid="news" sysid="ref" site="4"> <p> <seg id="1">参考译文41 </seg> <seg id="2">参考译文42</seg> …… </p> …… </DOC> </refset>
图4 开发集参考文件示例

3. 测试集

  为了方便组织评测,在评测阶段组织方将只发放测试集源语言文件,其格式与开发集源语言文件格式相同。

二、参评单位需要提交的数据格式说明

  参评单位仅需要提供最终的结果文件及系统描述信息,其格式说明如下。

1. 文件命名

  所有需要提交的文件的命名方式请遵循下表要求:
(其中:项目代号以ce为例,参评单位代号以ict为例,评测语料年份以2018为例)

文件 文件名模式 文件名举例
最终翻译结果 项目代号-评测语料年份-参评单位代号-主/对比系统-参评系统代号.xml ce-2018-ict-primary-a.xml
ce-2018-ict-contrast-b.xml
注:文件名模式中主/对比系统-参评系统代号必须以英文字母顺序排序,顺序中包含主及对比系统,例如:主系统为a,则对比系统从b开始。

2. 最终翻译结果

  最终翻译结果文件为解码器输出文件经过后处理的结果。

  最终翻译结果文件格式与测试集源语言文件格式基本相同。

  最终翻译结果文件包含一个tstset元素,tstset元素包含一个system元素,system元素包含site(说明单位名称)和sysid(说明系统标识)两个属性。

  其中,system元素应给出参评系统的描述信息,即对以下内容给出说明:

  tstset元素中的DOC元素及其内部的p元素、seg元素应与测试集源语言文件中相应的元素及其属性保持一一对应关系。

  图5示例说明了最终翻译结果文件的格式。

<?xml version="1.0" encoding="UTF-8"?> <system site="单位名称" sysid="系统标识"> 参评系统的描述信息 ............ </system> <DOC docid="文档名称" sysid="系统标识"> <p> <seg id="1">提交译文1</seg> <seg id="2">提交译文2</seg> …… </p> …… </DOC> </tstset>
图5 最终翻译结果文件示例

3. 文件细节

  关于最终提交的结果文件,请参评单位注意以下细节:

三、CWMT 2018 XML文件文档结构描述说明

<?xml version="1.0" encoding="UTF-8"?>
<!ELEMENT srcset (DOC+)>
<!ATTLIST srcset setid CDATA #REQUIRED>
<!ATTLIST srcset srclang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ATTLIST srcset trglang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ELEMENT refset (DOC+)>
<!ATTLIST refset setid CDATA #REQUIRED>
<!ATTLIST refset srclang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ATTLIST refset trglang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ELEMENT tstset (DOC+)>
<!ELEMENT tstset (system+)>
<!ATTLIST tstset setid CDATA #REQUIRED>
<!ATTLIST tstset srclang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ATTLIST tstset trglang (en | zh | mn | uy | ti | jp) #REQUIRED>
<!ELEMENT system (#PCDATA) >
<!ATTLIST system site CDATA #REQUIRED >
<!ATTLIST system sysid CDATA #REQUIRED >
<!ELEMENT DOC ( p* )>
<!ATTLIST DOC docid CDATA #REQUIRED>
<!ATTLIST DOC site CDATA #IMPLIED>
<!ELEMENT p(seg*)>
<!ELEMENT seg (#PCDATA)>
<!ATTLIST seg id CDATA #REQUIRED>