机器翻译评测任务数据文件格式说明

附件三:翻译质量评估任务数据文件格式说明

  本文档对评测中的相关数据文件及格式进行说明,文件包括评测组织方发放的数据文件以及参评单位需要提交的结果文件。 所有文件均要求为UTF-8编码。

一、评测组织方发放的数据格式说明

  评测组织方发放的数据有三种,分别为:训练集、开发集和测试集。此外,以“汉-英翻译质量评估”子项为例说明这些文件的格式。

1. 训练集

  子训练集由四个文件组成,包括由逐行对应的源语言文件train.source、译文文件train.target、对译文进行人工译后编辑的文件train.pe,每行为一个句子;以及待评估译文的HTER值文件train.hter,每行为一个区间[0,1]的数值。

  其中,HTER值是使用TERCOM (http://www.cs.umd.edu/~snover/tercom)工具计算得到的,采用默认设置,即大小写不敏感、精确匹配,且值区间为[0,1]。汉英翻译结果以单词为单位进行计算,英汉翻译结果以字符为单位进行评估。英文句子进行tokenize的标准请参照翻译任务格式说明的相应描述。  

  图1、图2、图3、图4示例说明了“汉-英翻译质量评估”子项中源语言文件、译文文件、译后编辑文件、HTER文件的格式。

train.source
一是树立健康的消费理念。
一种信息推送的方法及装置
……
图1 训练集的源语言文件
train.target
One is sets up the healthy consumption concept.
A method and a device for information push
……
图2 训练集的译文文件

train.pe
First one is to set up the healthy consumption concept.
A method and device for information pushing
……
图3 训练集的译后编辑文件

train.hter
0.3636
0.2857
……
图4 训练集的HTER文件

2. 开发集

  其文件个数及格式与训练集相同,包括dev.source、dev.target、dev.pe、dev.hter四个文件。

3. 测试集

  在评测阶段组织方将只发放test.source和test.target两个文件,其格式与训练集相同。

二、参评单位需要提交的数据格式说明

  参评单位仅需要提供最终的翻译质量评估结果文件及系统描述信息文件,其格式说明如下。

1. 文件命名

  所有需要提交的文件的命名方式请遵循下表要求:
(其中:项目代号以ce-qe为例,参评单位代号以ict为例)

文件 文件名模式 文件名举例
翻译质量评估结果 项目代号-参评单位代号-test.hter ce-qe-ict-test.hter
系统描述信息 项目代号-参评单位代号-sys.txt ce-qe-ict-sys.txt

2. 最终提交结果文件

  翻译质量评估结果文件为测试集中每一行待评估译文句子对应的预测的HTER值。

  翻译质量评估结果文件格式与训练集的train.hter以及开发集的dev.hter相同,即每一行为一个区间[0,1]的数值。

  在参评系统的描述信息文件中,需要对以下内容给出说明:

  外部技术说明:说明除了参评单位自己的技术外,还采用了哪些外部技术,包括各种开源代码、自由软件、共享软件或商业软件。