本文档对评测中的相关数据文件及格式进行说明,文件包括评测组织方发放的数据文件以及参评单位需要提交的结果文件。
所有文件均要求为UTF-8编码,其中评测组织方发放的开发集(含参考答案)、测试集以及参评单位最终提交的翻译结果文件为XML文件(所使用的文档类型定义请参见本附件第二部分),其它文件均要求为纯文本文件。
评测组织方发放的数据有三种,分别为:训练集、开发集和测试集。此处,以“汉-英翻译”子项为例说明这些数据文件的格式。
子训练集由句逐行对应的源语言文件和目标语言文件组成,每行为一个句子。
图1和图2示例说明了“汉-英翻译”子项中源语言文件和目标语言文件的格式。
战法训练有了新的突破 第一章总则 人民币依其面额支付 …… |
Tactical training made new breakthrough Chapter I general rules The renminbi is paid by denomination …… |
开发集包括源语言文件和参考译文文件两种。
源语言文件包含一个srcset元素,这个元素包含以下属性:
setid: 开发集的id
srclang: 源语言标识,值为:en(英语)、zh(汉语)、mn(蒙古语)、uy(维语)、ti(藏语)或jp(日语)
trglang: 目标语言标识,值为:en、zh、mn、uy、ti或jp
srcset元素包含一个或多个DOC元素,每个DOC具有属性:
DOC元素还可以包含零个或多个p元素,不同的p元素对应着不同的篇章。每个DOC元素或p元素包含1个或多个seg元素,每个seg元素有一个属性id。
图3给出了一个开发集源语言文件的示例。
<?xml version="1.0" encoding="UTF-8"?>
|
参考译文文件包含一个refset元素,DOC元素包含docid和site两个属性,其中docid表示文档名称,site用以区分不同的参考译文。本次评测中,汉英、英汉和日汉开发集数据的每个句子将有1个不同的参考译文,蒙汉、藏汉和维汉开发集数据的每个句子将给出4个不同的参考译文。
图4给出了一个开发集参考译文的示例。
<?xml version="1.0" encoding="UTF-8"?>
|
为了方便组织评测,在评测阶段组织方将只发放测试集源语言文件,其格式与开发集源语言文件格式相同。
参评单位仅需要提供最终的结果文件及系统描述信息,其格式说明如下。
所有需要提交的文件的命名方式请遵循下表要求:
(其中:项目代号以ce为例,参评单位代号以ict为例,评测语料年份以2018为例)
文件 | 文件名模式 | 文件名举例 |
最终翻译结果 | 项目代号-评测语料年份-参评单位代号-主/对比系统-参评系统代号.xml | ce-2018-ict-primary-a.xml ce-2018-ict-contrast-b.xml |
最终翻译结果文件为解码器输出文件经过后处理的结果。
最终翻译结果文件格式与测试集源语言文件格式基本相同。
最终翻译结果文件包含一个tstset元素,tstset元素包含一个system元素,system元素包含site(说明单位名称)和sysid(说明系统标识)两个属性。
其中,system元素应给出参评系统的描述信息,即对以下内容给出说明:
tstset元素中的DOC元素及其内部的p元素、seg元素应与测试集源语言文件中相应的元素及其属性保持一一对应关系。
图5示例说明了最终翻译结果文件的格式。
<?xml version="1.0" encoding="UTF-8"?>
|
关于最终提交的结果文件,请参评单位注意以下细节:
字符 | & | > | < | " | ' |
转义序列 | & | < | > | " | ' |
# language-dependent part (assuming Western languages): $normtext = " $normtext "; #把原文的最开头和最末尾各加上一个空格(最后再删去) $normtext =~ tr/[A-Z]/[a-z]/ unless $preservecase; #除非用户指定保留大小写,否则一般把英文大写字母转化成小写 $normtext =~ s/([{-~[-` -&(-+:-\@\/])/ $1 /g; # tokenize punctuation #把下述符号两边各加上一个空格(对应ASCII字符集中的十六进制值标注在后): #{ | } ~ (0x7b-0x7e) #[ \ ] ^ - ` (0x5b-0x60) #(空格)! " # $ % & (0x20-0x26) #( ) * + (0x28-0x2b) # : ; < = > ? @ (0x3a-0x40) # / (0x2f) $normtext =~ s/([^0-9])([.,])/$1 $2 /g; # tokenize period and comma unless preceded by a digit #当非数字0-9后面紧跟着句号"."或者逗号","时,在句号或者逗号两边各加一个空格(即数字后面紧跟句号或逗号时,不在句号或逗号两边加空格) $normtext =~ s/([.,])([^0-9])/ $1 $2/g; # tokenize period and comma unless followed by a digit #当句号"."或者逗号","后面没有紧跟数字0-9时,在句号或者逗号两边各加一个空格 $normtext =~ s/([0-9])(-)/$1 $2 /g; # tokenize dash when preceded by a digit #当连字符号"-"前面紧跟数字0-9时,在"-"两边各加一个空格 $normtext =~ s/\s+/ /g; # one space only between words #把多个空格替换成一个空格 $normtext =~ s/^\s+//; # no leading space #把文章打头的空格去掉 $norm_text =~ s/\s+$//; # no trailing space #把文章末尾的空格去掉 |
<?xml version="1.0" encoding="UTF-8"?> <!ELEMENT srcset (DOC+)> <!ATTLIST srcset setid CDATA #REQUIRED> <!ATTLIST srcset srclang (en | zh | mn | uy | ti | jp) #REQUIRED> <!ATTLIST srcset trglang (en | zh | mn | uy | ti | jp) #REQUIRED> <!ELEMENT refset (DOC+)> <!ATTLIST refset setid CDATA #REQUIRED> <!ATTLIST refset srclang (en | zh | mn | uy | ti | jp) #REQUIRED> <!ATTLIST refset trglang (en | zh | mn | uy | ti | jp) #REQUIRED> <!ELEMENT tstset (DOC+)> <!ELEMENT tstset (system+)> <!ATTLIST tstset setid CDATA #REQUIRED> <!ATTLIST tstset srclang (en | zh | mn | uy | ti | jp) #REQUIRED> <!ATTLIST tstset trglang (en | zh | mn | uy | ti | jp) #REQUIRED> <!ELEMENT system (#PCDATA) > <!ATTLIST system site CDATA #REQUIRED > <!ATTLIST system sysid CDATA #REQUIRED > <!ELEMENT DOC ( p* )> <!ATTLIST DOC docid CDATA #REQUIRED> <!ATTLIST DOC site CDATA #IMPLIED> <!ELEMENT p(seg*)> <!ELEMENT seg (#PCDATA)> <!ATTLIST seg id CDATA #REQUIRED> |