中国中文信息学会第九届全国机器翻译研讨会（CWMT2013）评测大纲

附件五：评测组织方发布的资源列表

如非特殊说明，评测提供的数据文件默认采用UTF-8无BOM编码

1 汉英/英汉新闻相关资源

1.1 训练数据

资源名称简写及ChineseLDC 资源编号	资源描述
Datum2015	名称	点通汉英平行语料库（2015）（部分）
	提供单位	点通数据有限公司
	语种	汉语—英语
	领域	综合领域，包括：语言教材、双语图书、技术文档、双语新闻、政府白皮书、政府公文和Web上双语资源等等
	规模	1000004个句对
	说明	这是点通数据有限公司在863项目支持下开发的《双语/多语平行语料库》的部分内容。
CASICT2011 （CLDC-2010-001）（CLDC-2012-001）	名称	计算所Web汉英平行语料库（2013）
	提供单位	中国科学院计算技术研究所
	语种	汉语—英语
	领域	综合领域
	规模	1936633个句对
	说明	该平行语料库是从互联网上自动挖掘获得的。双语平行网页的发现、确认，双语平行文本的获取，句子对齐等过程完全通过程序自动实现。语料库抽样评价的正确率在95%以上。该研究得到国家自然科学基金项目（编号：60603095）的支持。
CASICT2015	名称	计算所Web汉英平行语料库（2015）
	提供单位	中国科学院计算技术研究所
	语种	汉语—英语
	领域	综合领域
	规模	2036834个句对
	说明	该平行语料库是从互联网上自动挖掘获得的。双语平行网页的发现、确认，双语平行文本的获取，句子对齐等过程完全通过程序自动实现。计算所在此基础上进行了大致的校对，语料库抽样评价的正确率在99%以上。语料构成如下：网络语料占60%，电影字幕语料占20%，来自英汉辞书的例句语料占20%。
CASIA2015	名称	中科院自动化所Web汉英平行语料库（2015）
	提供单位	中国科学院自动化研究所
	语种	汉语—英语
	领域	综合领域
	规模	1050000句对
	说明	该平行语料库是从互联网上自动挖掘获得的。双语平行网页的发现、确认，双语平行文本的获取，句子对齐等过程完全通过程序自动实现。
Datum2017	名称	点通公司英汉平行语料库（2017）
	提供单位	点通数据有限公司
	语种	汉语—英语
	领域
	规模	100万句对，分为20个文件
	说明
NEU2017	名称	东北大学英汉平行语料库（2017）
	提供单位	东北大学自然语言处理实验室
	语种	汉语—英语
	领域
	规模	200万句对
	说明
SSMT2007 MT Evaluation Data （2007-863-001）	名称	SSMT2007机器翻译评测数据（英汉/汉英机器翻译部分）
	提供单位	中国科学院计算技术研究所
	语种	汉语—英语
	领域	新闻
	规模	该机器翻译测试语料包含2个翻译方向（汉英、英汉），语料为新闻领域。其中汉英机器翻译测试语料含1,002个汉语句子。英汉机器翻译测试语料含995个英语句子。每个测试句子包括4个人工翻译的参考译文。
	说明
HTRDP(863)2005 MT Evaluation Data （2005-863-001）	名称	2005年863机器翻译评测数据（英汉/汉英机器翻译部分）
	提供单位	中国科学院计算技术研究所
	语种	汉语—英语
	领域	包括两种评测语料，一种是对话语料，领域为奥运相关领域，包括体育赛事、天气预报、交通住宿、旅游餐饮等；一种是篇章语料，领域为新闻领域。
	规模	汉英对话句对：467句，汉英篇章句对：489句。英汉对话句对：459句，英汉篇章句对：494句。每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。
	说明
HTRDP(863)2004 MT Evaluation Data （2004-863-001）	名称	2004年863机器翻译评测数据（英汉/汉英机器翻译部分）
	提供单位	中国科学院计算技术研究所
	语种	汉语—英语
	领域	两种评测语料，一种是篇章语料，一种是对话语料。领域是通用领域和奥运的相关领域，其中奥运领域包括体育赛事、天气预报、交通住宿、旅游餐饮等。
	规模	汉英评测数据含400句对话语料，308句篇章语料。英汉评测数据含400句对话语料，310句篇章语料。每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。
	说明	2004年863机器翻译评测汉英、英汉部分测试数据。
HTRDP(863)2003 MT Evaluation Data （2003-863-004）	名称	2003年863机器翻译评测数据（英汉/汉英机器翻译部分）
	提供单位	中国科学院计算技术研究所
	语种	汉语—英语
	领域	奥运相关领域，其中奥运领域包括体育赛事、天气预报、交通住宿、旅游餐饮等。
	规模	汉英评测数据含437句对话语料和169句篇章语料；英汉评测数据含496句对话语料和322句篇章语料。每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。
	说明	2003年863机器翻译评测汉英、英汉部分测试数据。
CWMT2008 Machine Translation Evaluation Data （CLDC-2009-001）（CLDC-2009-002）	名称	CWMT2008机器翻译评测新闻语料（英汉/汉英机器翻译部分）
	提供单位	中国科学院计算技术研究所
	语种	汉语—英语
	领域	新闻
	规模	汉英评测数据含1006句对；英汉评测数据含1000句对。每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。
	说明
CWMT2009 Machine Translation Evaluation Data	名称	CWMT2009机器翻译评测数据（英汉/汉英机器翻译部分）
	提供单位	中国科学院计算技术研究所
	语种	汉语—英语
	领域	新闻
	规模	汉英评测数据含1003句对；英汉评测数据含1002句对。每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。
	说明
CWMT2011 Machine Translation Evaluation Data	名称	CWMT2011机器翻译评测数据（英汉机器翻译部分）
	提供单位	中国科学院计算技术研究所
	语种	英语—汉语
	领域	新闻
	规模	英汉评测数据含3187句对。每个测试句子各提供4个人工翻译的参考译文。
	说明
NJU-newsdev2017-enzh （NJU-newsdev2017-zhen）	名称	南京大学CWMT2017汉英/英汉新闻语料开发集数据
	提供单位	南京大学
	语种	汉语—英语
	领域	新闻
	规模	共2,002句对
	说明	包含1000个汉语新闻句子及其英语翻译结果，以及1002个英语新闻句子及其汉语翻译结果。

1.2 单语新闻数据

XMU-CWMT2017	名称	厦门大学NLP实验室新华网新闻汉语单语语料（2017）
	提供单位	厦门大学
	语种	汉语
	领域	新闻
	规模	现语料库共有662,904个文章，大约1100万词汇。
	说明	本资源由厦门大学NLP实验室收集，包括新华网2011年不同主题频道的新闻语料，例如：国内新闻，国际新闻，财经新闻，论坛，教育等。每篇文章包含：标题，日期，URL和内容。

1.3 开发集数据

NJU-newsdev2018-enzh （NJU-newsdev2018-zhen）	名称	南京大学CWMT2018汉英/英汉新闻语料开发集数据
	提供单位	南京大学
	语种	汉语—英语
	领域	新闻
	规模	共2,001句对
	说明	包含1000个汉语新闻句子及其英语翻译结果，以及1001个英语新闻句子及其汉语翻译结果。

2 蒙汉日常用语项目数据

2.1 训练数据

IMU-CWMT2013 （CLDC-2010-005）	名称	内蒙古大学汉蒙平行语料库（2013）
	提供单位	内蒙古大学
	语种	汉语—蒙古语
	领域	政府文献和法律法规、日常对话、文学
	规模	共104,975句对其中：CWMT2011评测训练语料67274句对,领域包括: 日常对话、文学、政府文献和法律法规; CWMT 2015新增训练语料:包括新闻语料17,516句对,政府文献语料10,394句对,课本语料5,052句对,蒙汉字典语料4,739句对;
	说明
IMU-CWMT2015	名称	内蒙古大学汉蒙平行语料库（2015）
	提供单位	内蒙古大学
	语种	汉语—蒙古语
	领域	政府文献和法律法规、日常对话、文学
	规模	共24,978句对
	说明
IIM-CWMT2015	名称	中国科学院合肥智能机械研究所蒙汉双语语料库（2015）
	提供单位	中国科学院合肥智能机械研究所
	语种	蒙古语—汉语
	领域	新闻
	规模	1,682句对
	说明
ICT-MC-corpus-CWMT2017	名称	中国科学院计算技术研究所蒙汉双语语料库（2017）
	提供单位	中国科学院计算技术研究所
	语种	蒙古语—汉语
	领域	新闻
	规模	30,007句对
	说明
IMU-corpus-CWMT2017	名称	内蒙古大学蒙汉双语语料库（2017）
	提供单位	内蒙古大学
	语种	蒙古语—汉语
	领域	综合，包括：政府文件，政府工作报告，国务院文件，法律法规等
	规模	100,001句对
	说明
IMU-dev-mnzh -CWMT2017	名称	内蒙古大学CWMT2017蒙汉开发集数据
	提供单位	内蒙古大学
	语种	蒙古语—汉语
	领域	政府文献和法律法规、日常对话、文学
	规模	共1,000句蒙古语，每句4个汉语参考译文
	说明	CMWT2017蒙汉开发集与CWMT2011、CWMT2013、CWMT2015蒙汉开发集相同

2.2 开发集数据

IMU-dev-mnzh -CWMT2018	名称	内蒙古大学CWMT2018蒙汉开发集数据
	提供单位	内蒙古大学
	语种	蒙古语—汉语
	领域	政府文献和法律法规、日常对话、文学
	规模	共1,001句蒙古语，每句4个汉语参考译文
	说明	CMWT2018蒙汉开发集数据为CWMT2017蒙汉测试集数据

3 藏汉政府文献相关资源

3.1 训练数据

QHNU-CWMT2013	名称	青海师范大学藏汉平行语料库（2013）
	提供单位	青海师范大学
	语种	藏语—汉语
	领域	政府文献领域
	规模	33,145句对
	说明	该平行语料库是通过录入、扫描、网页下载等方式获得的。双语平行的搜集、整理、确认、获取、句子对齐等过程是通过程序自动实现和人工干预实现的。语料库的正确率在99%以上。该研究得到国家自然科学基金项目（编号：61063033）和973前期研究专项（编号：2010CB334708）的支持。
QHNU-CWMT2015	名称	青海师范大学藏汉平行语料库（2015）
	提供单位	青海师范大学
	语种	藏语—汉语
	领域	政府文献领域
	规模	17,194句对
	说明	该平行语料库是通过录入、扫描、网页下载等方式获得的。双语平行的搜集、整理、确认、获取、句子对齐等过程是通过程序自动实现和人工干预实现的。语料库的正确率在99%以上。该研究得到国家自然科学基金项目（编号：61063033）的支持。
XBMU-XMU	名称	央金藏汉平行语料库
	提供单位	厦门大学人工智能研究所西北民族大学语言（技术）研究所
	语种	汉语—藏语
	领域	综合领域
	规模	52,078句对
	说明	1)该藏汉平行语料库是用正式出版物、藏汉大词典和网络语料藏汉对照文本,经使用自主开发的“藏汉句子对齐工具”初步对齐之后,由人工逐句对齐。 2)5万句对藏汉平行语料的对齐正确率为100%。 3)该研究得到国家社科基金重点项目《藏语语料库建设研究》（批准号：05AYY001）和863重点项目《面向跨语言搜索的机器翻译关键技术研究》（批准号：2006AA010107）的支持。
XBMU-XMU- UTibet	名称	西北民族大学、西藏大学与厦门大学藏汉语料（2012）
	提供单位	西北民族大学语言（技术）研究所西藏大学厦门大学人工智能研究所
	语种	汉语—藏语
	领域	政论，法律
	规模	24,159句对
	说明	语料来源：2008年和2009年全国最新法律文件和十八大报告、2011、2012年政府工作报告等，政论类与法律类语料各占一半。系西北民族大学、西藏大学与厦门大学于2012年通过对原材料进行扫描、识别、校对并独立加工完成。
ICT-TC-corpus-CWMT2017	名称	中国科学院计算技术研究所藏汉双语语料库（2017）
	提供单位	中国科学院计算技术研究所
	语种	藏语—汉语
	领域	新闻
	规模	30,004句对
	说明
QHNU-dev-tizh- CWMT2017	名称	青海师范大学CWMT2017藏汉开发集数据
	提供单位	青海师范大学
	语种	藏语—汉语
	领域	政府文献
	规模	共650句藏语，每句4个汉语参考译文
	说明	CMWT2017藏汉开发集与CWMT2011、CWMT2013、CWMT2015藏汉开发集相同

3.2 开发集数据

QHNU-dev-tizh- CWMT2018	名称	青海师范大学CWMT2018藏汉开发集数据
	提供单位	青海师范大学
	语种	藏语—汉语
	领域	政府文献
	规模	共729句藏语，每句4个汉语参考译文
	说明	CMWT2018藏汉开发集数据为CWMT2017藏汉测试集数据

4 维汉新闻相关资源

4.1 训练数据

XJU-CWMT2013 （CLDC-2013-002）	名称	新疆大学维汉双语句子对齐语料库（2013）
	提供单位	新疆大学
	语种	汉语—维吾尔语
	领域	新闻
	规模	79,935句对
	说明
XJIPC-CWMT2015	名称	中国科学院新疆理化技术研究所维汉双语语料库（2015）
	提供单位	中国科学院新疆理化技术研究所
	语种	汉语—维吾尔语
	领域	新闻
	规模	59,990句对
	说明	此语料在CWMT 2013年的基础上新增加约3万句对语料比例：2007年-2014年媒体新闻类语料比例约占95%，2012-2014年政府报告类语料和法律法规类语料合计比例约占5%。语料来源：系中国科学院新疆理化技术研究所在2012年-2014年间采集、标注、校对完成。
ICT-UC-corpus-CWMT2017	名称	中国科学院计算技术研究所维汉双语语料库（2017）
	提供单位	中国科学院计算技术研究所
	语种	维吾尔语—汉语
	领域	新闻
	规模	30,071句对
	说明
XJU-corpus-CWMT2017	名称	新疆大学维汉双语平行语料库（2017）
	提供单位	新疆大学
	语种	维吾尔语—汉语
	领域	新闻
	规模	152,527句对
	说明
XJIPC-corpus-CWMT2017	名称	中国科学院新疆理化技术研究所维汉双语语料库（2017）
	提供单位	中国科学院新疆理化技术研究所
	语种	维吾尔语—汉语
	领域	新闻
	规模	30,000句对
	说明
XJU-dev-uyzh-CWMT2017	名称	新疆大学CWMT2017维汉开发集数据
	提供单位	新疆大学
	语种	维吾尔语—汉语
	领域	新闻
	规模	共700句维语，每句4个汉语参考译文
	说明	CMWT2017维汉开发集与CWMT2011、CWMT2013、CWMT2015维汉开发集相同
XJIPC-corpus-CWMT2018	名称	中国科学院新疆理化技术研究所维汉双语语料库（2018）
	提供单位	中国科学院新疆理化技术研究所
	语种	维吾尔语—汉语
	领域	新闻
	规模	50,000句对
	说明

4.2 开发集数据

XJU-dev-uyzh-CWMT2018	名称	新疆大学CWMT2018维汉开发集数据
	提供单位	新疆大学
	语种	维吾尔语—汉语
	领域	新闻
	规模	共1000句维语，每句4个汉语参考译文
	说明	CMWT2018维汉开发集数据为CWMT2017维汉测试集数据

5 日英专利领域多语言机器翻译相关资源

5.1 训练数据

Lingosail-train-zhjp-CWMT2018	名称	北京语智云帆科技有限公司日汉专利平行语料库（2018）
	提供单位	北京语智云帆科技有限公司
	语种	日语—汉语
	领域	综合
	规模	3,000,000句对
	说明	该数据更新了2017版的日汉专利平行数据
Lingosail-train-enzh-CWMT2018	名称	北京语智云帆科技有限公司英汉专利平行语料库（2018）
	提供单位	北京语智云帆科技有限公司
	语种	英语—汉语
	领域	综合
	规模	3,000,000句对
	说明

5.2 开发集数据

Lingosail-dev-jpzh-CWMT2017	名称	北京语智云帆科技有限公司日汉双语开发集数据（2017）
	提供单位	北京语智云帆科技有限公司
	语种	日语—汉语
	领域	综合
	规模	3000句日语，每句含一个汉语参考译文
	说明	CWMT2017日汉专利领域翻译开发集数据
Lingosail-dev-enzh-CWMT2018	名称	北京语智云帆科技有限公司英汉双语开发集数据（2018）
	提供单位	北京语智云帆科技有限公司
	语种	英语—汉语
	领域	综合
	规模	3000句英语，每句含一个汉语参考译文
	说明
Lingosail-dev-jpzh-CWMT2018	名称	北京语智云帆科技有限公司日汉双语开发集数据（2018）
	提供单位	北京语智云帆科技有限公司
	语种	日语—汉语
	领域	综合
	规模	3000句日语，每句含一个汉语参考译文
	说明
Lingosail-dev-enjp-CWMT2018	名称	北京语智云帆科技有限公司英日双语开发集数据（2018）
	提供单位	北京语智云帆科技有限公司
	语种	英语—日语
	领域	综合
	规模	3000句英语，每句含一个日语参考译文
	说明

5.3 汉语专利数据

Lingosail-cn_for_lm-CWMT2017	名称	北京语智云帆科技有限公司汉语专利语料（2017）
	提供单位	北京语智云帆科技有限公司
	语种	汉语
	领域	综合
	规模	7,114,700句对
	说明	CWMT2017日汉专利领域翻译汉语单语数据

6 汉英/英汉多领域机器翻译质量评估相关资源

6.1 训练数据

Lingosail-train-enzh-qe-CWMT2018	名称	北京语智云帆科技有限公司英汉多领域机器翻译质量评估语料库（2018）
	提供单位	北京语智云帆科技有限公司
	语种	英语—汉语
	领域	时政、经济、文化、科技等领域
	规模	12,974句对
	说明	子训练集由四个文件组成，包括由逐行对应的源语言文件train. source、译文文件train. target、对译文进行人工译后编辑的文件train.pe，每行为一个句子；以及待评估译文的HTER值文件train.hter，每行为一个区间[0,1]的数值。
Lingosail-train-zhen-qe-CWMT2018	名称	北京语智云帆科技有限公司汉英多领域机器翻译质量评估语料库（2018）
	提供单位	北京语智云帆科技有限公司
	语种	汉语—英语
	领域	时政、经济、文化、科技等领域
	规模	8,946句对
	说明	子训练集由四个文件组成，包括由逐行对应的源语言文件train.source、译文文件train.target、对译文进行人工译后编辑的文件train.pe，每行为一个句子；以及待评估译文的HTER值文件train.hter，每行为一个区间[0,1]的数值。

6.2 开发集数据

Lingosail-dev-enzh-qe-CWMT2018	名称	北京语智云帆科技有限公司英汉多领域机器翻译质量评估开发集数据（2018）
	提供单位	北京语智云帆科技有限公司
	语种	英语—汉语
	领域	时政、经济、文化、科技等领域
	规模	1000句英语，每句含一个汉语参考译文
	说明	开发集由四个文件组成，包括由逐行对应的源语言文件dev. source、译文文件dev. target、对译文进行人工译后编辑的文件dev.pe，每行为一个句子；以及待评估译文的HTER值文件dev.hter，每行为一个区间[0,1]的数值。
Lingosail-dev-zhen-qe-CWMT2018	名称	北京语智云帆科技有限公司汉英多领域机器翻译质量评估开发集数据（2018）
	提供单位	北京语智云帆科技有限公司
	语种	汉语—英语
	领域	时政、经济、文化、科技等领域
	规模	1000句汉语，每句含一个英语参考译文
	说明	开发集由四个文件组成，包括由逐行对应的源语言文件dev. source、译文文件dev. target、对译文进行人工译后编辑的文件dev.pe，每行为一个句子；以及待评估译文的HTER值文件dev.hter，每行为一个区间[0,1]的数值。