附件五:评测组织方发布的资源列表

如非特殊说明,评测提供的数据文件默认采用UTF-8BOM编码

1        汉英/英汉新闻相关资源

1.1       训练数据

资源名称简写及ChineseLDC 资源编号

资源描述

Datum2015

名称

点通汉英平行语料库(2015)(部分)

提供单位

点通数据有限公司

语种

汉语—英语

领域

综合领域,包括:语言教材、双语图书、技术文档、双语新闻、政府白皮书、政府公文和Web上双语资源等等

规模

1000004个句对

说明

这是点通数据有限公司在863项目支持下开发的《双语/多语平行语料库》的部分内容。

CASICT2011

 

CLDC-2010-001

CLDC-2012-001

名称

计算所Web汉英平行语料库(2013

提供单位

中国科学院计算技术研究所

语种

汉语—英语

领域

综合领域

规模

1936633个句对

说明

该平行语料库是从互联网上自动挖掘获得的。双语平行网页的发现、确认,双语平行文本的获取,句子对齐等过程完全通过程序自动实现。语料库抽样评价的正确率在95%以上。

该研究得到国家自然科学基金项目(编号:60603095)的支持。

CASICT2015

名称

计算所Web汉英平行语料库(2015

提供单位

中国科学院计算技术研究所

语种

汉语—英语

领域

综合领域

规模

2036834个句对

说明

该平行语料库是从互联网上自动挖掘获得的。双语平行网页的发现、确认,双语平行文本的获取,句子对齐等过程完全通过程序自动实现。计算所在此基础上进行了大致的校对,语料库抽样评价的正确率在99%以上。语料构成如下:网络语料占60%,电影字幕语料占20%,来自英汉辞书的例句语料占20%

CASIA2015

名称

中科院自动化所Web汉英平行语料库(2015

提供单位

中国科学院自动化研究所

语种

汉语—英语

领域

综合领域

规模

1050000句对

说明

该平行语料库是从互联网上自动挖掘获得的。双语平行网页的发现、确认,双语平行文本的获取,句子对齐等过程完全通过程序自动实现。

Datum2017

名称

点通公司英汉平行语料库(2017

提供单位

点通数据有限公司

语种

汉语—英语

领域

 

规模

100万句对,分为20个文件

说明

 

NEU2017

名称

东北大学英汉平行语料库(2017

提供单位

东北大学 自然语言处理实验室

语种

汉语—英语

领域

 

规模

200万句对

说明

 

SSMT2007 MT Evaluation Data

 

2007-863-001

名称

SSMT2007机器翻译评测数据(英汉/汉英机器翻译部分)

提供单位

中国科学院计算技术研究所

语种

汉语—英语

领域

新闻

规模

机器翻译测试语料包含2个翻译方向(汉英、英汉),语料为新闻领域。其中汉英机器翻译测试语料含1,002个汉语句子。英汉机器翻译测试语料含995个英语句子。每个测试句子包括4个人工翻译的参考译文。

说明

 

HTRDP(863)2005 MT Evaluation Data

 

2005-863-001

名称

2005863机器翻译评测数据(英汉/汉英机器翻译部分)

提供单位

中国科学院计算技术研究所

语种

汉语—英语

领域

包括两种评测语料,一种是对话语料,领域为奥运相关领域,包括体育赛事、天气预报、交通住宿、旅游餐饮等;一种是篇章语料,领域为新闻领域。

规模

汉英对话句对:467句,汉英篇章句对:489句。

英汉对话句对:459句,英汉篇章句对:494句。

每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。

说明

 

HTRDP(863)2004 MT Evaluation Data

 

2004-863-001

名称

2004863机器翻译评测数据(英汉/汉英机器翻译部分)

提供单位

中国科学院计算技术研究所

语种

汉语—英语

领域

两种评测语料,一种是篇章语料,一种是对话语料。领域是通用领域和奥运的相关领域,其中奥运领域包括体育赛事、天气预报、交通住宿、旅游餐饮等。

规模

汉英评测数据含400句对话语料,308句篇章语料。英汉评测数据含400句对话语料,310句篇章语料。每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。

说明

2004863机器翻译评测汉英、英汉部分测试数据。

HTRDP(863)2003 MT Evaluation Data

 

2003-863-004

名称

2003863机器翻译评测数据(英汉/汉英机器翻译部分)

提供单位

中国科学院计算技术研究所

语种

汉语—英语

领域

奥运相关领域,其中奥运领域包括体育赛事、天气预报、交通住宿、旅游餐饮等。

规模

汉英评测数据含437句对话语料和169句篇章语料;英汉评测数据含496句对话语料和322句篇章语料。每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。

说明

2003863机器翻译评测汉英、英汉部分测试数据。

CWMT2008 Machine Translation Evaluation Data

 

CLDC-2009-001

CLDC-2009-002

名称

CWMT2008机器翻译评测新闻语料(英汉/汉英机器翻译部分)

提供单位

中国科学院计算技术研究所

语种

汉语—英语

领域

新闻

规模

汉英评测数据含1006句对;英汉评测数据含1000句对。每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。

说明

 

CWMT2009 Machine Translation Evaluation Data

名称

CWMT2009机器翻译评测数据(英汉/汉英机器翻译部分)

提供单位

中国科学院计算技术研究所

语种

汉语—英语

领域

新闻

规模

汉英评测数据含1003句对;英汉评测数据含1002句对。每个翻译方向的每个测试句子各提供4个人工翻译的参考译文。

说明

 

CWMT2011 Machine

Translation Evaluation Data

名称

CWMT2011机器翻译评测数据(英汉机器翻译部分)

提供单位

中国科学院计算技术研究所

语种

英语—汉语

领域

新闻

规模

英汉评测数据含3187句对。每个测试句子各提供4个人工翻译的参考译文。

说明

 

NJU-newsdev2017-enzh

 

NJU-newsdev2017-zhen

名称

南京大学CWMT2017汉英/英汉新闻语料开发集数据

提供单位

南京大学

语种

汉语—英语

领域

新闻

规模

2,002句对

说明

包含1000个汉语新闻句子及其英语翻译结果,以及1002个英语新闻句子及其汉语翻译结果。

1.2       单语新闻数据

XMU-CWMT2017

名称

厦门大学NLP实验室新华网新闻汉语单语语料(2017

提供单位

厦门大学

语种

汉语

领域

新闻

规模

现语料库共有662,904个文章,大约1100万词汇。

说明

本资源由厦门大学NLP实验室收集,包括新华网2011年不同主题频道的新闻语料,例如:国内新闻,国际新闻,财经新闻,论坛,教育等。

每篇文章包含:标题,日期,URL和内容。

1.3       开发集数据

NJU-newsdev2018-enzh

 

NJU-newsdev2018-zhen

名称

南京大学CWMT2018汉英/英汉新闻语料开发集数据

提供单位

南京大学

语种

汉语—英语

领域

新闻

规模

2,001句对

说明

包含1000个汉语新闻句子及其英语翻译结果,以及1001个英语新闻句子及其汉语翻译结果。

2        蒙汉日常用语项目数据

2.1       训练数据

IMU-CWMT2013

 

CLDC-2010-005

名称

内蒙古大学汉蒙平行语料库(2013

提供单位

内蒙古大学

语种

汉语—蒙古语

领域

政府文献和法律法规、日常对话、文学

规模

104,975句对

其中:CWMT2011评测训练语料67274句对,领域包括: 日常对话、文学、政府文献和法律法规;

CWMT 2015新增训练语料:包括新闻语料17,516句对,政府文献语料10,394句对,课本语料5,052句对,蒙汉字典语料4,739句对;

说明

 

IMU-CWMT2015

名称

内蒙古大学汉蒙平行语料库(2015

提供单位

内蒙古大学

语种

汉语—蒙古语

领域

政府文献和法律法规、日常对话、文学

规模

24,978句对

说明

 

IIM-CWMT2015

名称

中国科学院合肥智能机械研究所蒙汉双语语料库(2015

提供单位

中国科学院合肥智能机械研究所

语种

蒙古语—汉语

领域

新闻

规模

1,682句对

说明

 

ICT-MC-corpus-CWMT2017

名称

中国科学院计算技术研究所蒙汉双语语料库(2017

提供单位

中国科学院计算技术研究所

语种

蒙古语—汉语

领域

新闻

规模

30,007句对

说明

 

IMU-corpus-CWMT2017

名称

内蒙古大学蒙汉双语语料库(2017

提供单位

内蒙古大学

语种

蒙古语—汉语

领域

综合,包括:政府文件,政府工作报告,国务院文件,法律法规等

规模

100,001句对

说明

 

IMU-dev-mnzh -CWMT2017

名称

内蒙古大学CWMT2017蒙汉开发集数据

提供单位

内蒙古大学

语种

蒙古语—汉语

领域

政府文献和法律法规、日常对话、文学

规模

1,000句蒙古语,每句4个汉语参考译文

说明

CMWT2017蒙汉开发集与CWMT2011CWMT2013CWMT2015蒙汉开发集相同

2.2       开发集数据

IMU-dev-mnzh -CWMT2018

名称

内蒙古大学CWMT2018蒙汉开发集数据

提供单位

内蒙古大学

语种

蒙古语—汉语

领域

政府文献和法律法规、日常对话、文学

规模

1,001句蒙古语,每句4个汉语参考译文

说明

CMWT2018蒙汉开发集数据为CWMT2017蒙汉测试集数据

3        藏汉政府文献相关资源

3.1       训练数据

QHNU-CWMT2013

名称

青海师范大学藏汉平行语料库(2013

提供单位

青海师范大学

语种

藏语—汉语

领域

政府文献领域

规模

33,145句对

说明

该平行语料库是通过录入、扫描、网页下载等方式获得的。双语平行的搜集、整理、确认、获取、句子对齐等过程是通过程序自动实现和人工干预实现的。语料库的正确率在99%以上。

该研究得到国家自然科学基金项目(编号:61063033)和973前期研究专项(编号:2010CB334708)的支持。

QHNU-CWMT2015

名称

青海师范大学藏汉平行语料库(2015

提供单位

青海师范大学

语种

藏语—汉语

领域

政府文献领域

规模

17,194句对

说明

该平行语料库是通过录入、扫描、网页下载等方式获得的。双语平行的搜集、整理、确认、获取、句子对齐等过程是通过程序自动实现和人工干预实现的。语料库的正确率在99%以上。

该研究得到国家自然科学基金项目(编号:61063033)的支持。

XBMU-XMU

名称

央金藏汉平行语料库

提供单位

厦门大学人工智能研究所

西北民族大学语言(技术)研究所

语种

汉语藏语

领域

综合领域

规模

52,078句对

说明

1)该藏汉平行语料库是用正式出版物、藏汉大词典和网络语料藏汉对照文本,经使用自主开发的藏汉句子对齐工具初步对齐之后,由人工逐句对齐。

2)5万句对藏汉平行语料的对齐正确率为100%

3)该研究得到国家社科基金重点项目《藏语语料库建设研究》(批准号:05AYY001)和863重点项目《面向跨语言搜索的机器翻译关键技术研究》(批准号:2006AA010107)的支持。

XBMU-XMU- UTibet

名称

西北民族大学、西藏大学与厦门大学藏汉语料(2012

提供单位

西北民族大学语言(技术)研究所

西藏大学

厦门大学人工智能研究所

语种

汉语藏语

领域

政论,法律

规模

24,159句对

说明

语料来源:2008年和2009年全国最新法律文件和十八大报告、20112012年政府工作报告等,政论类与法律类语料各占一半。系西北民族大学、西藏大学与厦门大学于2012年通过对原材料进行扫描、识别、校对并独立加工完成。

ICT-TC-corpus-CWMT2017

名称

中国科学院计算技术研究所藏汉双语语料库(2017

提供单位

中国科学院计算技术研究所

语种

藏语—汉语

领域

新闻

规模

30,004句对

说明

 

QHNU-dev-tizh- CWMT2017

名称

青海师范大学CWMT2017藏汉开发集数据

提供单位

青海师范大学

语种

藏语—汉语

领域

政府文献

规模

650句藏语,每句4个汉语参考译文

说明

CMWT2017藏汉开发集与CWMT2011CWMT2013CWMT2015藏汉开发集相同

3.2       开发集数据

QHNU-dev-tizh- CWMT2018

名称

青海师范大学CWMT2018藏汉开发集数据

提供单位

青海师范大学

语种

藏语—汉语

领域

政府文献

规模

729句藏语,每句4个汉语参考译文

说明

CMWT2018藏汉开发集数据为CWMT2017藏汉测试集数据

4        维汉新闻相关资源

4.1       训练数据

XJU-CWMT2013

 

CLDC-2013-002

名称

新疆大学维汉双语句子对齐语料库(2013

提供单位

新疆大学

语种

汉语—维吾尔语

领域

新闻

规模

79,935句对

说明

 

XJIPC-CWMT2015

名称

中国科学院新疆理化技术研究所维汉双语语料库(2015

提供

单位

中国科学院新疆理化技术研究所

语种

汉语—维吾尔语

领域

新闻

规模

59,990句对

说明

此语料在CWMT 2013年的基础上新增加约3万句对

语料比例:2007-2014年媒体新闻类语料比例约占95%2012-2014年政府报告类语料和法律法规类语料合计比例约占5%

语料来源:系中国科学院新疆理化技术研究所在2012-2014年间采集、标注、校对完成。

ICT-UC-corpus-CWMT2017

名称

中国科学院计算技术研究所维汉双语语料库(2017

提供单位

中国科学院计算技术研究所

语种

维吾尔语—汉语

领域

新闻

规模

30,071句对

说明

 

XJU-corpus-CWMT2017

名称

新疆大学维汉双语平行语料库(2017

提供单位

新疆大学

语种

维吾尔语—汉语

领域

新闻

规模

152,527句对

说明

 

XJIPC-corpus-CWMT2017

名称

中国科学院新疆理化技术研究所维汉双语语料库(2017

提供单位

中国科学院新疆理化技术研究所

语种

维吾尔语—汉语

领域

新闻

规模

30,000句对

说明

 

XJU-dev-uyzh-CWMT2017

名称

新疆大学CWMT2017维汉开发集数据

提供单位

新疆大学

语种

维吾尔语—汉语

领域

新闻

规模

700句维语,每句4个汉语参考译文

说明

CMWT2017维汉开发集与CWMT2011CWMT2013CWMT2015维汉开发集相同

XJIPC-corpus-CWMT2018

名称

中国科学院新疆理化技术研究所维汉双语语料库(2018

提供单位

中国科学院新疆理化技术研究所

语种

维吾尔语—汉语

领域

新闻

规模

50,000句对

说明

 

4.2       开发集数据

XJU-dev-uyzh-CWMT2018

名称

新疆大学CWMT2018维汉开发集数据

提供单位

新疆大学

语种

维吾尔语—汉语

领域

新闻

规模

1000句维语,每句4个汉语参考译文

说明

CMWT2018维汉开发集数据为CWMT2017维汉测试集数据

5        日英专利领域多语言机器翻译相关资源

5.1       训练数据

Lingosail-train-zhjp-CWMT2018

名称

北京语智云帆科技有限公司日汉专利平行语料库(2018

提供单位

北京语智云帆科技有限公司

语种

日语—汉语

领域

综合

规模

3,000,000句对

说明

该数据更新了2017版的日汉专利平行数据

Lingosail-train-enzh-CWMT2018

名称

北京语智云帆科技有限公司英汉专利平行语料库(2018

提供单位

北京语智云帆科技有限公司

语种

英语—汉语

领域

综合

规模

3,000,000句对

说明

 

5.2       开发集数据

Lingosail-dev-jpzh-CWMT2017

名称

北京语智云帆科技有限公司日汉双语开发集数据(2017

提供单位

北京语智云帆科技有限公司

语种

日语—汉语

领域

综合

规模

3000句日语,每句含一个汉语参考译文

说明

CWMT2017日汉专利领域翻译开发集数据

Lingosail-dev-enzh-CWMT2018

名称

北京语智云帆科技有限公司英汉双语开发集数据(2018

提供单位

北京语智云帆科技有限公司

语种

英语—汉语

领域

综合

规模

3000句英语,每句含一个汉语参考译文

说明

 

Lingosail-dev-jpzh-CWMT2018

名称

北京语智云帆科技有限公司日汉双语开发集数据(2018

提供单位

北京语智云帆科技有限公司

语种

日语—汉语

领域

综合

规模

3000句日语,每句含一个汉语参考译文

说明

 

Lingosail-dev-enjp-CWMT2018

名称

北京语智云帆科技有限公司英日双语开发集数据(2018

提供单位

北京语智云帆科技有限公司

语种

英语—日语

领域

综合

规模

3000句英语,每句含一个日语参考译文

说明

 

5.3       汉语专利数据

Lingosail-cn_for_lm-CWMT2017

名称

北京语智云帆科技有限公司汉语专利语料(2017

提供单位

北京语智云帆科技有限公司

语种

汉语

领域

综合

规模

7,114,700句对

说明

CWMT2017日汉专利领域翻译汉语单语数据

6        汉英/英汉多领域机器翻译质量评估相关资源

6.1       训练数据

Lingosail-train-enzh-qe-CWMT2018

名称

北京语智云帆科技有限公司英汉多领域机器翻译质量评估语料库(2018

提供单位

北京语智云帆科技有限公司

语种

英语—汉语

领域

时政、经济、文化、科技等领域

规模

12,974句对

说明

子训练集由四个文件组成包括由逐行对应的源语言文件train. source、译文文件train. target、对译文进行人工译后编辑的文件train.pe每行为一个句子以及待评估译文的HTER值文件train.hter每行为一个区间[0,1]的数值。

Lingosail-train-zhen-qe-CWMT2018

名称

北京语智云帆科技有限公司汉英多领域机器翻译质量评估语料库(2018

提供单位

北京语智云帆科技有限公司

语种

汉语—英语

领域

时政、经济、文化、科技等领域

规模

8,946句对

说明

子训练集由四个文件组成,包括由逐行对应的源语言文件train.source、译文文件train.target、对译文进行人工译后编辑的文件train.pe,每行为一个句子;以及待评估译文的HTER值文件train.hter,每行为一个区间[0,1]的数值。

6.2       开发集数据

Lingosail-dev-enzh-qe-CWMT2018

名称

北京语智云帆科技有限公司英汉多领域机器翻译质量评估开发集数据(2018

提供单位

北京语智云帆科技有限公司

语种

英语—汉语

领域

时政、经济、文化、科技等领域

规模

1000句英语,每句含一个汉语参考译文

说明

开发集由四个文件组成包括由逐行对应的源语言文件dev. source、译文文件dev. target、对译文进行人工译后编辑的文件dev.pe每行为一个句子以及待评估译文的HTER值文件dev.hter每行为一个区间[0,1]的数值。

Lingosail-dev-zhen-qe-CWMT2018

名称

北京语智云帆科技有限公司汉英多领域机器翻译质量评估开发集数据(2018

提供单位

北京语智云帆科技有限公司

语种

汉语—英语

领域

时政、经济、文化、科技等领域

规模

1000句汉语,每句含一个英语参考译文

说明

开发集由四个文件组成包括由逐行对应的源语言文件dev. source、译文文件dev. target、对译文进行人工译后编辑的文件dev.pe每行为一个句子以及待评估译文的HTER值文件dev.hter每行为一个区间[0,1]的数值。