本实验室长期坚持进行中文分词、词性标注、命名实体识别、句法分析、指代消解等自然语言处理基本任务的研究工作。这些基础研究支持和推动了很多其他研究工作的开展,部分研究包括:
中文分词和命名实体识别 中文分词的主要难题为未登录词识别和切分歧义,而未登录词中绝大部分为命名实体。为此,我们研究了一种将层叠条件随机场(CCRFs)用于中文分词和命名实体识别的方法,有效提高了未登录词的识别效果和歧义消解能力。此外,还基于深度学习和移进规约系统进行分词处理的研究。
中文句法分析
近年来,深度学习方法提供了一种进行端到端学习的自然语言处理新思路。本实验室在积极关注和开展了相关技术在机器翻译、句法分析、自动问答等方面的研究。相关工作包括:
本实验室从1986年开始进行基于规则的日汉机器翻译的研究,研究工作先后得到国家七五攻关项目以及国家863高科技项目资金的资助,研究成果处于国内领先、某些技术达到国际先进水平。
本实验室积极开展统计机器翻译的研究工作,内容涵盖数据预处理、词对齐、翻译规则抽取、参数训练、解码器、语言模型等各个方面。涉及的语言对包括汉英、英汉、日汉、汉日等。部分研究内容如下:
智能问答系统,主要研究内容包括:
更深更广的推荐系统,主要研究内容包括:
多层次多粒度情感分析,主要研究包括:
本实验室的工作还包括利用已有技术进行其他语言问题的研究,包括古汉语资源分析、语言处理资源自动构建、特殊语言问题建模等方面。
古汉语的全词词性标注 我们利用已有技术为已分词的古汉语文献中(《左传》)所有的实词标注了词义,其主要方法如下:
中文认知属性库
网页过滤系统
论文标题自动缩写
使用knn-box开源框架对knn-mt翻译过程进行可视化演示
Adaptive kNN-MT DEMO主页kNN-MT,最近由 Khandelwal 等人提出。 (2020a),成功地将预训练的神经机器翻译 (NMT) 模型与词级别 k 最近邻 (kNN) 检索相结合,以提高翻译准确性。然而,kNN-MT 中使用的传统 kNN 算法只是简单地为每个目标 token 检索相同数量的最近邻,当检索到的邻域包含噪声时,可能会导致预测错误。我们提出了自适应 kNN-MT 来动态确定每个目标词级别 k 数。我们通过引入一个轻量级的 Meta-k 网络来实现这一点,只需几个训练样本就可以有效地训练它。在四个基准机器翻译数据集上,我们证明了所提出的方法能够有效地滤除检索结果中的噪声,并显着优于 vanilla kNN-MT 模型。更值得注意的是,在一个领域学习的 Meta-k 网络可以直接应用于其他领域并获得一致的改进,说明了我们方法的普遍性。
论文链接: Adaptive Nearest Neighbor Machine Translation交互式神经机器翻译 (INMT) 能够通过考虑人类交互来保证高质量的翻译。依赖于词法约束解码 (LCD) 的现有 IMT 系统使人类能够以灵活的翻译顺序进行翻译,而不是从左到右。然而,由于对 LCD 的依赖,它们通常在翻译效率和质量方面受到两个重大限制。在这项工作中,我们提出了一种新颖的 BiTIIMT 系统,用于交互式神经机器翻译的双语文本填充。 BiTIIMT 的关键思想是双语文本填充 (BiTI),旨在为给定的源句子在手动修改的翻译中填充缺失的片段。我们通过将此任务转换为序列到序列的任务来提出一个简单而有效的解决方案。通过这种方式,我们的系统在没有显式约束的情况下执行解码,并充分利用修改后的单词来进行更好的翻译预测。实验结果表明,BiTiIMT 在三个翻译任务上的性能明显优于最先进的基于 LCD 的 IMT。
论文链接: BiTIIMT: A Bilingual Text-infilling Method for Interactive Machine Translation机器翻译(MT)质量评估(QE)任务旨在没有参考翻译句的情况下评估机器翻译句子的质量。QE在机器翻译领域有很多重要的应用,例如辅助人工译员进行机器翻译句子的后编辑工作、指导翻译模型解码过程、过滤低质量平行语料等。在本项目中我们开发了QE可视化平台,本平台主要包含以下几个功能:QE模型推理结果的可视化展示,QE数据的多种可视化标注方案,QE相关数据的可视化分析。我们期望这些功能可以为QE的现实应用提供便利,促进QE社区的发展。QE模型推理结果的可视化展示,可以帮助研究者分析翻译结果或提示译员需要进行修改的位置。QE数据标注方案可以帮助缓解QE领域标注数据稀缺的问题。QE相关数据的可视化分析则可以帮助研究者在训练前了解数据分布以便设计QE方法、在训练后分析方法的优缺点以便对方法进行调优。
江苏省南京市栖霞区仙林大道163号
南京大学仙林校区机关603号信箱计算机系
Contact:陈家骏 教授
Phone: +86-025-89683672
Office: 计算机科学与技术系904
Email: chenjj@nju.edu.cn