Welcome | NJU NLP

工作介绍

文本分析技术

基于端到端学习的自然语言处理

规则机器翻译

统计机器翻译

智能问答系统

推荐系统

情感分析

其他语言问题研究

本实验室长期坚持进行中文分词、词性标注、命名实体识别、句法分析、指代消解等自然语言处理基本任务的研究工作。这些基础研究支持和推动了很多其他研究工作的开展，部分研究包括：

中文分词和命名实体识别中文分词的主要难题为未登录词识别和切分歧义，而未登录词中绝大部分为命名实体。为此，我们研究了一种将层叠条件随机场（CCRFs）用于中文分词和命名实体识别的方法，有效提高了未登录词的识别效果和歧义消解能力。此外，还基于深度学习和移进规约系统进行分词处理的研究。
- 分词评测：在Sighan 2005 北京大学语料上的开放测试F1值第二；
- 命名实体评测：在Sighan 2006 MRSA语料上的封闭测试F1值第一，开放测试第二；
- 2012年NLPCC组织的微博分词评测第一名。
中文句法分析
- 研究利用大间隔(large margin)、层次化、神经网络、全局优化等方法建模、改进和优化组块、句法分析等问题的方法；
- 2009年中文信息学会组织的句法分析评测，“事件单元识别”项目评测中，close测试第一名。利用马尔科夫逻辑网络解决指代消解问题；
- 传统指代消解的分析处理大多采用基于二元分类的模型，缺乏全局的推理能力，或仅使用了少量的全局信息。我们采用具有全局推理能力的马尔科夫逻辑网络进行全局推理，并进一步应用归纳逻辑编程(ILP)学习马尔科夫逻辑网络结构的方法。

在线演示

kNN机器翻译

交互式机器翻译

机器翻译质量评估

神经机器翻译

knn-box 可视化主页

使用knn-box开源框架对knn-mt翻译过程进行可视化演示

Adaptive kNN-MT DEMO主页

kNN-MT，最近由 Khandelwal 等人提出。 (2020a)，成功地将预训练的神经机器翻译 (NMT) 模型与词级别 k 最近邻 (kNN) 检索相结合，以提高翻译准确性。然而，kNN-MT 中使用的传统 kNN 算法只是简单地为每个目标 token 检索相同数量的最近邻，当检索到的邻域包含噪声时，可能会导致预测错误。我们提出了自适应 kNN-MT 来动态确定每个目标词级别 k 数。我们通过引入一个轻量级的 Meta-k 网络来实现这一点，只需几个训练样本就可以有效地训练它。在四个基准机器翻译数据集上，我们证明了所提出的方法能够有效地滤除检索结果中的噪声，并显着优于 vanilla kNN-MT 模型。更值得注意的是，在一个领域学习的 Meta-k 网络可以直接应用于其他领域并获得一致的改进，说明了我们方法的普遍性。

论文链接: Adaptive Nearest Neighbor Machine Translation

工作介绍

在线演示

联系我们