工作介绍

文本分析技术
基于端到端学习的自然语言处理
规则机器翻译
统计机器翻译
智能问答系统
推荐系统
情感分析
其他语言问题研究

本实验室长期坚持进行中文分词、词性标注、命名实体识别、句法分析、指代消解等自然语言处理基本任务的研究工作。这些基础研究支持和推动了很多其他研究工作的开展,部分研究包括:

  • 中文分词和命名实体识别 中文分词的主要难题为未登录词识别和切分歧义,而未登录词中绝大部分为命名实体。为此,我们研究了一种将层叠条件随机场(CCRFs)用于中文分词和命名实体识别的方法,有效提高了未登录词的识别效果和歧义消解能力。此外,还基于深度学习和移进规约系统进行分词处理的研究。

    • 分词评测:在Sighan 2005 北京大学语料上的开放测试F1值第二;
    • 命名实体评测:在Sighan 2006 MRSA语料上的封闭测试F1值第一,开放测试第二;
    • 2012年NLPCC组织的微博分词评测第一名。
  • 中文句法分析

    • 研究利用大间隔(large margin)、层次化、神经网络、全局优化等方法建模、改进和优化组块、句法分析等问题的方法;
    • 2009年中文信息学会组织的句法分析评测,“事件单元识别”项目评测中,close测试第一名。利用马尔科夫逻辑网络解决指代消解问题;
    • 传统指代消解的分析处理大多采用基于二元分类的模型,缺乏全局的推理能力,或仅使用了少量的全局信息。我们采用具有全局推理能力的马尔科夫逻辑网络进行全局推理,并进一步应用归纳逻辑编程(ILP)学习马尔科夫逻辑网络结构的方法。

在线演示

kNN机器翻译
交互式机器翻译
机器翻译质量评估
神经机器翻译

knn-box 可视化主页

使用knn-box开源框架对knn-mt翻译过程进行可视化演示

Adaptive kNN-MT DEMO主页

kNN-MT,最近由 Khandelwal 等人提出。 (2020a),成功地将预训练的神经机器翻译 (NMT) 模型与词级别 k 最近邻 (kNN) 检索相结合,以提高翻译准确性。然而,kNN-MT 中使用的传统 kNN 算法只是简单地为每个目标 token 检索相同数量的最近邻,当检索到的邻域包含噪声时,可能会导致预测错误。我们提出了自适应 kNN-MT 来动态确定每个目标词级别 k 数。我们通过引入一个轻量级的 Meta-k 网络来实现这一点,只需几个训练样本就可以有效地训练它。在四个基准机器翻译数据集上,我们证明了所提出的方法能够有效地滤除检索结果中的噪声,并显着优于 vanilla kNN-MT 模型。更值得注意的是,在一个领域学习的 Meta-k 网络可以直接应用于其他领域并获得一致的改进,说明了我们方法的普遍性。

论文链接: Adaptive Nearest Neighbor Machine Translation