工作介绍

文本分析技术
基于端到端学习的自然语言处理
规则机器翻译
统计机器翻译
智能问答系统
推荐系统
情感分析
其他语言问题研究

本实验室长期坚持进行中文分词、词性标注、命名实体识别、句法分析、指代消解等自然语言处理基本任务的研究工作。这些基础研究支持和推动了很多其他研究工作的开展,部分研究包括:

  • 中文分词和命名实体识别 中文分词的主要难题为未登录词识别和切分歧义,而未登录词中绝大部分为命名实体。为此,我们研究了一种将层叠条件随机场(CCRFs)用于中文分词和命名实体识别的方法,有效提高了未登录词的识别效果和歧义消解能力。此外,还基于深度学习和移进规约系统进行分词处理的研究。

    • 分词评测:在Sighan 2005 北京大学语料上的开放测试F1值第二;
    • 命名实体评测:在Sighan 2006 MRSA语料上的封闭测试F1值第一,开放测试第二;
    • 2012年NLPCC组织的微博分词评测第一名。
  • 中文句法分析

    • 研究利用大间隔(large margin)、层次化、神经网络、全局优化等方法建模、改进和优化组块、句法分析等问题的方法;
    • 2009年中文信息学会组织的句法分析评测,“事件单元识别”项目评测中,close测试第一名。利用马尔科夫逻辑网络解决指代消解问题;
    • 传统指代消解的分析处理大多采用基于二元分类的模型,缺乏全局的推理能力,或仅使用了少量的全局信息。我们采用具有全局推理能力的马尔科夫逻辑网络进行全局推理,并进一步应用归纳逻辑编程(ILP)学习马尔科夫逻辑网络结构的方法。