adequacy AAAI2019 | 腾讯AI Lab详解自然语言处理领域三大研究方向及入选论文

美国人工智能年会,简称AAAI,是人工智能领域的顶级国际会议。会议由AAAI协会主办,今年是第33届,于1月27日-2月1日在美国夏威夷举行。腾讯AI Lab第2次参与会议,共27篇文章入选,涵盖自然语言处理、计算机视觉、机器学习等领域。

adequacy AAAI2019 | 腾讯AI Lab详解自然语言处理领域三大研究方向及入选论文


文章图片
其中,腾讯AI Lab在自然语言处理领域,主要关注知识库与文本理解、对话和文本生成、和机器翻译这三大方向。以下为详细解读。
知识库与文本理解
在自然语言处理研究中,各种类型的知识已成为文本理解和下游任务中不可或缺的数据资源。腾讯AI Lab的多篇AAAI 2019论文关注了知识库的建模,及其在文本理解上的应用。
知识库与短文本理解
1.基于Lattice CNN的中文问答匹配方法
Lattice CNNs for Matching Based Chinese Question Answering
问答系统是普通用户使用知识库最直接的渠道。匹配用户问题这种短文本,通常面临相同语义的单词和表达方式不唯一的挑战。 中文这种还需要额外分词的语言中,这种现象尤为严重。在论文《基于Lattice CNN的中文问答匹配方法》中,研究者提出一个基于Lattice CNN的模型,利用在单词语义中多粒度的信息来更好地处理中文问答的匹配。在基于文本问答和知识库问答的实验中,实验结果表明提出的模型可以显著超过目前最好的匹配模型。

adequacy AAAI2019 | 腾讯AI Lab详解自然语言处理领域三大研究方向及入选论文


文章图片
基于Lattice CNN模型理解短文本的框架
涉及新实体的知识库嵌入
2.基于逻辑注意力邻域聚集的归纳知识图谱嵌入方法
Logic Attention Based Neighborhood Aggregation for Inductive Knowledge Graph Embedding
知识库嵌入的目的是用低维向量建模实体和关系,用于下游任务。已有方法大多要求所有实体在训练时可见,这在每天更新的知识库中是不切实际的。在论文《基于逻辑注意力邻域聚集的归纳知识图谱嵌入方法》中,研究者使用同时训练邻域聚集模型的方式来去除这种限制,并提出一种基于规则和注意力机制的聚集模型,即逻辑注意力网络。在两个知识图谱补全任务上,LAN被证明优于传统聚集模型。

adequacy AAAI2019 | 腾讯AI Lab详解自然语言处理领域三大研究方向及入选论文


文章图片
涉及新实体的链接预测任务
常识知识库与故事补全
3.结构化常识在故事补全中的应用
Incorporating Structured Commonsense Knowledge in Story Completion
为故事选择恰当的结尾可以视作通往叙述型文本理解的第一步。这不仅需要显式的线索,还需要常识知识,而绝大多数已有工作都没有显式的使用常识。在论文《结构化常识在故事补全中的应用》中,研究者提出一个整合了叙述线索、情感演变以及常识知识的神经网络模型。这个模型在公共数据集ROCStory Cloze Task上取得了最好的性能。实验结果同时显示,引入常识知识带来了显著的性能增益。

adequacy AAAI2019 | 腾讯AI Lab详解自然语言处理领域三大研究方向及入选论文


文章图片
故事和结尾中的关键词在常识知识库中的联系
对话和文本生成
近年来,随着端到端的深度神经网络的流行,对话生成及更多场景的文本生成逐渐成为自然语言处理中一个热点研究领域。其中,对话生成技术正逐渐广泛地应用于智能对话系统,帮助实现更为智能的人机交互,也可以通过自动生成新闻、财报及其它类型的文本,提高撰文者的工作效率。
在对话生成问题上,通过迁移神经机器翻译的序列到序列模型等,对话生成的效果取得了显著的进展。然而,现有的对话生成模型仍存在较多问题。首先,目前的模型大多模拟的是输入到回复一对一的映射,而实际对话数据经常是一对多的关系的训练方式,因此模型容易输出通用回复,欠缺回复多样性。其次,目前的回复生成模型缺乏对于用户背景、通用常识等知识的理解,因此如何挖掘更多有用的知识来指引回复生成是一个重要的研究问题。再次,目前多数的研究工作重点在提升单轮回复的生成之类,而缺乏对多轮对话生成的改进,多轮回复生成的质量仍较差。

推荐阅读