篇章级的名词短语指代消解研究
作者单位:新疆大学
学位级别:硕士
导师姓名:田生伟
授予年度:2020年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:指代消解 待消解项识别 独立循环神经网络 CNN 注意力机制
摘 要:指代是自然语言中的一种常见现象,能够简化文章,突出主题,增加文章的连贯性。指代消解有助于机器处理和理解篇章,同时在自动文摘、信息抽取、问答系统和机器翻译等多个自然语言处理领域中应用广泛。随着对篇章级文本研究的不断增强,指代消解成为了一大研究热点。目前针对指代消解的研究主要是围绕中英文语料展开,并且利用上下文信息对篇章级文本的研究较少。因此,针对维吾尔语料进行了篇章级的名词指代消解进行以下几个方面的研究工作:(1)收集整理语料。通过对有关指代消解语料的研究,在维吾尔语语言学专家的指导下对维吾尔语语料的来源和题材进行了严格的选择,同时根据以往研究者对语料的标注规则结合维吾尔语的特点,进行了相关词性,句法等方面的标注。(2)针对维吾尔语进行名词和名词短语的待消解项识别,提出一种基于交互注意力和胶囊神经网络的待消解项识别模型即LAC模型。首先根据以往研究者的经验分别提取包含待消解项词性的语义信息特征和包含待消解项句法的语义信息特征,利用交互注意力机制将这两种特征进行融合再加入提取的12项规则特征。最后输入到胶囊网络对特征进行处理,进而完成维吾尔语名词的待消解项识别任务。(3)提出了一种利用独立循环神经网络(Ind RNN)和卷积神经网络(CNN)相结合,实现基于篇章级的名词指代消解任务的模型。根据维吾尔语的语法规则信息,提取了17种规则特征,同时在规则特征中加入名词的语义信息。使用注意力机制计算特征与消解结果的关联度并与特征进行结合,再分别输入到独立循环神经网络得到具有更长时间序列的全局特征和卷积神经网络得到更加有代表性的局部特征,最后将得到的两种结果进行融合,并使用softmax进行分类。使用名词的语义信息和独立循环神经网络可以很好的得到名词在篇章中的位置和作用,进而避免了在文章过长时导致无法明确识别指代链信息。并在对比实验中取得较好的效果,其准确率P为87.23%,召回率R达到88.80%,F值达到88.04%。