咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习融合语句特征的汉语有标复句语料库的构建 收藏
基于深度学习融合语句特征的汉语有标复句语料库的构建

基于深度学习融合语句特征的汉语有标复句语料库的构建

作     者:徐梦 

作者单位:华中师范大学 

学位级别:硕士

导师姓名:杨进才

授予年度:2023年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:汉语有标复句 特征融合 插入语 文本分类 

摘      要:有标复句在汉语中占重要地位,是汉语复句研究中不可或缺的部分。判别一个句子是否为有标复句首先需要判别是否为复句,其次判断句中是否含有关系标记。而对关系标记的直接识别是复句研究的一个难题。本文将有标复句的识别当成二分类任务,使用深度学习模型与特征融合对汉语有标复句进行自动识别,在此基础上,构建有标复句语料库并且对语料库中的复句进行插入语的识别。针对汉语有标复句识别难的问题,提出了一种基于BERT-Text CNN模型融合依存句法特征的方法。从句子的依存句法树中获取句子的句法结构以及句子各成分之间的语义依赖关系,通过依存句法树在不同词之间建立起的语法联系来获取上下文信息。使用BERT词向量与依存句法特征向量融合,更好地获得文本的嵌入层表示,编码层使用基于文本的Text CNN网络,能更好的实现文本的特征提取,从而提高识别的准确率。插入语是句中常见的独立成分,但不属于复句的分句,在对复句句式数的标注时需要将插入语排除。本文提出了基于改进Transformer模型融合Soft Lexicon特征的方法进行汉语插入语的识别,加入Soft Lexicon特征进行词汇增强,弥补传统命名实体识别任务基于字粒度而不考虑字符在词汇中的语义表达的缺点。实验将BERT预训练的词向量和依存句法特征向量结合进行汉语有标复句的识别,F1值达到了99.46%。将BERT预训练的词向量和Soft Lexicon词汇增强向量结合进行汉语插入语的识别,F1值达到了91.8%。实验结果表明添加特征的模型比不添加特征模型的F1值要高。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分