咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的实体关系抽取算法的研究与实现 收藏
基于深度学习的实体关系抽取算法的研究与实现

基于深度学习的实体关系抽取算法的研究与实现

作     者:宋雨霏 

作者单位:北京邮电大学 

学位级别:硕士

导师姓名:张海旸

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:实体关系联合抽取 重叠三元组问题 数据增强 深度学习 Transformer 

摘      要:大数据时代的到来在给各行各业的发展带来机遇与变革的同时,也蕴含着大量宝贵的知识财富。在这个背景下,知识图谱的提出水到渠成。知识图谱是揭示实体间关系的语义网,它能够为智能搜索、机器问答、个性化推荐等人工智能场景提供应用基础。为了满足构建大规模知识图谱的需求,面对海量数据时,如何准确有效的从非结构化的文本中提炼有效的结构化信息是当下一个重要和迫切的任务。为此信息抽取任务近年来收到领域研究者的重视,实体关系抽取任务正是其中核心任务。实体关系抽取中存在重叠三元组这一常见的复杂情况,解决各种关系重叠类型的三元组抽取、提高抽取性能是目前研究的重点。除此之外,实体关系抽取人工标注数据代价大,如何放大数据价值是一个重要的研究点,本文具体研究内容如下:第一,现有的模型忽略了完整的关系标签语义信息对三元组抽取模型的影响。本文提出了关注关系语义信息的立体三元组抽取模型,首创性的从静态动态两方面获取关系标签语义信息。静态方面是处理得到的关系标签的名称及其描述信息。动态方面是模型自动化的从与关系的相关句子中学习的先验语义知识和上下文语义信息。除此之外,为了使模型能够在三元组层面上思考问题,并更好利用关系标签语义信息,本文提出了三元组层面上的解码器。最后,本文损失函数进行了改造来缓解类别不均衡问题。实验结果表明,该模型在WebNLG和NYT两个该领域的公用数据集上取得了该领域目前最佳效果。在两个公共数据集F1值高达93.5%和94.4%,在重叠三元组等各种复杂的情况下效果突出。第二,现有的实体关系抽取领域存在标注样本数量不足质量差的问题。本文针对提出了替换、插入、交换、删除和Relation-Type五种针对于实体关系抽取任务的数据增强方法。这些方法考虑到实体类型信息和实体浅层提及信息都会对抽取结果有很大影响的本领域独有特性,针对性设计并在两个公用数据集和真实应用的数据集取得效果。其中Relation-Type方法在三个数据集上的基准模型效果增益为0.5%,0.9%和2.1%,当数据量少时效果更为突出。第三,面对海量数据,原有电影信息查询系统使用关键字匹配技术进行查询是既浪费用户时间又不够智能化的。本文构建了可视化的基于实体关系抽取的电影信息查询原型系统。用关注关系语义信息的立体三元组抽取模型构造知识图谱,Relation-Type数据增强方法丰富训练数据。通过这种方法挖掘非结构化文本中的实体和关系,获取更完整知识结构,进而为用户提供更加全面、精确的搜索结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分