面向开放音乐领域知识图谱自动构建的关键技术研究
作者单位:山东师范大学
学位级别:硕士
导师姓名:闫伟
授予年度:2024年
学科分类:13[艺术学] 1302[艺术学-音乐与舞蹈学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:自然语言处理 命名实体识别 关系抽取 深度学习 音乐知识图谱
摘 要:当前,音乐领域信息分布广泛,存在信息碎片化和数据孤岛的问题,导致用户难以获取全面准确的音乐信息。构建音乐知识图谱可以整合各种来源的音乐数据,为用户提供全面准确的音乐知识服务,满足用户需求。基于知识图谱的系统和应用为音乐产业提供重要的数据基础和技术支持,推动产业发展。 然而,自动构建音乐知识图谱面临诸多挑战。音乐领域语义信息丰富,数据格式、结构和质量各异,需要有效整合和提取不同数据源的信息,完成数据集成和标准化。实体关系复杂多样,表达形式多变,边界模糊且存在大量隐性关系,增加了信息抽取的难度。此外,音乐领域涉及丰富的专业知识和领域专有名词,需要考虑专业性和复杂性。针对上述问题,本文拟从自然语言理解中的命名实体识别与关系抽取任务出发,完成音乐知识图谱的自动构建。 音乐领域的数据来源多样,标注的成本较高,因此国内缺乏公开的数据集,影响后续模型的训练,本文通过数据挖掘以及自然语言预处理等相关技术对网络中存在的音乐文本进行处理,分别构建了面向音乐领域的命名实体识别以及关系抽取数据集。围绕音乐命名实体识别任务,本文提出了基于深度学习的LERT-TDCNN-BILSTM-CRF模型,以端到端的方式从原始文本数据中学习特征表示,提升了模型的泛化能力。通过不同层次抽取文本特征,更好地捕获了音乐命名实体的语义和上下文信息。与先前的方法相比,提高了命名实体识别的准确性和效率。本文还构建了一个面向开放中文音乐领域的命名实体识别在线平台,可通过输入中文音乐文本,输出相应的实体类别。针对音乐关系抽取任务,本文提出了LERT-BIGRU-CNN-ATTENTION模型,更好地融合了局部以及全局的信息,同时在数据集中添加了位置标识符,突出实体的位置信息。实验的结果表明本文所提出的方法提高了关系抽取任务的性能。在添加位置标识符后实验的性能更好,表明实体的位置信息在关系分类任务中具有举足轻重的作用。 综上,本文提出了一种面向开放音乐领域知识图谱自动构建框架,可整合来自不同平台、网站和数据库中的开放音乐信息,创建一个全面而一致的音乐知识库。与传统的构建方法相比更加高效与全面,同时构建的音乐知识图谱可构建接口向外界开放,使用户可自由访问、查询和扩展知识图谱的信息,推动音乐相关应用的开发与推广。