基于深度学习的课程多模态知识图谱构建方法研究
作者单位:东北电力大学
学位级别:硕士
导师姓名:王敬东
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:深度学习 课程知识图谱 命名实体识别 关系抽取 注意力机制
摘 要:随着互联网教育的兴起,学习者面对海量课程知识感到迷茫,无法将知识串联,课程知识图谱解决了这一问题。它结构化和组织知识,促进资源共享,提高学习者查找、理解和分享资源的便利性。知识图谱的构建涉及到多模态数据、大规模数据等复杂情况,而深度学习模型具有处理这些复杂数据的能力,可以更好地处理数据,从而构建更加全面和丰富的课程知识图谱。但是目前构建知识图谱主流算法模型精度还不够高,导致实体识别和关系抽取的准确率还有提高空间,并且关于课程知识图谱的模态较为单一。针对以上问题,本文的主要研究如下: (1)提出一种融合“注意力机制的BERT-BILSTM-ACRF命名实体识别方法。首先选取BERT模型作为嵌入层,对文本进行向量化处理,通过双向长短期记忆网络获取字符位置信息,其次经过注意力机制进一步寻找字符序列内部联系,最终通过条件随机场模型解码得到最终的最优序列。为了检验本文改进模型的性能,将该模型应用到大学课程教材《数据结构》数据集上进行实验,结果达到了98.97%的F1值和98.14%的准确率,为接下来的实体关系抽取打好基础。 (2)提出一种基于改进的BERT-Bi GRU-Ratt模型关系抽取方法。通过预训练语言模型将获得的向量化文本送入关系词注意力层,对不同字符赋予不同权值。利用双向门控循环单元对不同句子的信息进行编码得到句子特征。最后,应用注意力机制再次对所有信息进行特征学习,获取最终的文本信息。经过在手动标注的大学课程《数据结构》数据集上实验得到较为理想结果。其中,准确率为84.61%,召回率为89.34%,F1值达到84.35%,相比较BERT-Bi LSTM-Att和BERT-Bi GRU-Att模型,准确率提高3.4%和2.1%,召回率提高6.2%和3.9,F1值提高2.9%和3.2%。 (3)多模态实体链接并构建课程知识图谱。识别出来的实体之间的关系进行整理并存入Neo4j图数据库中,并加入教师授课语音结点,通过语音转文本技术、数据处理等过程后,将语音文本与课程文本进行实体链接,构建出教育领域的课程多模态知识图谱,并将知识图谱进行可视化展示。 本文以基于深度学习的方法构建课程知识图谱,便于学习者在海量的教育资源中找到学习方向,有利于学习者分析总结课程知识点之间的联系,对于学习者来说可以提升学习体验,带来便捷性。