基于事件异构图表示的文本去重算法
Text Deduplication Algorithm Based on Event Heterogeneous Graph Representation作者机构:中南林业科技大学计算机与信息工程学院湖南长沙410018
出 版 物:《湖南大学学报(自然科学版)》 (Journal of Hunan University:Natural Sciences)
年 卷 期:2023年第50卷第2期
页 面:74-85页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学]
摘 要:基于图结构的文本表示方法在新闻文本去重中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本的去重效果.为此,本研究提出基于事件异构图表示的文本去重算法,该算法首先通过事件异构图表示新闻文本的全局语义与结构信息,然后提出双标签图核算法表征事件异构图,实现深度表征图的结构及语义信息.实验结果表明,该研究提出的去重算法比现有的基于图结构的文本表示去重方法在F1-score指标上提升了10%.最后,该算法能提高新闻文本的去重效果.