基于阅读理解的汉越跨语言新闻事件要素抽取方法
Chinese-Vietnamese Cross Language News Event Element Extraction of via Machine Reading Comprehension作者机构:昆明理工大学信息工程与自动化学院云南昆明650500 昆明理工大学云南省人工智能重点实验室云南昆明650500
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2024年第38卷第6期
页 面:86-95页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(U21B2027,U23A20388,62266028) 云南省重大科技专项计划项目(202302AD080003,202202AD080003,202303AP140008) 云南省基础研究重点项目(202301AS070047) 昆明理工大学“双一流”创建联合专项(202201BE070001-021)
主 题:新闻事件要素抽取 长文本语义建模 跨语言知识迁移 阅读理解
摘 要:新闻事件要素抽取旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等。传统的事件要素抽取方法在资源稀缺型语言上性能欠佳,且对长文本语义建模困难。对此,该文提出了基于阅读理解的汉越跨语言新闻事件要素抽取方法。该方法首先利用新闻长文本关键句检索模块过滤含噪声的句子。然后利用跨语言阅读理解模型将富资源语言知识迁移到越南语,提高越南语新闻事件要素抽取的性能。在自建的汉越双语新闻事件要素抽取数据集上的实验验证了该文方法的有效性。