咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融入夸张表征的中文反讽识别方法 收藏

融入夸张表征的中文反讽识别方法

作     者:李书羽 朱广丽 李嘉伟 段文杰 周若彤 张顺香 

作者机构:安徽理工大学计算机科学与工程学院 合肥综合性国家科学中心人工智能研究院 淮南师范学院计算机学院 

出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)

年 卷 期:2024年

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金面上项目(项目编号:62076006) 认知智能全国重点实验室开放课题(项目编号:COGOS-2023HE02) 安徽高校协同创新项目(项目编号:GXXT-2021-008)的研究成果之一 

主  题:中文反讽领域词典 夸张表征 RoBERTa-wwm-ext 多头注意力机制 

摘      要:[目的] 为解决中文反讽短文本中存在的特征稀疏问题,本文提出一种融入夸张表征的中文反讽识别方法,挖掘短文本中的夸张表征以提升中文反讽识别准确率。 [方法] 首先,通过点互信息和语义相似度计算分别获取与反讽领域相关的共现词对集、感叹词集与程度副词集,合并上述词集来构建夸张表征词典;然后,通过正则表达式匹配反讽文本得到特殊标点符号序列并经独热编码获得特殊标点符号特征,采用RoBERTa-wwm-ext模型获取文本语义特征,利用WoBERT模型将夸张表征词典内的词及词对转化为动态词向量以获取夸张表征;最后改进多头注意力机制来同时关注文本语义特征、夸张表征以及特殊标点符号特征,经softmax函数得到识别结果。 [结果] 本文将公开的Ciron和ChineseSarcasm-Corpus数据集合并后进行了实验,准确率达到了81.49%,F1值达到了81.24%。 [局限] 构建的夸张表征词典依赖语料质量,导致在本文数据集上构建的词典泛化能力有限。 [结论] 该方法通过挖掘中文反讽短文本中存在的夸张表征,并结合文本语义信息,有效丰富文本语义表示,提升了中文反讽识别任务的准确率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分