咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >复杂场景下不均衡文本数据处理技术优化与应用 收藏

复杂场景下不均衡文本数据处理技术优化与应用

作     者:姜钰棋 李志远 闫钦与 陈健飞 卜凡亮 

作者机构:中国人民公安大学信息网络安全学院 

出 版 物:《计算机应用与软件》 (Computer Applications and Software)

年 卷 期:2024年

学科分类:0810[工学-信息与通信工程] 08[工学] 080401[工学-精密仪器及机械] 0804[工学-仪器科学与技术] 080402[工学-测试计量技术及仪器] 0835[工学-软件工程] 081002[工学-信号与信息处理] 

基  金:中国人民公安大学安全防范工程双一流专项(2023SYL08) 

主  题:不均衡文本数据处理 文本分类 医疗摘要文本分类 食品安全问题识别 

摘      要:针对文本数据不均衡性导致的模型性能受限以及Focal Loss函数最佳参数组合难以确定的问题,提出面向复杂长文本的多分类模型性能优化方法、跨语言场景下不均衡数据的有效处理方法,以及应对复杂多分类任务的调参策略。通过将两种数据增强技术与引入动态反馈过程进行改进的Focal Loss函数结合,对六种基于BERT框架的文本分类模型进行优化,开展三个阶段对比实验,探究各模块效能与调参策略有效性。结果显示,经过优化的BERT模型在英文五分类任务上准确率达到64.96%,比原始模型提升1.11%;经过优化的RoBERTa模型在中文二分类任务上准确率突破99.79%,比原始模型提升0.41%。实验表明,本文提出的优化方案能有效应对类别不均衡、文本复杂冗长、跨语言场景的文本多分类任务,实现在低准确率与高准确率两种极端条件下模型性能的有效提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分