咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于片段抽取原型网络的古籍文本断句标点提示学习方法 收藏

基于片段抽取原型网络的古籍文本断句标点提示学习方法

作     者:高颖杰 林民 斯日古楞 李斌 张树钧 

作者机构:内蒙古师范大学计算机科学技术学院 内蒙古民族大学计算机科学与技术学院 内蒙古师范大学文学院 

出 版 物:《计算机应用》 (Journal of Computer Applications)

年 卷 期:2024年

学科分类:0501[文学-中国语言文学] 050103[文学-汉语言文字学] 05[文学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(No.62266033) 内蒙古自然科学基金项目(No.2021LHMS06010) 内蒙古自治区科技计划项目(No.2021GG0218) 内蒙古自治区级教育部重点实验室开放课题资助(No.2023KFZD03) 内蒙古自治区硕士研究生科研创新项目(No.S20231076Z) 内蒙古师范大学基本科研业务费专项资金资助(No.2022JBXC018) 

主  题:古籍智能整理 片段抽取原型网络 提示学习 自动断句标点 深度学习 

摘      要:针对古籍信息处理中自动断句及标点任务对大规模标注语料依赖的现象,在考虑到高质量、大规模训练样本的成本昂贵且难以获取的背景下,本文提出了一种基于片段抽取原型网络的古籍文本断句标点提示学习方法。首先,本文通过对支持集加入结构化提示信息,形成有效的提示模板,以提高模型的学习效率。其次,结合标点位置提取器和原型网络分类器,有效减少了传统序列标注方法中的误判影响及非标点标签的干扰。实验结果表明,与BERT-BiGRU-CRF的方法相比,在《史记》数据集上F1值提升了2.5个百分点。此外,在公开多领域古籍数据集CCLUE上,本文方法的精确率和F1值分别达到了91.60%和93.12%,说明本方法利用少量训练样本就能对多领域古籍有效自动断句标点。因此,本研究为多领域古籍文本自动断句及标点任务的深入研究、提高模型的学习效率提供了新的思路和方法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分