咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于Transformer模型的古籍自动标点技术 收藏
数字人文

一种基于Transformer模型的古籍自动标点技术

作     者:洪涛 程瑞雪 刘思汐 方凯齐 

作者机构:古联(北京)数字传媒科技有限公司 

出 版 物:《数字人文》 (Digital Humanities)

年 卷 期:2021年第2期

页      面:111-122页

学科分类:0501[文学-中国语言文学] 050103[文学-汉语言文字学] 05[文学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主  题:古籍 自然语言处理 自动标点 机器学习 深度学习 

摘      要:人工加注古籍文献标点符号,即对无标点符号的古籍文献进行现代标点符号填充。但古籍数量庞大,人工加注费时费力。随着人工智能(AI)的兴起,基于深度学习实现自动标点工作可以减轻人工的繁重负担。本方法使用基于多头注意力机制的端到端Transformer模型作为训练模型,使用正规出版的10亿字古籍语料进行训练。模型在验证集上的标点F1为86.5%,断句F1为95.1%。随后在未训练的语料中抽取19本书作为测试集,结果显示,模型对古典文言文语料预测结果较好;对专业性较强和白话文占比较多的语料则效度较低。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分