咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Bootstrapping的家谱文本信息抽取方法研究 收藏

基于Bootstrapping的家谱文本信息抽取方法研究

A Bootstrapping-based Information Extraction Method for Genealogy Text

作     者:鲍宸洋 任明 Bao Chenyang;Ren Ming

作者机构:中国人民大学信息资源管理学院北京100872 

出 版 物:《图书馆杂志》 (Library Journal)

年 卷 期:2022年第41卷第2期

页      面:93-102页

核心收录:

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:中央高校基本科研经费中国人民大学科研基金项目“领域知识图谱构建及其在数字人文中的应用”(项目编号:19XNA009)的研究成果之一。 

主  题:家谱文本 信息抽取 深度学习 Bootstrapping BiLSTM-CRF 

摘      要:实现家谱文本信息的自动抽取是家谱资源深度开发利用的关键。目前深度学习在家谱文本信息抽取方面取得了良好的效果,但是对标注数据的依赖始终是其发展瓶颈之一。本文面向家谱的世系小传,研究基于小规模标注数据进行家谱人物和关系的抽取方法。具体来说:基于Bootstrapping的思想,以少量的标注数据作为初始种子集,使用深度学习BiLSTM-CRF模型为待标注样本自动预测标签序列,并筛选高置信分数的样本加入标注集中,从而迭代地扩展标注集,最后训练得到的模型用于命名实体识别和关系抽取。基于真实数据集的实验表明,使用Bootstrapping改进的BiLSTM-CRF模型能够基于小规模标注数据实现家谱信息抽取,使基于深度学习的家谱信息抽取更加高效。在种子集规模为250条时取得的预测效果与训练集规模为1800条的BiLSTM-CRF模型的预测效果接近。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分