咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于置信度的Active-BiLSTM-CRF中文层级地址分... 收藏

基于置信度的Active-BiLSTM-CRF中文层级地址分词方法

Active-BiLSTM-CRF With Confidence for Chinese Address Segmentation

作     者:侯位昭 张欣海 宋凯磊 韩志卓 张世立 HOU Wei-zhao;ZHANG Xin-hai;SONG Kai-lei;HAN Zhi-zhuo;ZHANG Shi-li

作者机构:中国电子科技集团公司第五十四研究所河北石家庄050081 河北远东通信系统工程有限公司河北石家庄050200 中国电子科学研究院北京100041 社会安全风险感知与防控大数据应用国家工程实验室北京100041 

出 版 物:《中国电子科学研究院学报》 (Journal of China Academy of Electronics and Information Technology)

年 卷 期:2021年第16卷第7期

页      面:639-644,660页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划资助项目(2017YFC0820505) 

主  题:主动学习 置信度 地址分词 双向长短时记忆网络 条件随机场 地址分词标注 

摘      要:中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点。高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现。为解决上述问题,文中提出基于置信度的双向长短时记忆和条件随机场主动学习混合模型(Active-BiLSTM-CRF)来构建地址词库,创新性的基于CRF模型在样本上的置信度高效筛出需要标注的关键地址样本,利用BiLSTM记忆地址的上下文信息,通过CRF的转移概率矩阵控制地址标注输出的能力,循环标注并训练模型。最后基于某区县户籍地址数据验证了该方法在有限标注成本下的准确率及召回率,实验显示当标记数据占比在20%时,Active-BiLSTM-CRF模型准确率能达到97.71%,召回率能达到97.34%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分