咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >CFGT:一种基于词典的中文地址要素解析模型 收藏

CFGT:一种基于词典的中文地址要素解析模型

CFGT:A Lexicon-based Chinese Address Element Parsing Model

作     者:黄威 沈耀迪 陈松龄 傅湘玲 HUANG Wei;SHEN Yaodi;CHEN Songling;FU Xiangling

作者机构:北京邮电大学计算机学院(国家示范性软件学院)北京100876 可信分布式计算与服务教育部重点实验室北京100876 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2024年第51卷第9期

页      面:233-241页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(72274022) 

主  题:中文地址识别 词典强化 外部信息 命名实体识别 

摘      要:地址要素解析作为地理编码过程中的关键环节,直接影响到地理编码的准确性。由于中文地址表达的多样性和复杂性,两段相似的地址文本在地理表示上却可能完全不同。传统的通过词典匹配进行地址要素解析的方法无法较好地应对歧义词,从而导致识别准确率欠佳。文中提出一种基于词典的中文地址要素解析模型(Collaborative Flat-Graph Transformer,CFGT),利用自匹配词、最近上下文等词汇信息增强地址文本字符序列表示,有效遏制了地址文本表达的歧义性。具体地,模型首先构建Flat-Lattice和Flat-Shift两种协作图,为地址字符捕获自匹配词和最近上下文词汇的知识,并设计融合层实现图之间的协作;其次,通过改进的相对位置编码,进一步强化词信息对地址文本字符序列的增强效果;最后,利用Transformer和条件随机场进行地址要素解析。在Weibo和Resume等多个公开数据集及Address私有数据集上开展的实验表明,CFGT模型的性能优于已有的中文地址要素解析模型和中文命名实体识别模型。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分