基于XLNet的多数据源中文地名匹配方法
Chinese Geographical Name Matching Method with Multiple Data Sources Based on XLNet作者机构:中国地质大学(武汉)计算机学院湖北武汉430074 地理信息系统国家地方联合工程实验室湖北武汉430074 自然资源部城市国土资源监测与仿真重点实验室广东深圳518000
出 版 物:《地理空间信息》 (Geospatial Information)
年 卷 期:2024年第22卷第8期
页 面:59-63,88页
学科分类:081603[工学-地图制图学与地理信息工程] 07[理学] 08[工学] 070503[理学-地图学与地理信息系统] 0705[理学-地理学] 0816[工学-测绘科学与技术]
基 金:国家重点研发计划资助项目(2022YFB3904200,2022YFF0711601) 湖北省自然科学基金资助项目(2022CFB640) 地质探测与评估教育部重点实验室主任基金资助项目(GLAB2023ZR01)
主 题:地名匹配 地名实体 XLNet Softmax 回归模型
摘 要:地址作为社会发展中重要的基础性数据资源,已成为城市地理空间数据化建设的重要组成部分。地名匹配旨在比较表示相同真实世界位置的配对字符串。当前地名匹配方法依赖于字符串相似性独立或多种混合相似性度量方法,这些方法无法有效地捕捉长句子上下文信息,不能充分理解地址含义。因此,提出一种基于XLNet算法的地名匹配方法,利用深度神经网络将一对地名分类为匹配或不匹配。该方法利用长程记忆并使用双信息流注意力掩码对事件序列进行重构,以利用其双向信息建立表征。实验结果表明,该方法可解决长地址匹配问题,模型能较好地理解上下文语义信息,优于先前研究的单个相似度量及基于监督机器学习的方法。