咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面实体匹配的集成学习CatBoost方法 收藏

面实体匹配的集成学习CatBoost方法

Matching Areal Entities with CatBoost Ensemble Method

作     者:刘贺 郭黎 李豪 张婉晨 白翔天 LIU He;GUO Li;LI Hao;ZHANG Wanchen;BAI Xiangtian

作者机构:61363部队西安710054 信息工程大学郑州450001 32021部队北京100094 

出 版 物:《地球信息科学学报》 (Journal of Geo-information Science)

年 卷 期:2022年第24卷第11期

页      面:2198-2211页

核心收录:

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:科技基础资源调查专项(2019FY202501) 河南省高等教育教学改革研究与实践重点项目(2021SJGLX299) 

主  题:面实体 相似性 匹配 集成学习 CatBoost 类别不平衡 贝叶斯优化 SHAP 

摘      要:现有的面实体多指标几何匹配方法在计算综合相似度和确定最终匹配实体时面临着指标权重和阈值难以科学量化的难题,集成学习算法通过构建并结合多个机器学习器来完成学习任务,在解决分类问题时体现出了较为明显的性能优势。为此,本文提出了一种基于集成学习算法CatBoost的面实体匹配方法,将匹配问题转化为分类问题。选取形状、面积、方向和位置4个几何特征作为模型分类特征;利用过采样与欠采样相结合的混合重采样技术减轻原始训练样本的类别不平衡度;借助贝叶斯优化算法确定CatBoost模型的最优超参数;引入可解释人工智能领域的SHAP解释框架从全局和局部两个角度解释各输入特征对匹配结果的影响。在青藏高原的面状湖泊数据上对本文提出的方法进行了验证,实验结果表明:对模型预测影响最大的特征是位置,然后依次是面积、形状,影响最小的特征是方向。CatBoost匹配方法在实验数据集上的查准率、查全率和F1-score分别达到0.9937、0.9753和0.9844,相比于直接使用样本不均衡的原始样本进行模型训练,分别提高了约5.8%、0.6%和3.3%。与传统的面实体多指标双向匹配方法和逻辑回归、K近邻、决策树、神经网络等常规机器学习分类算法相比,集成学习算法CatBoost性能表现更加优异,在避免指标权重和阈值设置难题的同时取得了较好的匹配结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分