贝叶斯概率链接模型在出生和死亡数据链接中的应用
Application of Bayesian probabilistic linkage model in birth and death data linking作者机构:上海市疾病预防控制中心疾病预防控制信息所上海200336 复旦大学公共卫生学院上海200032 上海市闵行区疾病预防控制中心上海201101
出 版 物:《上海预防医学》 (Shanghai Journal of Preventive Medicine)
年 卷 期:2024年第36卷第1期
页 面:98-103页
学科分类:1004[医学-公共卫生与预防医学(可授医学、理学学位)] 100404[医学-儿少卫生与妇幼保健学] 10[医学]
基 金:国家自然科学基金项目(82003486) 上海市“科技创新行动计划”技术标准项目(22DZ2206000) 上海市卫生健康委员会卫生行业临床研究专项(20214Y0492)
主 题:多源数据 贝叶斯概率链接模型 Jaro-Winkler算法 混淆矩阵
摘 要:【目的】阐述贝叶斯概率链接模型的原理和方法,并应用于出生和死亡数据的链接以展示模型的应用效果。【方法】通过上海市出生和死亡登记系统,收集2017年出生婴儿199025例,2017和2018年死亡婴儿1512例,对清洗后数据按月份分区后进行全链接,以Jaro-Winkler算法和欧式距测量两个数据集用于匹配字段的相似度,以之构建贝叶斯概率链接模型,并用混淆矩阵评估链接效果。【结果】应用贝叶斯概率链接模型,将婴儿出生和死亡数据进行了有效链接,发现上海市死亡婴儿中36.71%生于外地,测算得到婴儿死亡概率为2.60‰。测试集混淆矩阵显示,模型的召回率为0.86,精确率为0.76,F-score为0.81。【结论】贝叶斯概率链接的实例应用显示模型效果良好,用于建立出生死亡队列,能更准确地反映婴儿死亡的真实水平。利用该技术,整合不同部门数据,可有效提升公共卫生领域的研究效率。