咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于半监督学习的多源异构数据治理 收藏

基于半监督学习的多源异构数据治理

Multi-source Heterogeneous Data Governance Based on Semi-supervised Learning

作     者:饶卫雄 高宏业 林程 赵钦佩 叶丰 RAO Weixiong;GAO Hongye;LIN Cheng;ZHAO Qinpei;YE Feng

作者机构:同济大学软件学院上海201804 复杂系统仿真总体重点实验室北京100101 

出 版 物:《同济大学学报(自然科学版)》 (Journal of Tongji University:Natural Science)

年 卷 期:2022年第50卷第10期

页      面:1392-1404页

核心收录:

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:上海市科技重大专项(2021SHZDZX0100) 中央高校基本科研业务费专项资金。 

主  题:半监督学习 数据治理 多源异构数据 缺失值填补 命名实体识别(NER) 

摘      要:为实现不同数据管理系统之间的互通,提出一种基于半监督学习算法的多源异构数据治理框架,并由此设计、实现和测试了一套非结构化数据与结构化数据的自动化对齐方法。利用命名实体识别(NER)技术,将非结构化数据转化为结构化数据,再分别利用基于字符串相似度的方法和基于监督学习的方法,对结构化数据进行模式匹配;通过半监督学习方法,在结构化数据与数据库记录实体之间进行实体匹配与融合;利用自然语言处理(NLP)技术及深度学习方法,对融合后的数据集进行缺失值填补。结果表明:在论文数据集和视频元数据集上进行对齐处理后,两者的F1值分别达到89.70%及96.50%;在不同属性上进行缺失值填补后,整体填补准确率达到78%以上,大大优于基线方法的准确率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分