咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于联邦学习的实体抽取方法研究 收藏
基于联邦学习的实体抽取方法研究

基于联邦学习的实体抽取方法研究

作     者:张瑞燊 

作者单位:西安电子科技大学 

学位级别:硕士

导师姓名:于强;孙春生

授予年度:2022年

学科分类:08[工学] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:联邦学习 实体抽取 共享数据 实体信息 

摘      要:实体抽取是自然语言处理的一项关键技术。现有研究多采用深度学习模型处理实体抽取任务,需要充足的实体标注数据进行训练,但单个客户端的实体标注数据通常是有限的,并且客户端之间的数据往往需要隐私保护而不能直接共享。现有研究提出利用联邦学习解决共享实体标注数据的隐私安全问题,但存在以下两点问题:一是客户端数据若呈非独立同分布会导致模型准确度下降,二是实体抽取模型结构复杂导致联邦学习训练的通信成本高。本课题提出一种基于联邦学习的实体抽取方法Fed SE,并进一步优化模型的准确度和训练通信成本。本文选取ALBERT-Bi LSTM-CRF作为实体抽取模型,并在此基础上构建横向联邦学习框架,在各客户端数据不交换的条件下协同训练实体抽取模型。模型框架包括以下四步,分别是客户端选择、模型训练、模型优化和模型聚合。本文重点改进模型优化和模型聚合两个模块。对于模型优化模块,本文提出了基于共享数据的联邦优化算法,首先基于客户端的共享数据集构建近似独立同分布实体标注数据集,其次使用该数据集训练模型作为额外的客户端模型,参与后续的模型聚合模块,解决了客户端数据呈非独立同分布时导致模型准确度下降的问题。对于模型聚合模块,本文提出基于实体信息的模型聚合算法,该算法在不泄露数据隐私的前提下,收集客户端实体标注数据集相关信息,并基于此设置合适的模型聚合权重,提高模型聚合的有效性。实验结果表明,所提方法能够有效克服非独立同分布数据下模型准确度下降的问题、并能够降低模型训练的通信成本,在降低数据隐私泄漏风险的前提下,模型准确度接近于集中式训练模型,模型F1值仅低于集中式训练模型1.18%。与现有基于联邦学习的实体抽取方法Fed NER相比,所提方法在Boson数据集和微博数据集上的模型F1值有显著提升,单个客户端总数据传输量有显著下降;特别地,随着参与客户端比例和本地训练迭代次数的增大,模型性能的提升更加显著。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分