联邦学习的高效聚合方法研究
作者单位:河北大学
学位级别:硕士
导师姓名:田俊峰
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:边缘环境中每天都产生着巨量的数据,但由于通信开销和隐私安全的限制,只有极少部分数据被收集和处理,从而大大浪费了这些宝贵的边缘数据资源。对于这类数据的处理利用,机器学习是目前主流的方法。然而,传统的机器学习大多基于集中式的数据存储,难以适应分布式数据环境的安全和隐私要求。在这样的背景下,联邦学习成为了一种广受欢迎的解决方案。它允许各参与客户端在不共享本地数据的前提下,共同构建一个全局模型,从而有效地保障了本地数据的安全和隐私。尽管如此,联邦学习也面临着一系列的挑战。经典的联邦学习算法采用同步聚合模式,其效率常常受限于最慢的客户端。尤其在面对设备异构和不可靠的端设备环境时,全局模型的学习效率会受到严重影响。此外,频繁的通信导致的通信开销以及客户端数据的非独立同分布(Non-IID)特性也是制约联邦学习性能释放的重要因素。 针对上述问题,本文进行了深入的研究,探索了在不同场景下实现联邦学习高效聚合的方法。主要工作如下: 1.针对云-边-端协作场景下的联邦学习高效聚合问题进行研究,提出了一种新的联邦学习数据处理方案,旨在解决传统联邦学习在通信开销、隐私安全和计算效率方面面临的挑战。该方案通过构建区域区块链确保终端设备的安全可靠,采用分层计算策略实现云-边网络和边-端网络的并行,以及利用缓存池机制缓解异步联邦学习中的通信和版本控制问题。具体来说,首先利用边缘计算资源辅助进行模型训练,降低了通信开销;其次,在边缘环境分区域构建区块链,为联邦学习提供了可靠的隐私安全环境;再者,通过分层计算策略,实现了云边网络和边端网络的高效并行处理;最后,引入缓存池机制,有效解决了异步联邦学习中的通信拥塞和参数版本过时问题。 2.针对Cross-silo场景下的联邦学习高效聚合问题进行研究,提出了一种基于数据合成的联邦学习方法,从而缓解客户端数据Non-IID特性,进而通过单次通信实现高效联邦学习。该方法允许每个客户端利用其私有数据集训练本地生成器,随后服务器集成这些生成器以构建一个全局数据集。这种策略显著减少了通信开销,并加速了联邦学习的训练过程。此外,为评估该方法在隐私保护方面的性能,本文采用后门攻击作为评估手段。在本地数据样本中嵌入后门触发器,将其视为隐私信息的载体。通过执行后门攻击检验最终模型对触发器的响应,进而判断隐私信息的潜在泄露程度。该方法不仅为联邦学习的高效聚合提供了新的思路,同时为隐私保护性能的评估提供了实用的工具,丰富了联邦学习的理论与实践研究。