基于联邦学习的物联网设备识别技术研究与实现
作者单位:广州大学
学位级别:硕士
导师姓名:张硕
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 0839[工学-网络空间安全] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着5G、物联网、人工智能等信息技术的迅速发展和广泛应用,物联网变得愈加复杂,涌现出大量各式各样的设备,产生了规模巨大的类型众多的网络流量。然而,许多物联网设备存在安全漏洞,容易被黑客攻击,带来严重的安全风险。物联网设备识别技术可以识别出设备的类型、品牌和型号等信息,进而确定这些设备中是否存在安全漏洞,开展物联网设备识别技术研究对维护网络安全、提升管理效率和保护用户隐私至关重要。最新研究使用机器学习技术,可以有效构建物联网设备识别模型,但在标记数据较少时,这些模型的泛化能力和分类准确性会显著下降。而且,随着公众对数据隐私和数据安全的保护意识越来越强,训练物联网设备识别模型所需的训练数据的收集和使用会受到极大的限制,这些都给基于有监督的物联网设备识别模型带来了诸多挑战。针对上述问题,本文围绕物联网设备识别技术开展两方面研究,设计并实现原型系统进行验证。主要创新点如下: (1)针对最新的半监督物联网设备识别模型i Knight训练过程中难以捕获全局特征的问题,提出了一种基于半监督的物联网设备识别模型SASGAN。该模型融合了半监督生成对抗网络和自注意力机制,通过使用未标记的数据进行生成对抗训练显著减少了模型训练对大量标记数据的依赖,同时通过捕获设备网络流量的特征矩阵的全局特征来提高物联网设备识别模型的性能。实验结果表明:对于两个公开数据集,SASGAN仅使用5%标记数据,设备识别准确率比i Knight分别提升了1.45%和4.76%。 (2)针对物联网系统存在的“数据孤岛问题,提出了一种基于联邦学习的物联网设备识别模型FL-SASGAN,通过仅传输模型参数而不是训练数据的方式来保护数据隐私。针对非独立同分布数据会导致联邦学习全局模型性能下降的问题,提出了一种动态加权聚合策略,通过评估客户端模型参数在本客户端和其他客户端下的设备识别性能来为其参数分配聚合权重。在数据非独立同分布场景下,对于两个公开数据集本文所提的聚合策略使得联邦学习全局模型的设备识别准确率分别提升了4.10%和3.57%。 (3)在前面提出的两种物联网设备识别模型的基础上,设计并实现了一个基于联邦学习的物联网设备识别原型系统Fed Io TIDent。该系统通过云端服务器协调多个客户端进行联邦学习训练物联网设备识别模型,并在真实网关上进行部署测试。实验结果表明,本文设计实现的原型系统在保护数据隐私的同时具有较好的物联网设备识别性能。