基于深度确定性策略梯度学习的无线反向散射数据卸载优化
A Deep Deterministic Policy Gradient Optimization Approach for Multi-users Data Offloading in Wireless Powered Communication Network作者机构:西北工业大学电子信息学院陕西西安710072 物联网技术及应用国家地方联合工程实验室陕西西安710072 长安大学电子与控制学院陕西西安710072
出 版 物:《兵工学报》 (Acta Armamentarii)
年 卷 期:2021年第42卷第12期
页 面:2655-2663页
核心收录:
学科分类:080904[工学-电磁场与微波技术] 0810[工学-信息与通信工程] 0809[工学-电子科学与技术(可授工学、理学学位)] 08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 081001[工学-通信与信息系统]
基 金:中国博士后基金项目(2017M623243) 陕西省博士后基金项目(2018BSHYDZZ26) 陕西省重点研发计划项目(2019ZDLGY13-02-02) 广西壮族自治区重点研发计划项目(AB19110036) 太仓市重点研发计划项目(TC2018SF03、TC2019SF03) 西安市科技计划项目(201805042YD20CG26(4)、GXYD21.2) 西北工业大学种子基金项目(CX2020159) 陕西省自然科学基金项目(2021JM-186)
摘 要:无线驱动通信网络中,无线设备(WD)可以通过无线反向散射和主动射频传输两种方式进行数据卸载。如何合理分配系统中WD的主动传输和反向散射传输工作模式及其对应的工作时间,从而减小传输延迟、提高传输效率就显得尤为必要。在综合考虑卸载数据量大小、信道条件和WD之间公平性情况下,提出一种基于深度确定性策略梯度(DDPG)的数据卸载方法,在连续动作空间内搜索多个WD的最优时间分配。仿真实验结果表明:DDPG可在有限时间步长内实现算法收敛;由于引入了Jain公平指数,多个WD可同时完成数据卸载;与传统的均分算法、贪心算法对比,DDPG算法可将平均传输延迟减小77.4%和24.2%,可有效提高WD的能耗效率,尤其对于卸载数据量较小的WD效果更加显著。