咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度强化学习的V2V资源分配研究 收藏
基于深度强化学习的V2V资源分配研究

基于深度强化学习的V2V资源分配研究

作     者:杨成诚 

作者单位:南京林业大学 

学位级别:硕士

导师姓名:许艺瀚;黄雨

授予年度:2022年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 0804[工学-仪器科学与技术] 080402[工学-测试计量技术及仪器] 0838[工学-公安技术] 0811[工学-控制科学与工程] 

主      题:蜂窝车联网 V2V资源分配 深度强化学习 深度Q学习网络 深度确定性策略梯度 

摘      要:近年来,随着新能源汽车的不断普及与发展,加上原有的汽油车数量,汽车总量不断攀升,这给交通出行和人身安全带来了巨大的挑战。为了解决这类安全问题,车联网应运而生,随着车联网的技术不断完善,蜂窝车联网(Cellular Vehicle-to-Everything,C-V2X)成为主流。其中车辆对车辆(Vehicle-to-Vehicle,V2V)通信是车联网中最重要的一环,V2V主要是基于设备到设备(Device-to-Device,D2D)技术进行直接通信。V2V通信的数量是庞大的,如果单独设定频段会造成频谱资源紧张,为了节约现有的频谱资源,本文考虑V2V通信复用蜂窝网络当中的上行链路进行通信,在车联网环境中蜂窝用户等价于车辆到基础设施(Vehicle-to-Infrastructure,V2I)。因此,需要资源分配来让V2V链路选择复用的V2I链路的子带,选择合适的发射功率,满足V2I通信和V2V通信的要求。由于车辆的移动性,集中式的资源分配很难保证通信要求,本文基于深度强化学习设计了分布式的资源分配算法,每个车辆都是一个智能体(Agent),根据环境来选择奖励最大化的子带与传输功率。假设所有的V2I链路都是预先分配好的,V2V通信的场景考虑了城市街区与高速公路。在城市街区场景下,首先对资源分配问题建模,结合车辆行驶方向进行分组,划分为四个独立的资源池,再使用基于深度Q学习网络(Deep Q-Network,DQN)算法对V2V通信进行资源分配。对于DQN算法的经验回放设定了一种加权回放机制,设计了四层全连接神经网络结构,使用Adam算法对网络优化。经过DQN算法训练后,每个V2V车辆都是独立的智能体,通过与环境进行交互,智能体会选择最大化V2I速率和满足V2V通信要求的动作。仿真分析不同车辆总数和不同车速下,使用不同算法的结果,DQN算法比对了Q-learnning算法与随机分配算法。结果表明,即使在车辆总数最大和车速最高的情况下,运用DQN算法能够更好地保证V2I链路的速率和V2V链路的速率,减轻V2V链路复用V2I链路所带来的干扰。在高速公路场景下,由于车辆在高速上的移动速度较快,环境随时都在变化,导致V2V通信会频繁切换,这给V2V通信提出了更高的要求。同样的,V2I链路是预先分配好的,基于车辆行驶方向进行分组,划分为两个独立的资源池。但是,V2V的通信的动作应该被认为是连续性动作,所以本文使用演员-评论家(Actor-Critic)框架,基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法对V2V通信进行资源分配。分别设计了Actor和Critic网络的结构,给出了参数设置,在策略网络中加入了高斯噪声。在仿真中,比较了DDPG算法与DQN算法的收敛过程。比对了不同车速和不同车辆总数下的结果,随着车辆速度的增加,会导致车辆通信数据包的丢失,比对了在不同有效负载下,V2V通信成功传递的交付率。结果表明,即使车速达到了120km/h的情况下,DDPG算法依然能够最大化V2I链路的总速率,同时保证V2V链路的传输可靠性要求,传输负载的能力也比其他算法高出很多。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分