检索结果-南通市图书馆

基于深度q网络的多起点多终点AGV路径规划

在线全文

学校读者我要写书评

暂无评论

计算机集成制造系统 2023年第8期29卷 2550-2562页

作者：黄岩松姚锡凡景轩胡晓阳华南理工大学机械与汽车工程学院广东广州510640

自动引导小车(AGV)在工厂中承担不同节点之间的物料运输工作,在考虑全局路径最优的情况下需要对AGV进行多起点多终点的路径规划。针对现有深度强化学习算法研究多考虑单起点达到单终点的路径规划情况,涉及多起点多终点的情况时泛化性能... 详细信息

自动引导小车(AGV)在工厂中承担不同节点之间的物料运输工作,在考虑全局路径最优的情况下需要对AGV进行多起点多终点的路径规划。针对现有深度强化学习算法研究多考虑单起点达到单终点的路径规划情况,涉及多起点多终点的情况时泛化性能较差的问题,提出一种基于深度q网络(DqN)的AGV全局路径规划求解模型。首先通过改进算法的输入的AGV状态和改进奖励函数的设置提升算法收敛的效率;再利用改变训练初始点位置的方式提升数据的丰富度和模型对环境的感知程度,并以此提升模型对不同起点单个终点环境下路径规划的泛化能力;最后在训练过程中插入不同终点下AGV的状态数据,以获得模型对多终点路径规划的能力。通过在不同规模环境下的仿真与A^(*)算法和快速扩展随机树算法的对比实验和模型的扩展性实验,验证了该方法在多终点情况下的路径规划能力。

关键词：深度强化学习深度q网络多终点自动引导小车路径规划

在线全文

学校读者我要写书评

暂无评论

基于深度q网络的无人车侦察路径规划

系统工程与电子技术 2024年第9期46卷 3070-3081页

作者：夏雨奇黄炎焱陈恰南京理工大学自动化学院江苏南京210094

在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度q网络相结... 详细信息

在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度q网络相结合,通过端到端的方式生成无人侦察车的运动轨迹。针对深度q网络学习速度慢、泛化能力差的问题,根据神经网络的训练特点提出基于经验分类的深度q网络,并提出具有一定泛化能力的状态空间。仿真实验结果表明,相较于传统路径规划算法,所提算法规划出的路径更符合无人侦察车的运动轨迹并提升无人侦察车的学习效率和泛化能力。

关键词：深度强化学习无人侦察车路径规划深度q网络

计及稳压率和经济性的城轨直流牵引供电光储系统深度q网络优化控制方法

同方期刊数据库博看期刊评论

在线全文

学校读者我要写书评

暂无评论

电力自动化设备 2024年第10期44卷 46-52页

作者：吕宗璞戴朝华姚志刚周斌彬郭爱吴磊西南交通大学电气工程学院四川成都610031 中国铁道科学研究院集团有限公司北京100080

光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度q网络,将源-储-荷... 详细信息

光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度q网络,将源-储-荷能量管理系统作为智能代理,通过光伏出力、储能荷电状态、牵引网压等外部状态训练代理,得到可实现系统经济可靠运行的优化策略。介绍源-储-荷综合系统的框架结构及传统控制策略,并对各设备进行外特性建模;对源-储-荷综合系统的能量管理问题开展马尔可夫决策过程建模,确立强化学习框架;根据某市域线路数据在MATLAB平台上进行仿真以验证所提方法的有效性。研究结果表明,所提方法通过动态调整储能电压阈值,可实现控制策略优化;通过与几种传统控制策略对比可知,所提方法在兼顾系统稳压水平与运行经济性方面占据优势;不同环境下的收敛效果对比体现了所提方法的可继承性,并在多组测试样本下验证了该方法的普适性。

关键词：光伏发电直流牵引供电系统改进控制策略深度强化学习深度q网络

基于多组并行深度q网络的连续空间追逃博弈算法

在线全文

学校读者我要写书评

暂无评论

兵工学报 2021年第3期42卷 663-672页

作者：刘冰雁叶雄兵岳智宏董献洲张其扬军事科学院北京100091 32032部队北京100094

为解决连续空间追逃博弈(PEG)问题,提出一种基于多组并行深度q网络(DqN)的连续空间PEG算法。应对连续行为空间中为避免传统强化学习存在的维数灾难不足,通过构建Takagi-Sugeno-Kang模糊推理模型来表征连续空间;为应对离散动作集自学习... 详细信息

为解决连续空间追逃博弈(PEG)问题,提出一种基于多组并行深度q网络(DqN)的连续空间PEG算法。应对连续行为空间中为避免传统强化学习存在的维数灾难不足,通过构建Takagi-Sugeno-Kang模糊推理模型来表征连续空间;为应对离散动作集自学习复杂且耗时不足,设计基于多组并行DqN的PEG算法。以4轮战车PEG问题为例设计仿真环境与运动模型,进行了运动计算,并与q-learning算法、基于资格迹的强化学习算法、基于奖励的遗传算法结果相比对。仿真实验结果表明,连续空间PEG算法能够较好地解决连续空间PEG问题,且随着学习次数的增加不断提升问题处理能力,具备自主学习耗时少、追捕应用时间短的比较优势。

关键词：追逃博弈连续空间深度q网络神经网络微分对策智能战车

在线全文

学校读者我要写书评

暂无评论

基于深度q网络的在线服务功能链部署方法

电子与信息学报 2021年第11期43卷 3122-3130页

作者：邱航汤红波游伟中国人民解放军战略支援部队信息工程大学郑州450002

针对5G网络资源状态动态变化和网络模型高维度下服务功能链部署的复杂性问题,该文提出一种基于深度q网络的在线服务功能链部署方法(DeePSCD)。首先,为描述网络资源动态变化的特征,将服务功能链部署建模成马尔可夫决策过程,然后,针对系... 详细信息

针对5G网络资源状态动态变化和网络模型高维度下服务功能链部署的复杂性问题,该文提出一种基于深度q网络的在线服务功能链部署方法(DeePSCD)。首先,为描述网络资源动态变化的特征,将服务功能链部署建模成马尔可夫决策过程,然后,针对系统资源模型的高维度问题采用深度q网络的方法进行在线服务功能链部署策略求解。该方法可以有效描述网络资源状态的动态变化,特别是深度q网络能有效克服求解复杂度,优化服务功能链的部署开销。仿真结果表明,所提方法在满足服务时延约束条件下降低了服务功能链的部署开销,提高了运营商网络的服务请求接受率。

关键词：网络功能虚拟化服务功能链马尔可夫决策过程深度q网络

在线全文

学校读者我要写书评

暂无评论

基于深度q网络学习的机器人端到端控制方法

仪器仪表学报 2018年第10期39卷 36-43页

作者：张浩杰苏治宝苏波中国北方车辆研究所

为了提高机器人在没有障碍物地图或者激光雷达数据稀疏情况下进行无碰撞运动的准确性,将强化学习与深度学习方法融合,提出了一种基于深度q网络学习的机器人端到端控制方法。首先,利用传统q学习方法进行强化学习,生成大量的有标签数据样... 详细信息

为了提高机器人在没有障碍物地图或者激光雷达数据稀疏情况下进行无碰撞运动的准确性,将强化学习与深度学习方法融合,提出了一种基于深度q网络学习的机器人端到端控制方法。首先,利用传统q学习方法进行强化学习,生成大量的有标签数据样本;然后,利用深度神经网络构建从激光雷达数据输入到机器人运动速度输出的端到端控制模型,该模型由输入层、输出层和两个全连接层组成;最后,在仿真环境中完成了模型的训练和评估,并将其部署在机器人平台上测试。实验结果表明,该方法训练生成的模型有效地建立了激光雷达数据与机器人运动速度之间的映射关系,按照这种映射关系,机器人在每一个控制周期选择q值最大的动作执行,能运动平顺地规避障碍物。

关键词：深度强化学习深度q网络端到端无碰撞运动

在线全文

学校读者我要写书评

暂无评论

一种最大置信上界经验采样的深度q网络方法

计算机研究与发展 2018年第8期55卷 1694-1705页

作者：朱斐吴文刘全伏玉琛苏州大学计算机科学与技术学院江苏苏州215006 江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州215006 符号计算与知识工程教育部重点实验室(吉林大学) 长春130012 常熟理工学院计算机科学与工程学院江苏常熟215500

由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破... 详细信息

由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.

关键词：强化学习深度强化学习最大置信上界经验回放深度q网络

在线全文

学校读者我要写书评

暂无评论

面向物联网的深度q网络无人机路径规划

电子与信息学报 2022年第11期44卷 3850-3857页

作者：张建行康凯钱骅杨淼中国科学院上海高等研究院上海201210 中国科学院大学北京100049 上海科技大学信息科学与技术学院上海201210

随着无人机技术的广泛应用,基于无人机辅助数据收集的物联网架构扩展了物联网的应用范围,尤其适用于军事战场、灾害救援等极端场景。针对上述场景,该文提出一种基于深度q网络(Deep q-Network,DqN)框架的无人机飞行路径规划算法。该算法... 详细信息

随着无人机技术的广泛应用,基于无人机辅助数据收集的物联网架构扩展了物联网的应用范围,尤其适用于军事战场、灾害救援等极端场景。针对上述场景,该文提出一种基于深度q网络(Deep q-Network,DqN)框架的无人机飞行路径规划算法。该算法以无人机飞行周期内收集信息的平均信息年龄(Age of Information,AoI)为优化目标,来保证无人机收集数据的时效性。仿真结果表明,所提算法可以有效降低无人机单个飞行周期内收集数据的平均AoI。与随机算法、基于最大AoI的贪心算法、最短路径算法以及基于AoI的路径规划算法(AoI-based Trajectory Planning,ATP)相比,平均AoI分别降低了约81%,67%,56%和39%。该研究实现了无人机辅助物联网系统中,数据的高效、低时延采集。

关键词：无人机物联网信息年龄路径规划深度q网络

基于深度q网络的平面域Delaunay网格优化算法

在线全文

学校读者我要写书评

暂无评论

计算机辅助设计与图形学学报 2022年第12期34卷 1943-1950页

作者：张浩杰刘星李鸿晶南京工业大学工程力学研究所南京211816

网格优化是Delaunay网格生成后的必要步骤,对于保证数值模拟的可靠性至关重要.为了改善平面域Delaunay网格的质量,提出一种基于深度q网络(deep q network,DqN)的网格优化算法.首先,对初始网格进行质量评估,选出不满足要求的单元结点,并... 详细信息

网格优化是Delaunay网格生成后的必要步骤,对于保证数值模拟的可靠性至关重要.为了改善平面域Delaunay网格的质量,提出一种基于深度q网络(deep q network,DqN)的网格优化算法.首先,对初始网格进行质量评估,选出不满足要求的单元结点,并将其按质量升序排列;其次,将结点移动描述为Markov决策过程,建立并训练DqN模型;再次,利用模型训练后的经验参数加速网格质量优化;最后,以实际的隧道、气缸体、机械零件等为背景构建测试算例,验证算法的适用性和可靠性,并与既有典型算法进行对比试验.研究结果表明,本文算法能显著提高畸变单元的质量,优化后的网格质量分布更为集中,且优化过程不会产生无效单元.

关键词： Delaunay网格网格优化深度q网络深度强化学习