检索结果-南通市图书馆

离散时间mdp矩最优模型——折扣依赖于历史的情形

在线全文

学校读者我要写书评

暂无评论

应用概率统计 1992年第1期8卷 27-34页

作者：林元烈林建星清华大学北京100084

本文在S、A(i)(i∈S)均匀可列集情形下,建立了折扣依赖于历史的矩最优模型。给出了折扣总报酬k阶矩在各类策略下的统一表达式;讨论了矩最优策略的结构与性质;证明了矩最优方程在给定条件下,存在唯一的有界解。

关键词：离散时间矩最优模型折扣 mdp模型

在线全文

学校读者我要写书评

暂无评论

基于mdp模型的软件测试技术研究

基于MDP模型的软件测试技术研究

作者：沈小丰东南大学

学位级别：硕士

IEEE将软件测试定义为:使用人工或自动手段来运行或测定某个系统的过程,其目的在于检验它是否满足规定的需求或是弄清预期结果与实际结果之间的差别。作为保证软件质量最为有效的测试技术,已经越来越引起软件用户及开发人员的关注。据统... 详细信息

IEEE将软件测试定义为:使用人工或自动手段来运行或测定某个系统的过程,其目的在于检验它是否满足规定的需求或是弄清预期结果与实际结果之间的差别。作为保证软件质量最为有效的测试技术,已经越来越引起软件用户及开发人员的关注。据统计,目前在软件开发总成本中,用在测试上的开销要占30%0%。而嵌入式应用系统由于受到系统环境的限制,难以用传统的方法对其进行测试,嵌入式系统本身所持有的一些要求,如实时性强、系统资源占用率高,都对测试技术提出了更高的要求。测试本身是一项十分繁重的工作,纯粹手工测试已无法满足大规模软件的需求,越来越多的测试工作需要测试工具的支持。在已有的测试工具中,源代码测试工具有着重要的应用。而C语言作为一种表达能力强、目标代码效率高、可移植性好的语言,在软件开发中得到普遍使用。本文提供了源代码自动分析测试的一整套解决方案,提出了一种基于程序插桩的动态测试框架,分析了C程序流图PFG的构造方法,并在此基础上提出了两种利用二分决策图的方法来自动生成条件判定测试用例,通过对这两个方法进行了对比,说明这两种方法的优缺点。然后利用上述方法得出的测试用例集对C语言源程序进行各种情况下的覆盖率分析,并建立了利用mdp模型来评估测试用例的选择和使用。

关键词：软件测试测试用例覆盖分析 mdp模型

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于强化学习的多目标点航关联方法

指挥控制与仿真 2022年第2期44卷 43-48页

作者：丁国胜蔡民杰南京电子技术研究所江苏南京210039

针对密集杂波环境下的多目标点迹-航迹关联问题,以强化学习(Reinforcement Learning,RL)方法为基础,提出了一种基于Q学习的多目标点迹-航迹关联方法。首先,根据整个过程中目标的运动状态,建立马尔可夫决策过程(Markov Decision Process,... 详细信息

针对密集杂波环境下的多目标点迹-航迹关联问题,以强化学习(Reinforcement Learning,RL)方法为基础,提出了一种基于Q学习的多目标点迹-航迹关联方法。首先,根据整个过程中目标的运动状态,建立马尔可夫决策过程(Markov Decision Process,mdp)模型。其次,利用各状态间的相关程度构成策略函数,选择准确的动作,并设定相应的奖励函数。最后,考虑杂波密集时虚假量测难以分辨,结合目标先验信息,增加了Q表再学习环节,进一步优化关联精度。仿真结果表明,在非机动和强机动两种环境下,该方法都能准确地关联到目标的量测,具有较好的点迹-航迹关联性能。

关键词：多目标点迹-航迹关联强化学习 mdp模型策略函数 Q表再学习

在线全文

学校读者我要写书评

暂无评论

决策的内隐认知机制研究现状

心理科学 2003年第6期26卷 1095-1098页

作者：于泳红华东师范大学心理系上海200062

决策是和人类生活密切相关的一项活动.人们在日常生活中每天都要都要做出各种各样的决策.如决定购买哪一品牌的商品,选择什么样的住宅,乃至升学就业都离不开决策行为.

关键词：决策内隐认知机制纯粹接触效应启动效应 mdp模型

连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形

在线全文

学校读者我要写书评

暂无评论

数学学报（中文版） 1992年第1期35卷 8-19页

作者：林元烈清华大学应用数学系北京100084

本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTmdp);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTmdp);并揭示二者之间... 详细信息

本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTmdp);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTmdp);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP^(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 mdp 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义.

关键词：矩最优模型折扣 Q矩阵族 mdp模型

在线全文

学校读者我要写书评

暂无评论

基于会话搜索的网页排序算法的研究与设计

基于会话搜索的网页排序算法的研究与设计

作者：唐丹丹南京大学

学位级别：硕士

随着互联网技术的迅速发展,互联网上的资源数量越来越多。搜索引擎的发展使得用户可以在庞大的信息资源中找到自己所需要的信息。用户可以在搜索引擎上得到自己感兴趣的信息,影响用户信息检索满意度的就是搜索引擎返回给用户的网页信息... 详细信息

随着互联网技术的迅速发展,互联网上的资源数量越来越多。搜索引擎的发展使得用户可以在庞大的信息资源中找到自己所需要的信息。用户可以在搜索引擎上得到自己感兴趣的信息,影响用户信息检索满意度的就是搜索引擎返回给用户的网页信息,并且影响返回给用户网页信息的核心技术就是搜索引擎的网页排序算法,目前主流的网页排序算法主要是Google的PageRank算法和IBM的HITS算法,但是这些算法的设计思想主要是利用网页之间的链接关系,如果一个网页被其他网页的链接次数比较多,搜索引擎就会认为它的网页质量比较高,从而在排序时将它的位置相对靠前,但是这些算法并不考虑用户与搜索引擎之间的交互问题,所以在网页排序算法的改进上面存在很大的提升空间,现在的研究者对于搜索引擎的研究重点主要就体现在搜索引擎的排序算法上。本文首先介绍了现在搜索引擎中主要的网页排序算法以及mdp模型,随后提出了基于用户会话搜索的QCM网页排序算法,其利用相邻查询之间的句法编辑变化和查询变更之间的关系,以及先前检索的文件来增强会话搜索,并将会话搜索建模为马尔科夫决策过程(mdp),文中会通过实验来验证算法的有效性,最后基于QCM网页排序算法设计了一个信息检索原型系统。本文针对于现有网页排序算法的不足,提出了一种基于用户会话搜索的网页排序算法,该算法更加注重用户与搜索引擎的交互,关注用户进行会话搜索过程中检索词的变化,基于检索词的变化采用mdp模型进行建模,这种网页排序算法取名为QCM,最后通过实验进行算法效率分析,并经过设计实验验证,本文提出的QCM网页排序算法在排序效率上有着较大提高。

关键词：会话搜索网页检索 mdp模型 QCM模型

基于深度强化学习的自动化集装箱码头双场桥动态调度研究

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于深度强化学习的自动化集装箱码头双场桥动态调度研究

作者：高雪峰大连理工大学

学位级别：硕士

世界经济一体化加速了各国之前的贸易往来,港口作为多式联运中海陆联运的重要枢纽,也在推动区域发展过程中承担起更为重要的角色。近些年来,随着港口集装箱吞吐量的激增以及船舶的大型化趋势,对码头的技术水平和运营能力提出了新的要求... 详细信息

世界经济一体化加速了各国之前的贸易往来,港口作为多式联运中海陆联运的重要枢纽,也在推动区域发展过程中承担起更为重要的角色。近些年来,随着港口集装箱吞吐量的激增以及船舶的大型化趋势,对码头的技术水平和运营能力提出了新的要求,这两项能力也成为了继地理位置和经济腹地之外的新的竞争力因素。同时,随着港口“绿色发展”、“智能发展”等新型概念的提出,使得建立高效节能的自动化集装箱码头俨然成为了应对新发展环境的一种必然选择。堆场作业是自动化集装箱码头整体作业的重要环节,与码头其他作业环节密切相关,对完整的作业过程有着突出影响。因此,如何更加高效合理的解决堆场设备的作业调度问题是提高码头整体作业效率的核心,只有解决好这一关键点,才能够缓解码头运营压力,缩短货运船舶和外集卡在码头内的周转时间,进而充分发挥码头自动化设备和管理模式的独特优势。本文以此为背景,对自动化集装箱码头堆场内单场区双场桥实时动态调度问题展开了研究。针对单箱区两台场桥的协同作业,面对存取箱作业任务同时存在的混合作业模式,在考虑场桥间不能相互穿越以及实际作业中车辆延误、任务随机抵达等不确定因素的情况下,以海陆侧作业任务的平均等待时间最短为目标构建马尔可夫决策过程模型（mdp）。通过引入未来即将抵达任务应对不确定性因素,设计了环境状态的量化方法以细致描摹动态环境。为解决传统Q学习算法难以应对复杂环境的问题,本文基于深度强化学习思想设计了针对双场桥动态调度问题的DQN网络,改进了算法的策略探索过程和优化采样过程。最后,通过数值试验分析了在算法结构中的关键参数的取值范围,以及不同优化采样策略对于算法收敛情况的影响,并验证了该方法对于解决双场桥动态调度问题的计算性能。结果表明,该方法能够有效进行调度决策,对比组合策略能够实现10%-30%左右的优化,在场桥利用率和空载移动时间所占比例方面也能实现一定程度的优化,同时能够对避免起重机的相互干扰以及超时等待情况的出现起到一定效果。且由于算法本身离线学习、在线调度的特点,使得方法能够适用于实时调度过程,实用性显著。

关键词：自动化集装箱码头实时调度双场桥协同调度 mdp模型深度强化学习算法

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

半导体生产线动态维护策略研究

半导体生产线动态维护策略研究

作者：王翠芬广东工业大学

学位级别：硕士

半导体生产线结构复杂,具有典型的重入特点,加工产品种类多样,设备集成度高、造价昂贵。近年来半导体制造行业发展迅速,竞争激烈。合理的维护策略能够最大化设备价值,带来较高收益,提升企业市场竞争力。本文建立了设备生产和维护系统的... 详细信息

半导体生产线结构复杂,具有典型的重入特点,加工产品种类多样,设备集成度高、造价昂贵。近年来半导体制造行业发展迅速,竞争激烈。合理的维护策略能够最大化设备价值,带来较高收益,提升企业市场竞争力。本文建立了设备生产和维护系统的马尔科夫决策过程mdp(markov decision process)模型。考虑可变的维护行为选择和随机的状态转移情况,研究半导体生产线设备的动态维护策略,获得使效益最大化的维护时刻和维护行为的综合。论文将此动态维护策略应用于一个典型的半导体制造过程-Mini-Fab模型,进一步研究模型中各单元的调度规则。对生产加工与维护抉择的耦合问题进行优化,得到综合最优的动态维护策略。首先,本文介绍了研究背景及意义,从工业界和学术界两方面分析国内外研究现状,详述研究内容和理论框架。其次,阐述了关于可靠性分析和维护研究的相关理论,以及生产调度的种类与判断指标,为后续研究提供理论支持。然后,在考虑可变的维护行为选择和随机的状态转移概率的情况下,建立了基于mdp模型的半导体设备动态维护策略的数学模型。以mdp模型模拟设备维护过程中状态转移情况,以设备效益作为目标函数,获得关于维护时刻和行为的综合方案。基于所建立数学模型的特点,引入带遗传交叉因子的粒子群算法求解,最终获得最优化动态维护策略。最后,将动态维护策略应用于Mini-Fab模型,并且进一步考虑系统生产加工过程,研究维护与加工冲突时的联合抉择问题和系统各单元的最佳调度规则,从而获得生产调度和动态维护方案的综合策略。

关键词： mdp模型动态维护策略带交叉因子的粒子群算法 Mini-Fab模型维护与加工联合抉择

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于决策的人脸检测与自动跟踪方法

计算机技术与发展 2019年第9期29卷 35-39页

作者：史双飞张震上海大学机电工程与自动化学院

对人脸检测与跟踪的研究现状进行了简要介绍,发现传统的mdp(Markov decision processes)跟踪算法需要手动初始化,这不利于实际场景中的灵活运用。因此,提出一种基于Viola-Jones人脸检测算法和改进的mdp自动跟踪算法。从视频序列中提取... 详细信息

对人脸检测与跟踪的研究现状进行了简要介绍,发现传统的mdp(Markov decision processes)跟踪算法需要手动初始化,这不利于实际场景中的灵活运用。因此,提出一种基于Viola-Jones人脸检测算法和改进的mdp自动跟踪算法。从视频序列中提取人脸的类Haar特征,采用AdaBoost算法构建强分类器,并利用级联方式将强分类器进行联合,从而提高人脸检测率。mdp跟踪算法将在线的多目标跟踪问题规划成mdp中的决策,为每一个人脸目标建立一个mdp模型,并用VJ检测器的输出来初始化该模型,将人脸的出现到消失看作是mdp模型中的状态转移,在跟踪过程中采用光流法结合Kalman运动估计提高人脸跟踪的准确性和鲁棒性,减少目标ID的分配错误。在此过程中VJ检测器作为监督指标,与跟踪器的输出进行关联。实验结果表明,该算法可以稳定地检测并跟踪场景内的人脸目标,其速率也能满足应用要求。

关键词： VJ算法 AdaBoost算法 mdp模型光流法 Kalman运动估计