毕业论文范文网-论文范文
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 学前教育 德语论文 工程管理 文化产业 工商管理 会计专业 行政管理 广告学
机械设计 汉语文学 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 药学论文 播音主持 人力资源 金融论文 保险学
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 计算机论 电子信息 市场营销 法学论文 财务管理 投资学
体育教育 小学教育 印刷工程 土木工程 书法论文 护理论文 心理学论 信息管理 公共事业 给水排水 新闻专业 摄影专业 广电编导 经济学
  • 范文首页 |
  • 毕业论文 |
  • 论文范文 |
  • 计算机论文 |
  • 外文翻译 |
  • 工作总结 |
  • 工作计划 |
  • 现成论文 |
  • 论文下载 |
  • 教学设计 |
  • 免费论文 |
  • 原创论文 |
搜索 高级搜索

原创毕业论文

当前位置:毕业论文范文网-论文范文 -> 免费论文 -> 计算机论文

SMDP基于性能势的NDP优化方法及应用研究

作者: 浏览:5次
免费专业论文范文
免费专业论文
政治工作论文
计算机论文
营销专业论文
工程管理论文范文
医药医学论文范文
法律论文范文
生物专业论文
物理教学论文范文
人力资源论文范文
化学教学论文范文
电子专业论文范文
历史专业论文
电气工程论文
社会学专业论文
英语专业论文
行政管理论文范文
语文专业论文
电子商务论文范文
焊工钳工技师论文
社科文学论文
教育论文范文
数学论文范文
物流论文范文
建筑专业论文
食品专业论文
财务管理论文范文
工商管理论文范文
会计专业论文范文
专业论文格式
化工材料专业论文
英语教学专业论文
电子通信论文范文
旅游管理论文范文
环境科学专业论文
经济论文
人力资源论文范文
营销专业论文范文
财务管理论文范文
物流论文范文
财务会计论文范文
数学教育论文范文
数学与应用数学论文
电子商务论文范文
法律专业论文范文
工商管理论文范文
汉语言文学论文
计算机专业论文
教育管理论文范文
现代教育技术论文
小学教育论文范文
机械模具专业论文
报告,总结,申请书
心理学论文范文
学前教育论文范文

收费计算机专业论文范文
收费计算机专业论文
Delphi
ASP
VB
JSP
ASP.NET
VB.NET
java
VC
pb
VS
dreamweaver
c#.net
vf
VC++
计算机论文
毕业论文范文题目:SMDP基于性能势的NDP优化方法及应用研究,论文范文关键词:SMDP基于性能势的NDP优化方法及应用研究
SMDP基于性能势的NDP优化方法及应用研究毕业论文范文介绍开始:
【论文摘要】:离散事件动态系统(DEDS)是实际生活中广泛存在的一类人造系统,而半Markov决策过程(SMDP)是这类系统建模的主要方法之一。为了适应对于大状态空间离散事件动态系统优化控制的需要,论文重点研究了建立在强化学习(RL)基础上的神经元动态规划(NDP)方法在SMDP性能优化中的应用。性能势理论在SMDP的性能分析和研究中起着重要的作用。基于性能势理论及Bellman最优方程,很容易建立平均代价和折扣代价性能准则下的最优性方程,称之为基于性能势的Bellma(文章此处忽略..)n最优方程。解此类方程可以采用理论的计算方法,如值迭代,策略迭代等,系统采用查表的方法获取控制信息,然而由于现代DEDS多为复杂的大状态空间系统,在对其进行理论求解时,内存需保存大量的信息,占用较多的存储空间,甚至会在大量矩阵求逆运算的时候,出现内存溢出的现象,造成问题不可解,从而产生所谓的“维数灾”(curseofdimensionality)问题。因此,理论的方法在大状态空间DEDS求解中不可行,需要考虑基于仿真的方法。而建立在强化学习基础(略..)上的NDP方法是解决上述问题的有效方法,该方法利用某种函数结构或网络结构逼近性能函数或策略,内存中只需保存少量的网络参数,从而起到了节省内存空间的作用。NDP方法主要有critic、actor和actor-critic三种模式。文章主要研究了actor和actor-critic模式下的NDP方法。在两种模式下的优化过程中,我们首先将SMDP转化成等价Markov决策过程(MDP),继而转化成其等价一致链(uniformizedchain)来研究。在(文章此处忽略..)actor模式下,我们利用神经元网络逼近策略。首先基于一致链的单样本轨道,进行性能势的在线TD学习,其学习值作为策略评估的手段;基于此学习值,再进行网络参数即策略参数化学习,求解(次)最优策略。在网络训练中,我们给出了负梯度下降法和样本训练法两种参数改进方法。而在actor-critic模式下,我们利用两个神经元网络分别逼近性能势和策略。两个网络的参数改进方法均采用负梯度下降法。整个优化算法类似于actor模式。此外,我们建立了两种模式下平均性(此处忽略..)能准则和折扣性能准则下统一学习的方法。文章中针对actor和actor-critic模式列出了数值例子,给出了实验结果。呼叫接入控制(CAC)是网络通信中常见的问题,其单节点呼叫接入控制问题可以转换为Markov决策问题来研究。同样,CAC系统中的大状态空间可导致“维数灾”。我们将NDP方法引入呼叫接入控制问题的研究当中,分别研究了critic、actor和actor-critic三种模式下的优化问题。在这


以上为本篇毕业论文范文SMDP基于性能势的NDP优化方法及应用研究的介绍部分。
本论文在计算机论文栏目,由论文网(www.zjwd.net)整理,更多论文,请点论文范文查找

毕业论文降重 相关论文

收费专业论文范文
收费专业论文
汉语言文学论文
物理学论文
自动化专业论文
测控技术专业论文
历史学专业论文
机械模具专业论文
金融专业论文
电子通信专业论文
材料科学专业论文
英语专业论文
会计专业论文
行政管理专业论文
财务管理专业论文
电子商务国贸专业
法律专业论文
教育技术学专业论文
物流专业论文
人力资源专业论文
生物工程专业论文
市场营销专业论文
土木工程专业论文
化学工程专业论文
文化产业管理论文
工商管理专业论文
护理专业论文
数学教育专业论文
数学与应用数学专业
心理学专业论文
信息管理专业论文
工程管理专业论文
工业工程专业论文
制药工程专业论文
电子机电信息论文
现代教育技术专业
新闻专业论文
艺术设计专业论文
采矿专业论文
环境工程专业论文
西班牙语专业论文
热能与动力设计论文
工程力学专业论文
酒店管理专业论文
安全管理专业论文
交通工程专业论文
体育教育专业论文
教育管理专业论文
日语专业论文
德语专业论文
理工科专业论文
轻化工程专业论文
社会工作专业论文
乡镇企业管理
给水排水专业
服装设计专业论文
电视制片管理专业
旅游管理专业论文
物业管理专业论文
信息管理专业论文
包装工程专业论文
印刷工程专业论文
动画专业论文
环境艺术专业论文
信息计算科学专业
物流专业论文范文
人力资源论文范文
营销专业论文范文
工商管理论文范文
汉语言文学论文范文
法律专业论文范文
教育管理论文范文
小学教育论文范文
学前教育论文范文
财务会计论文范文

电子商务论文范文

上一篇:输电线路状态检修专家系统的研究 下一篇:基于MAS的机器人动态博弈系统协作..

最新论文

精品推荐

毕业论文排版

热门论文


本站简介 | 联系方式 | 论文改重 | 免费获取 | 论文交换

本站部分论文来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:229120615@qq.com

毕业论文范文-论文范文-论文同学网(www.zjwd.net)提供计算机论文毕业论文,毕业论文范文,毕业设计,论文范文,毕业设计格式范文,论文格式范文

Copyright@ 2010-2024 zjwd.net 毕业论文范文-论文范文-论文同学网 版权所有