Dyna:Framework for reinforcement learning

Dyna

two types of experience

  1. Direct learning from experience generated from actual environment.
  2. Simulated experience from models used for planning.

Dyna: combine direct RL and planning
Planning(如DP) 和learning(如MC、TD)方法的核心都是用backing-up 更新公式计算value function 的估计值。区别在于Planning 所用经验是有模型生成的simulated experience,而learning method使用的经验是由真实环境生成的real experience。但两者都满足上述state space Planning结构,这表示很多思想和算法可以相互借鉴,在应用中常常用learning 中value function 估计值的更新公式取代Planning中的value function 估计值的更新公式。例如,我们可以将Q learning 和 planning 结合,得到random-sample one-step tabular Q-planning 方法。

planning的时候如果模型不准确怎么办
比如环境突然变化,要怎么办
How model can plan with incomplete models?
Dyna-Q会从之前的状态中采样。
那如果模型不准确要怎么尽快能知道呢?
Add a bonus to reward used in planning.
图片说明

图片说明

全部评论

相关推荐

12-14 11:43
黑龙江大学 Java
用微笑面对困难:确实比较烂,可以这么修改:加上大学的qs排名,然后大学简介要写一些,然后硕士大学加大加粗,科研经历第一句话都写上在复旦大学时,主要负责xxxx,简历左上角把学校logo写上,建议用复旦大学的简历模板
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务