Dyna:Framework for reinforcement learning
Dyna
two types of experience
- Direct learning from experience generated from actual environment.
- Simulated experience from models used for planning.
Dyna: combine direct RL and planning
Planning(如DP) 和learning(如MC、TD)方法的核心都是用backing-up 更新公式计算value function 的估计值。区别在于Planning 所用经验是有模型生成的simulated experience,而learning method使用的经验是由真实环境生成的real experience。但两者都满足上述state space Planning结构,这表示很多思想和算法可以相互借鉴,在应用中常常用learning 中value function 估计值的更新公式取代Planning中的value function 估计值的更新公式。例如,我们可以将Q learning 和 planning 结合,得到random-sample one-step tabular Q-planning 方法。
planning的时候如果模型不准确怎么办
比如环境突然变化,要怎么办
How model can plan with incomplete models?
Dyna-Q会从之前的状态中采样。
那如果模型不准确要怎么尽快能知道呢?
Add a bonus to reward used in planning.
