2020-02-25 08:03 已编辑腾讯_数据平台部_算法工程师

关注

Dyna:Framework for reinforcement learning

Dyna

two types of experience

Direct learning from experience generated from actual environment.
Simulated experience from models used for planning.

Dyna: combine direct RL and planning
Planning（如DP）和learning（如MC、TD）方法的核心都是用backing-up 更新公式计算value function 的估计值。区别在于Planning 所用经验是有模型生成的simulated experience，而learning method使用的经验是由真实环境生成的real experience。但两者都满足上述state space Planning结构，这表示很多思想和算法可以相互借鉴，在应用中常常用learning 中value function 估计值的更新公式取代Planning中的value function 估计值的更新公式。例如，我们可以将Q learning 和 planning 结合，得到random-sample one-step tabular Q-planning 方法。

planning的时候如果模型不准确怎么办
比如环境突然变化，要怎么办
How model can plan with incomplete models?
Dyna-Q会从之前的状态中采样。
那如果模型不准确要怎么尽快能知道呢？
Add a bonus to reward used in planning.
图片说明

图片说明

全部评论

推荐最新楼层

昨天 17:05

卓驭科技_HR(准入职员工)

卓驭（大疆车载）内推

卓驭 嵌入式中间件实习 面经写一写面经，回馈一下社区。⌚️timeline：五月底👋part1：自我介绍 && 项目介绍1. 项目里的内存占用，资源使用的性能评估？性能优化的思考？2. 端侧大模型的选型？3. 机器人比赛中最难的一个问题？技术方案的选择用了多长的时间？4. 之前实习的主要工作？方案是如何确定的？5. 对车载中间件的了解？6. 。。。忘了🤏part2：八股拷打1. 设计模式？平时开发有用到过哪一些设计模式吗？2. 对多态的了解？静态and动态?3. 虚函数里面父类和子类的交互？4. C++容器中vector和list的差异？5. vector的底层实现原理？扩...

点赞评论收藏

分享

12-24 15:35

文远知行_感知算法工程师(准入职员工)

衣恋集团内推，衣恋集团内推码

战略管培生面经1. 请介绍一下你对ESI战略管培生的理解以及你为什么想加入衣恋集团？ 2. 你是如何处理压力和挑战的？请举例说明。 3. 你对衣恋集团的企业文化了解多少？你是否认同？ 4. 你是如何进行数据分析的？请举例说明。 5. 你熟悉哪些市场调研方法？请举例说明。 6. 你对商业计划书的撰写流程了解多少？ 7. 你对财务报表分析了解多少？ 8. 你是如何进行市场细分的？请举例说明。 9. 你对品牌管理的理解是什么？ 10. 你如何评估一个项目的可行性？ 11. 你对供应链管理了解多少？ 12. 你认为衣恋集团的优势和劣势分别是什么？New Balance母公司&韩国最大时尚零售集...

点赞评论收藏

分享

12-14 11:43

黑龙江大学 Java

这个简历烂吗？目前研二导师放实习

用微笑面对困难：确实比较烂，可以这么修改：加上大学的qs排名，然后大学简介要写一些，然后硕士大学加大加粗，科研经历第一句话都写上在复旦大学时，主要负责xxxx，简历左上角把学校logo写上，建议用复旦大学的简历模板

点赞评论收藏

分享

不愿透露姓名的神秘牛友

12-09 00:19

28届，第一份实习怎么找?

普通双非本科，似乎很多企业都只招应届的，想实习感受一下真实的码农工作环境，试着投了一些，但积极回应较少。

想干测开的tomca...：清华大学你怕个***呀操

不给转正的实习，你还去吗

点赞评论收藏

分享

昨天 15:43

韶音科技_电子工程师(准入职员工)

图拉斯内推，图拉斯内推码

ai面总结：AI调教的很好，问的问题很有意思，整场面试不会有很大的压迫感，追问大多是根据你的回答提问。总时长：35分钟Q1:自我介绍，重点介绍一下个人背景和大学期间的主要经历。Q2：你对于在一家公司长期发展有什么看法？你认为哪几点因素会让你在一家公司长期工作？（有追问）Q3：你取得过的最大成就是什么？过程中最大的难点是什么？你是如何突破的？最终的结果怎么样？（有追问2个）Q4：请描述一个过往遇到的最有压力困难或最具挑战的一个场景，你是如何解决的？对你有什么影响？（有追问）Q5：依你的看法，请描述一个你近期完成的项目任务，如果重来一次，你会做哪些不同的事情来提升结果？（有追问2个）Q6：电商运营...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客2025仙途报告 #

5404次浏览 146人参与

# 礼物开箱Plog #

1823次浏览 86人参与

# 2025年终总结 #

179143次浏览 3043人参与

# 工作两年，想和老板谈涨薪怎么说 #

38828次浏览 175人参与

# 哪些行业值得去? #

14404次浏览 76人参与

# 你面试体验感最差/最好的公司 #

23217次浏览 389人参与

# 秋招落幕，你是He or Be #

16413次浏览 303人参与

# 一人说一个提前实习的好处 #

14940次浏览 246人参与

# 今年你最想重开的一场面试是？ #

6314次浏览 89人参与

# 考公VS就业，你怎么选？ #

88161次浏览 497人参与

# 职场新人体验 #

156972次浏览 1123人参与

# 离家近房租贵VS离家远但房租低，怎么选 #

13741次浏览 130人参与

# 重来一次，你会对开始求职的自己说 #

7188次浏览 192人参与

# 找工作，行业重要还是岗位重要？ #

85899次浏览 1700人参与

# 各大公司公布25年Q3财报，你怎么看？ #

5063次浏览 50人参与

# 实习没事做是福还是祸？ #

19256次浏览 290人参与

# 机械制造秋招总结 #

97392次浏览 878人参与

# 宁德时代求职进展汇总 #

154196次浏览 686人参与

# 反问环节如何提问 #

126474次浏览 2670人参与

# 工作中听到最受打击的一句话 #

8806次浏览 152人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务