1. 学习了设计模式:适配器模式。
2. 读完论文Adaptive Policy Learning for Offline-to-Online Reinforcement Learning:本文考虑了在线数据和离线数据的差异,如何有效利用在线和离线数据。提出了一种适应策略学习框架。在线微调时,对离线数据采用悲观更新,对在线数据采用乐观更新。
2. 读完论文Adaptive Policy Learning for Offline-to-Online Reinforcement Learning:本文考虑了在线数据和离线数据的差异,如何有效利用在线和离线数据。提出了一种适应策略学习框架。在线微调时,对离线数据采用悲观更新,对在线数据采用乐观更新。
2024-04-12
在牛客打卡9天,今天也很努力鸭!
全部评论
相关推荐
点赞 评论 收藏
分享
11-20 15:36
山东大学 C++
NewCoderAA...:面试官说这话兴许有可能是暗示,但是hr面的hr都会说这句话的,这是她们的礼貌用语 点赞 评论 收藏
分享
jay118_:实在担心的话,就把你账号里面的认证人脸改成你室友的脸,让他每天帮你刷。要是人脸写死了就每天打视频电话刷脸。办法总比困难多。 点赞 评论 收藏
分享
点赞 评论 收藏
分享
美的集团公司福利 816人发布