Bandits 多臂***

首先探索和利用

探索Exploration——发现***的分布,探索新的可能
利用Exploitation——从最beneficial的***上寻求利益最大,在已知中找最优

随机MAB

最简单的MAB(Multi-Armed Bandits

Arm可以看作一个握杆,***的一个动作

每个***有k个Arm作为可能的行动{1..k}

每个Arm_i都产生奖励,服从一个均值为u_i的分布P_i

有1...T轮:
——每轮都做一个动作i_t
——从Arm{1..k}种选择一个Arm_i
——然后收到服从P_i,t的一个奖励

我们的目标就是最大限度的减少累积遗憾Regret:
最佳事后预期累计回报—***的预期累计奖励

最佳事后预期累计回报:
就是在啥都知道的情况下,每轮都做最优选择得到的回报 uT 这里u=max(x_i*u_i)
***的预期累计奖励:
啥也不知道的情况下,每轮随机做选择得到的回报期望

这是最简单的随机多臂***基础,就是尽可能的去实现像全部已知一样的好效果。

Greedy 贪心算法

改进了一下基础MAB

把一个动作i已经观测到的报酬取平均作为该动作i的估计值
而没有观测过的动作,则使用一个初始值Q0作为估计值,直到使用过之后,使用观测值作为估计值
每轮观测之后更新估计值

贪心算法就是选择估计值最优的动作,但这样有可能会陷入局部最优——尝试到大于初始值的动作之后,不再探索。

𝜀-Greedy 加参数的贪心

前面对估计值的设置不变
但是每轮有𝜀概率再重新在{1..k}种去做随机探索,1-𝜀概率从已知的最优种去做选择

超参𝜀控制探索和利用的概率

改进过的Greedy,有一定可能会去探索,跳出局部找到全局最优解

注意:如果找到全局最优,可能还会继续探索 所以超参不能太大 不然后期会浪费 降低收益率

𝜀=0就是普通的贪心算法

贪心算法的效果

探索概率𝜀的取值

贪心算法的效果对比

可以看到
1.纯贪心算法增长快,但是整体奖励低
2.𝜀-贪心算法的长期回报更好
3.𝜀=0.01-贪婪开始比较缓慢(很少探索),但最终会优于𝜀=0.1-贪婪(过度探索后的开发)

初始值Q0的取值

贪心算法的效果对比

悲观主义:初始Q低于可观察到的回报➡️仅尝试一只手臂
Q0很小 可能就会在有收益后 只尝试那一个

乐观:初始Q高于可观察的奖赏➡️探索更多手臂
Q0足够大 就能探索很多 然后找到最好的

中段初始Q➡️最多探索一次
但纯贪心算法从来没有探索手臂超过一次

贪心的局限性

1.我们可以通过乐观的初始值Q0和减少𝜀来改进基础的贪心算法

2.探索和利用在这里过于“不同”
——探索行动完全无视有希望的动作,对所有Arm一视同仁:其实应该倾向于更有潜力的
——只有在“冷启动”的情况下初始值技巧才有帮助。

3.利用对估计的可信度视而不见
——应该根据估计可信度来判断
(比如找收益最大 只尝试几次可能只是巧合)

UCB 上置信边界算法

动作的估计值由两部分组成
UCB估计值

给估计的收益u加上了置信区间(有上下限),如果尝试次数多了,区间就会变小
开方内很大就是没怎么尝试,潜力很大
u很大就是尝试过,收益真的很大

挑选上限最大的:u很大或者开方内的很大,或者都大

同时做到了利用和探索 同时进行 ——UCB的优点
缺点是可能会停在某个不好的点一段时间 一开始会有点低 但最终会超过 可以看和贪心算法的对比图
UCB效果更好

全部评论
赌bo机都马赛克掉了..
点赞 回复 分享
发布于 2020-07-15 00:37

相关推荐

不愿透露姓名的神秘牛友
2025-12-17 16:48
今天九点半到公司,我跟往常一样先扫了眼电脑,屁活儿没有。寻思着没事干,就去蹲了个厕所,回来摸出手机刷了会儿。结果老板刚好路过,拍了我一下说上班别玩手机,我吓得赶紧揣兜里。也就过了四十分钟吧,我的直属领导把我叫到小隔间,上来就给我一句:“你玩手机这事儿把老板惹毛了,说白了,你可以重新找工作了,等下 HR 会来跟你谈。” 我当时脑子直接宕机,一句话都没憋出来。后面 HR 找我谈话,直属领导也在旁边。HR 说我这毛病不是一次两次了,属于屡教不改,不光上班玩手机,还用公司电脑看论文、弄学校的事儿。我当时人都傻了,上班摸鱼是不对,可我都是闲得发慌的时候才摸啊!而且玩手机这事儿,从来没人跟我说过后果这么严重,更没人告诉我在公司学个习也算犯错!连一次口头提醒都没有,哪儿来的屡教不改啊?更让我膈应的是,昨天部门刚开了会,说四个实习生里留一个转正,让大家好好表现。结果今天我就因为玩手机被开了。但搞笑的是,开会前直属领导就把我叫去小会议室,明明白白告诉我:“转正这事儿你就别想了,你的学历达不到我们部门要求,当初招你进来也没打算给你这个机会。”合着我没入贵厂的眼是吧?可我都已经被排除在转正名单外了,摸个鱼至于直接把我开了吗?真的太离谱了!
rush$0522:转正名单没进,大概率本来就没打算留你
摸鱼被leader发现了...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务