2
Bandit问题
多臂老虎机问题
掌握探索与利用的权衡,理解ε-greedy、UCB、Thompson Sampling三种算法
🎰 多臂老虎机
每个柱子是"一条臂",高度代表预期奖励。点击"开始"观察算法如何选择!
ε-Greedy
以ε概率随机探索,否则选择当前最优
0%
10%
100%
UCB
上置信界算法,平衡均值与不确定性
0
2.0
5
Thompson Sampling
贝叶斯方法,从后验分布采样选择
无需额外参数,自适应探索
🎯 臂的选择(实时)
0
总步数
0.00
平均奖励
0%
最优选择率
?
真实最优臂
📈 累计奖励对比
🔥 选择频率热力图
展示三种算法对各臂的选择频率分布
ε-Greedy
UCB
Thompson
💡 算法对比
| 算法 | 探索方式 | 参数敏感度 | 收敛速度 | 适用场景 |
|---|---|---|---|---|
| ε-Greedy | 固定随机探索 | 低(只需调ε) | 中等 | 快速原型、基线对比 |
| UCB | 基于不确定性 | 中等(需调c) | 较快 | 需要稳定收敛 |
| Thompson | 贝叶斯采样 | 低(自适应) | 快 | 在线学习、生产环境 |