任务2: Bandit问题 - 强化学习交互演示

🎰 多臂老虎机

每个柱子是"一条臂"，高度代表预期奖励。点击"开始"观察算法如何选择！

ε-Greedy

以ε概率随机探索，否则选择当前最优

ε 值 (探索概率)

0% 10% 100%

UCB

上置信界算法，平衡均值与不确定性

UCB 常数 c

0 2.0 5

Thompson Sampling

贝叶斯方法，从后验分布采样选择

无需额外参数，自适应探索

🎯 臂的选择（实时）

0

总步数

0.00

平均奖励

0%

最优选择率

?

真实最优臂

📈 累计奖励对比

🔥 选择频率热力图

展示三种算法对各臂的选择频率分布

ε-Greedy

UCB

Thompson

💡 算法对比

算法	探索方式	参数敏感度	收敛速度	适用场景
ε-Greedy	固定随机探索	低（只需调ε）	中等	快速原型、基线对比
UCB	基于不确定性	中等（需调c）	较快	需要稳定收敛
Thompson	贝叶斯采样	低（自适应）	快	在线学习、生产环境