🎰 多臂老虎机

每个柱子是"一条臂",高度代表预期奖励。点击"开始"观察算法如何选择!

ε-Greedy

以ε概率随机探索,否则选择当前最优

0% 10% 100%
UCB

上置信界算法,平衡均值与不确定性

0 2.0 5
Thompson Sampling

贝叶斯方法,从后验分布采样选择

无需额外参数,自适应探索

🎯 臂的选择(实时)

0
总步数
0.00
平均奖励
0%
最优选择率
?
真实最优臂

📈 累计奖励对比

🔥 选择频率热力图

展示三种算法对各臂的选择频率分布

ε-Greedy

UCB

Thompson

💡 算法对比

算法探索方式参数敏感度收敛速度适用场景
ε-Greedy固定随机探索低(只需调ε)中等快速原型、基线对比
UCB基于不确定性中等(需调c)较快需要稳定收敛
Thompson贝叶斯采样低(自适应)在线学习、生产环境