任务3: Q学习 - 强化学习交互演示

🧊 FrozenLake 格子世界

目标：从左上角(S)走到右下角(G)，避开冰洞(H)。F表示安全的冰面。

S起点

F冰面

H冰洞

G终点

颜色越深表示该状态的Q值越大（更安全）

回合数

当前步数

回合奖励

成功率

状态 0

当前位置

学习率 α

0.010.201.0

折扣因子 γ

0.50.951.0

探索率 ε

0%30%100%

                        Q(s, a) = Q(s, a) + α[r + γmax Q(s', a') - Q(s, a)]
                    

Q(s,a)：状态s下执行动作a的价值
α：学习率，控制新信息权重
r：获得的奖励
γ：折扣因子，越大越重视未来
max Q(s',a')：下一状态的最优动作价值

if random() < ε: return random_action()

else: return argmax(Q[state])

ε控制探索（随机动作）和利用（贪心选择）的平衡。