任务5: 策略梯度 - 强化学习交互演示

📈 策略网络架构

4状态输入

观察

64隐藏层

ReLU

2Softmax

动作概率

← 左推50%

→ 右推50%

观察策略随训练的演变：动作概率如何根据累计奖励调整

回合数

回合奖励

0.0

平均奖励

1.00

策略熵

Baseline（通常是值函数）可以减少方差，加速收敛。观察两种策略的学习曲线差异。

∇J = G·∇log π(a|s)

方差较高，收敛较慢

∇J = (G-b(s))·∇log π(a|s)

方差降低，加速收敛

                    ∇θ J(πθ) = E[∇θ log πθ(a|s) · Qπ(s, a)]
                

J(πθ)：策略的目标函数（通常是累计奖励期望）
πθ(a|s)：参数化为θ的策略，给定状态s下选择动作a的概率
Qπ(s, a)：状态-动作值函数，可以是实际累计奖励G或优势函数A