6
现代深度RL
PPO 算法进阶
掌握现代深度强化学习主流算法,理解CLIP机制与KL约束
✂️ PPO-Clip 机制
PPO通过裁剪概率比来限制策略更新的幅度,防止一次更新变化太大。
r = 1.05
正常
→
优势为正
r = 1.20
被裁剪
↔
裁剪区间
r = 1.50
过度更新
LCLIP(θ) = min(rt(θ) · At, clip(rt(θ), 1-ε, 1+ε) · At)
当策略变化超过 ε (通常0.1或0.2) 时,停止优化目标
📊 算法性能对比
DQN
离散动作
不稳定
样本效率: ★★☆
收敛稳定性: ★★☆
REINFORCE
连续动作
高方差
样本效率: ★★☆
收敛稳定性: ★★☆
PPO
SOTA
连续动作
样本效率: ★★★★☆
收敛稳定性: ★★★★★
📏 KL散度约束
自适应KL散度惩罚:限制新旧策略之间的差异,确保训练稳定。
0.05
当前KL
0.01
目标KL
0%
被裁剪比例
💡 PPO vs 其他算法
| 特性 | DQN | REINFORCE | PPO |
|---|---|---|---|
| 策略类型 | 间接(值函数) | 直接(策略网络) | 直接(策略网络) |
| 动作空间 | 离散 | 连续 | 连续 |
| 探索方式 | ε-greedy | 随机采样 | 随机采样 + 熵奖励 |
| 稳定性 | 需要目标网络 | 高方差 | Clip机制保证 |
| 样本效率 | 中等 | 低 | 高(可以多步更新) |
| 超参数敏感度 | 中等 | 低 | 低(Clip自适应) |