✂️ PPO-Clip 机制

PPO通过裁剪概率比来限制策略更新的幅度,防止一次更新变化太大。

r = 1.05 正常
优势为正
r = 1.20 被裁剪
裁剪区间
r = 1.50 过度更新
LCLIP(θ) = min(rt(θ) · At, clip(rt(θ), 1-ε, 1+ε) · At)

当策略变化超过 ε (通常0.1或0.2) 时,停止优化目标

📊 算法性能对比

DQN

离散动作 不稳定

样本效率: ★★☆
收敛稳定性: ★★☆

REINFORCE

连续动作 高方差

样本效率: ★★☆
收敛稳定性: ★★☆

PPO

SOTA 连续动作

样本效率: ★★★★☆
收敛稳定性: ★★★★★

📏 KL散度约束

自适应KL散度惩罚:限制新旧策略之间的差异,确保训练稳定。

0.05
当前KL
0.01
目标KL
0%
被裁剪比例

💡 PPO vs 其他算法

特性DQNREINFORCEPPO
策略类型间接(值函数)直接(策略网络)直接(策略网络)
动作空间离散连续连续
探索方式ε-greedy随机采样随机采样 + 熵奖励
稳定性需要目标网络高方差Clip机制保证
样本效率中等高(可以多步更新)
超参数敏感度中等低(Clip自适应)