任务6: PPO - 强化学习交互演示

✂️ PPO-Clip 机制

PPO通过裁剪概率比来限制策略更新的幅度，防止一次更新变化太大。

r = 1.05 正常

→

优势为正

r = 1.20 被裁剪

↔

裁剪区间

r = 1.50 过度更新

LCLIP(θ) = min(rt(θ) · At, clip(rt(θ), 1-ε, 1+ε) · At)

当策略变化超过 ε (通常0.1或0.2) 时，停止优化目标

📊 算法性能对比

DQN

离散动作不稳定

样本效率: ★★☆
收敛稳定性: ★★☆

REINFORCE

连续动作高方差

样本效率: ★★☆
收敛稳定性: ★★☆

PPO

SOTA 连续动作

样本效率: ★★★★☆
收敛稳定性: ★★★★★

📏 KL散度约束

自适应KL散度惩罚：限制新旧策略之间的差异，确保训练稳定。

0.05

当前KL

0.01

目标KL

0%

被裁剪比例

💡 PPO vs 其他算法

特性	DQN	REINFORCE	PPO
策略类型	间接（值函数）	直接（策略网络）	直接（策略网络）
动作空间	离散	连续	连续
探索方式	ε-greedy	随机采样	随机采样 + 熵奖励
稳定性	需要目标网络	高方差	Clip机制保证
样本效率	中等	低	高（可以多步更新）
超参数敏感度	中等	低	低（Clip自适应）