🧠 DQN 网络架构

4输入
状态 (CartPole)
64隐藏层
ReLU 激活
64隐藏层
ReLU 激活
2输出
Q值 (动作)

📥 输入层

接收环境的4个状态值:位置、速度、角度、角速度

🔧 隐藏层

全连接层,学习状态的非线性特征表示

📤 输出层

输出每个动作的Q值,选择最大Q值对应的动作

💾 经验回放缓冲区

存储过去的 (状态, 动作, 奖励, 下一状态) 四元组,训练时随机采样打破数据相关性

0
缓冲区大小
0
更新次数
100%
当前ε
0.00
损失值

📈 训练曲线

⚙️ 超参数

0.00010.0010.005
0.900.991.0
1005001000

💡 DQN 关键技术

1. 经验回放 (Experience Replay)

将交互经验存储在缓冲区中,训练时随机采样。这样可以:①打破样本的时间相关性 ②提高数据利用率 ③让神经网络更稳定地收敛

2. 目标网络 (Target Network)

使用两个网络:一个是不断更新的Q网络,另一个是定期复制参数的目标网络。目标Q值使用目标网络计算,避免训练不稳定。

3. ε-衰减探索

训练初期以高概率随机探索,随着训练进行逐渐降低ε,让智能体更多地利用学到的策略。