4
深度强化学习
深度Q网络 (DQN)
从表格到神经网络,掌握经验回放、目标网络等关键技术
🧠 DQN 网络架构
4输入
状态 (CartPole)
64隐藏层
ReLU 激活
64隐藏层
ReLU 激活
2输出
Q值 (动作)
📥 输入层
接收环境的4个状态值:位置、速度、角度、角速度
🔧 隐藏层
全连接层,学习状态的非线性特征表示
📤 输出层
输出每个动作的Q值,选择最大Q值对应的动作
💾 经验回放缓冲区
存储过去的 (状态, 动作, 奖励, 下一状态) 四元组,训练时随机采样打破数据相关性
0
缓冲区大小
0
更新次数
100%
当前ε
0.00
损失值
📈 训练曲线
⚙️ 超参数
0.00010.0010.005
0.900.991.0
1005001000
💡 DQN 关键技术
1. 经验回放 (Experience Replay)
将交互经验存储在缓冲区中,训练时随机采样。这样可以:①打破样本的时间相关性 ②提高数据利用率 ③让神经网络更稳定地收敛
2. 目标网络 (Target Network)
使用两个网络:一个是不断更新的Q网络,另一个是定期复制参数的目标网络。目标Q值使用目标网络计算,避免训练不稳定。
3. ε-衰减探索
训练初期以高概率随机探索,随着训练进行逐渐降低ε,让智能体更多地利用学到的策略。