任务4: DQN - 强化学习交互演示

🧠 DQN 网络架构

4输入

状态 (CartPole)

64隐藏层

ReLU 激活

64隐藏层

ReLU 激活

2输出

Q值 (动作)

接收环境的4个状态值：位置、速度、角度、角速度

全连接层，学习状态的非线性特征表示

输出每个动作的Q值，选择最大Q值对应的动作

存储过去的 (状态, 动作, 奖励, 下一状态) 四元组，训练时随机采样打破数据相关性

缓冲区大小

更新次数

100%

当前ε

0.00

损失值

学习率

0.00010.0010.005

折扣因子 γ

0.900.991.0

目标网络更新频率

1005001000

将交互经验存储在缓冲区中，训练时随机采样。这样可以：①打破样本的时间相关性 ②提高数据利用率 ③让神经网络更稳定地收敛

使用两个网络：一个是不断更新的Q网络，另一个是定期复制参数的目标网络。目标Q值使用目标网络计算，避免训练不稳定。

训练初期以高概率随机探索，随着训练进行逐渐降低ε，让智能体更多地利用学到的策略。