1
基础概念
强化学习基础与MDP建模
理解Agent与环境的交互范式,掌握马尔可夫决策过程的核心概念
🎮 CartPole 实时模拟
经典强化学习环境:让杆子保持平衡的小车
位置 (x)
0.00
速度 (ẋ)
0.00
角度 (θ)
0.00°
角速度 (θ̇)
0.00
得分
0
智能策略
50%
随机动作
🔄 Agent-环境交互流程
观察
状态 S
Agent
策略 π
执行
动作 A
环境
转移
反馈
奖励 R
新状态
S'
📍 状态 (State, S)
智能体对环境的观察。在CartPole中,状态是4个连续值:[位置, 速度, 角度, 角速度]
🎮 动作 (Action, A)
智能体可以执行的操作。CartPole有2个动作:0 = 左推,1 = 右推
🎁 奖励 (Reward, R)
环境对动作的反馈。每坚持一步获得 +1 奖励。目标是最大化累计奖励!
🧠 策略 (Policy, π)
从状态到动作的映射。策略可以是确定性的 π(s)=a 或随机的 π(a|s)
📈 学习曲线
0
总回合数
0
最高得分
0.0
平均得分
0.0
近10回合平均
💡 核心要点
1️⃣
马尔可夫性
未来只取决于当前状态,与历史无关。这是MDP的核心假设。
2️⃣
探索 vs 利用
探索新动作可能发现更好的策略,但会牺牲短期收益。利用已知好策略可能陷入局部最优。
3️⃣
累计奖励最大化
RL目标是最大化整个轨迹的累计奖励,而不是单步奖励。使用折扣因子γ权衡短期与长期收益。