🎮 CartPole 实时模拟

经典强化学习环境:让杆子保持平衡的小车

位置 (x)
0.00
速度 (ẋ)
0.00
角度 (θ)
0.00°
角速度 (θ̇)
0.00
得分
0
智能策略 50% 随机动作

🔄 Agent-环境交互流程

观察
状态 S
Agent
策略 π
执行
动作 A
环境
转移
反馈
奖励 R
新状态
S'

📍 状态 (State, S)

智能体对环境的观察。在CartPole中,状态是4个连续值:[位置, 速度, 角度, 角速度]

🎮 动作 (Action, A)

智能体可以执行的操作。CartPole有2个动作:0 = 左推,1 = 右推

🎁 奖励 (Reward, R)

环境对动作的反馈。每坚持一步获得 +1 奖励。目标是最大化累计奖励!

🧠 策略 (Policy, π)

从状态到动作的映射。策略可以是确定性的 π(s)=a 或随机的 π(a|s)

📈 学习曲线

0
总回合数
0
最高得分
0.0
平均得分
0.0
近10回合平均

💡 核心要点

1️⃣

马尔可夫性

未来只取决于当前状态,与历史无关。这是MDP的核心假设。

2️⃣

探索 vs 利用

探索新动作可能发现更好的策略,但会牺牲短期收益。利用已知好策略可能陷入局部最优。

3️⃣

累计奖励最大化

RL目标是最大化整个轨迹的累计奖励,而不是单步奖励。使用折扣因子γ权衡短期与长期收益。