任务1: MDP基础 - 强化学习交互演示

🎮 CartPole 实时模拟

经典强化学习环境：让杆子保持平衡的小车

位置 (x)

0.00

速度 (ẋ)

0.00

角度 (θ)

0.00°

角速度 (θ̇)

0.00

得分

随机策略强度

智能策略 50% 随机动作

🔄 Agent-环境交互流程

观察

状态 S

→

Agent

策略 π

→

执行

动作 A

→

环境

转移

→

反馈

奖励 R

↩

新状态

📍 状态 (State, S)

智能体对环境的观察。在CartPole中，状态是4个连续值：[位置, 速度, 角度, 角速度]

🎮 动作 (Action, A)

智能体可以执行的操作。CartPole有2个动作：0 = 左推，1 = 右推

🎁 奖励 (Reward, R)

环境对动作的反馈。每坚持一步获得 +1 奖励。目标是最大化累计奖励！

🧠 策略 (Policy, π)

从状态到动作的映射。策略可以是确定性的 π(s)=a 或随机的 π(a|s)

📈 学习曲线

总回合数

最高得分

0.0

平均得分

0.0

近10回合平均

💡 核心要点

1️⃣

马尔可夫性

未来只取决于当前状态，与历史无关。这是MDP的核心假设。

2️⃣

探索 vs 利用

探索新动作可能发现更好的策略，但会牺牲短期收益。利用已知好策略可能陷入局部最优。

3️⃣

累计奖励最大化

RL目标是最大化整个轨迹的累计奖励，而不是单步奖励。使用折扣因子γ权衡短期与长期收益。