互动式学习体验

AI辅助强化学习
工作坊演示

通过交互式演示，直观理解强化学习的核心算法。从MDP基础到PPO进阶，轻松掌握RL精髓。

开始学习 → 📂 查看源码

📚 MDP基础

→

🎰 Bandit

→

📊 Q学习

→

🧠 DQN

→

📈 策略梯度

→

⚡ PPO

🎮

实时交互

拖动滑块调节参数，实时观察算法表现，告别枯燥的公式推导。

📊

可视化学习

动态图表展示学习曲线、热力图、神经网络架构等，理解更直观。

🔬

算法对比

多种算法同屏对比，快速理解各算法优缺点和适用场景。

💻

代码即学

每个演示都配套完整代码，边玩边学，马上实践。

学习任务

6个交互式演示

强化学习基础与MDP建模

理解Agent-环境交互范式，掌握马尔可夫决策过程的核心概念。

CartPole MDP Gymnasium

开始学习 →

多臂老虎机问题

掌握探索与利用的权衡，对比ε-greedy、UCB、Thompson Sampling三种算法。

Bandit ε-greedy UCB

开始学习 →

Q学习入门

理解值函数与贝尔曼方程，用Q学习解决FrozenLake迷宫问题。

Q-Learning FrozenLake Q表

开始学习 →

深度Q网络 (DQN)

从表格到神经网络，掌握经验回放、目标网络等关键技术。

DQN PyTorch 经验回放

开始学习 →

策略梯度方法

理解直接策略优化，掌握REINFORCE算法和方差缩减技术。

Policy Gradient REINFORCE Baseline

开始学习 →

PPO算法进阶

掌握现代深度强化学习主流算法，理解CLIP机制与KL约束。

PPO CLIP Actor-Critic

开始学习 →