📚
MDP基础
→
🎰
Bandit
→
📊
Q学习
→
🧠
DQN
→
📈
策略梯度
→
⚡
PPO
实时交互
拖动滑块调节参数,实时观察算法表现,告别枯燥的公式推导。
可视化学习
动态图表展示学习曲线、热力图、神经网络架构等,理解更直观。
算法对比
多种算法同屏对比,快速理解各算法优缺点和适用场景。
代码即学
每个演示都配套完整代码,边玩边学,马上实践。
学习任务
6个交互式演示1
强化学习基础与MDP建模
理解Agent-环境交互范式,掌握马尔可夫决策过程的核心概念。
开始学习 →
2
多臂老虎机问题
掌握探索与利用的权衡,对比ε-greedy、UCB、Thompson Sampling三种算法。
开始学习 →
3
Q学习入门
理解值函数与贝尔曼方程,用Q学习解决FrozenLake迷宫问题。
开始学习 →
4
深度Q网络 (DQN)
从表格到神经网络,掌握经验回放、目标网络等关键技术。
开始学习 →
5
策略梯度方法
理解直接策略优化,掌握REINFORCE算法和方差缩减技术。
开始学习 →
6
PPO算法进阶
掌握现代深度强化学习主流算法,理解CLIP机制与KL约束。
开始学习 →