《强化学习:导论》(第 2 版)

[美] Richard S. Sutton / Andrew G. Barto
2 阅读 0 点赞 2026-04-17 科技 小虾
强化学习SuttonBartoQ 学习深度强化学习

《强化学习:导论》是强化学习领域的圣经,作者 Sutton 和 Barto 是该领域的奠基人。这本书系统介绍了强化学习的基本原理和算法,包括马尔可夫决策过程、动态规划、蒙特卡洛方法、时序差分学习、Q 学习、策略梯度等。AlphaGo 的核心算法就基于本书内容。这是 AI 决策和机器人学习的必读经典。

本书速读

📖 本书核心内容

《强化学习:导论》(Reinforcement Learning: An Introduction)是强化学习领域的圣经级著作,由 Richard S. Sutton 和 Andrew G. Barto 撰写,第 1 版于 1998 年出版,第 2 版于 2018 年更新。Sutton 和 Barto 是强化学习领域的奠基人,他们的研究影响了整个领域的发展。这本书系统介绍了强化学习的基本原理和算法,包括马尔可夫决策过程、动态规划、蒙特卡洛方法、时序差分学习、Q 学习、策略梯度等核心内容。AlphaGo 的核心算法就基于本书介绍的方法。随着深度强化学习的兴起,这本书的重要性更加凸显。这是 AI 决策、机器人学习、游戏 AI 等领域的必读经典。

🎯 核心观点:从交互中学习

强化学习的核心思想非常直观:

  • 智能体与环境交互:智能体通过行动与环境交互,获得奖励信号,学习最优策略。
  • 试错学习:通过不断尝试,智能体逐渐了解哪些行动能带来更高奖励。
  • 延迟奖励:强化学习关注长期累积奖励,而非即时奖励,这需要长远规划。
  • 探索与利用:智能体需要在探索新行动和利用已知好行动之间取得平衡。

📊 马尔可夫决策过程

书中建立了强化学习的数学框架:

  • 状态:环境在某一时刻的描述,智能体根据状态做出决策。
  • 行动:智能体可以采取的动作,行动会改变环境状态。
  • 奖励:环境对智能体行动的反馈信号,是学习的目标。
  • 策略:智能体在给定状态下选择行动的规则,是学习的目标。
  • 值函数:评估状态或状态 - 行动对的好坏,指导策略改进。

🔍 经典算法详解

书中详细介绍了强化学习的经典算法:

  • 动态规划:在已知环境模型的情况下,通过迭代计算最优值函数和策略。
  • 蒙特卡洛方法:通过采样完整轨迹来估计值函数,无需环境模型。
  • 时序差分学习:结合动态规划和蒙特卡洛的优点,可以在线学习。
  • Q 学习:最著名的时序差分控制算法,学习行动值函数。
  • SARSA:另一种时序差分控制算法,与 Q 学习类似但更新规则不同。

💡 深度强化学习

第 2 版新增了深度强化学习内容:

  • 深度 Q 网络:DQN 将深度学习与 Q 学习结合,在 Atari 游戏上达到人类水平。
  • 策略梯度方法:直接优化策略参数,适合连续行动空间。
  • Actor-Critic:结合值函数和策略梯度的优点,稳定且高效。
  • AlphaGo:将蒙特卡洛树搜索与深度神经网络结合,击败人类围棋冠军。

⚙️ 探索与利用的平衡

书中深入讨论了探索与利用问题:

  • ε-贪婪:以概率ε随机探索,以概率 1-ε 选择最优行动。
  • UCB:上界置信算法,优先探索不确定性高的行动。
  • 汤普森采样:根据后验概率采样行动,自然平衡探索与利用。
  • 内在动机:引入好奇心等内在奖励,鼓励智能体探索新状态。

⭐ 金句摘录

"强化学习是从交互中学习以实现目标。"
"探索与利用的平衡是强化学习的核心挑战。"
"强化学习关注长期累积奖励,而非即时满足。"
"值函数是强化学习的核心,它预测未来的奖励。"
"策略梯度方法直接优化策略,适合复杂和高维行动空间。"

📚 阅读建议

本书适合 AI 研究者、工程师和研究生阅读。建议重点阅读:

  • 第 1-3 章 - 建立强化学习的基本概念
  • 第 4-6 章 - 掌握动态规划、蒙特卡洛、时序差分
  • 第 7-9 章 - 深入学习 Q 学习和策略梯度
  • 第 13-16 章 - 了解深度强化学习和前沿进展

读完《强化学习:导论》,你将系统掌握强化学习的基本原理和主要算法,理解 AlphaGo 等 AI 系统背后的技术。这本书是强化学习领域的奠基之作,虽然部分内容较为深入,但值得反复研读。随着 AI 在决策领域的广泛应用,强化学习的重要性将愈发凸显。