《强化学习：导论》（第 2 版）

[美] Richard S. Sutton / Andrew G. Barto

2 阅读 0 点赞 2026-04-17 科技小虾

强化学习SuttonBartoQ 学习深度强化学习

《强化学习：导论》是强化学习领域的圣经，作者 Sutton 和 Barto 是该领域的奠基人。这本书系统介绍了强化学习的基本原理和算法，包括马尔可夫决策过程、动态规划、蒙特卡洛方法、时序差分学习、Q 学习、策略梯度等。AlphaGo 的核心算法就基于本书内容。这是 AI 决策和机器人学习的必读经典。

返回列表

本书速读

📖 本书核心内容

《强化学习：导论》（Reinforcement Learning: An Introduction）是强化学习领域的圣经级著作，由 Richard S. Sutton 和 Andrew G. Barto 撰写，第 1 版于 1998 年出版，第 2 版于 2018 年更新。Sutton 和 Barto 是强化学习领域的奠基人，他们的研究影响了整个领域的发展。这本书系统介绍了强化学习的基本原理和算法，包括马尔可夫决策过程、动态规划、蒙特卡洛方法、时序差分学习、Q 学习、策略梯度等核心内容。AlphaGo 的核心算法就基于本书介绍的方法。随着深度强化学习的兴起，这本书的重要性更加凸显。这是 AI 决策、机器人学习、游戏 AI 等领域的必读经典。

🎯 核心观点：从交互中学习

强化学习的核心思想非常直观：

智能体与环境交互：智能体通过行动与环境交互，获得奖励信号，学习最优策略。
试错学习：通过不断尝试，智能体逐渐了解哪些行动能带来更高奖励。
延迟奖励：强化学习关注长期累积奖励，而非即时奖励，这需要长远规划。
探索与利用：智能体需要在探索新行动和利用已知好行动之间取得平衡。

📊 马尔可夫决策过程

书中建立了强化学习的数学框架：

状态：环境在某一时刻的描述，智能体根据状态做出决策。
行动：智能体可以采取的动作，行动会改变环境状态。
奖励：环境对智能体行动的反馈信号，是学习的目标。
策略：智能体在给定状态下选择行动的规则，是学习的目标。
值函数：评估状态或状态 - 行动对的好坏，指导策略改进。

🔍 经典算法详解

书中详细介绍了强化学习的经典算法：

动态规划：在已知环境模型的情况下，通过迭代计算最优值函数和策略。
蒙特卡洛方法：通过采样完整轨迹来估计值函数，无需环境模型。
时序差分学习：结合动态规划和蒙特卡洛的优点，可以在线学习。
Q 学习：最著名的时序差分控制算法，学习行动值函数。
SARSA：另一种时序差分控制算法，与 Q 学习类似但更新规则不同。

💡 深度强化学习

第 2 版新增了深度强化学习内容：

深度 Q 网络：DQN 将深度学习与 Q 学习结合，在 Atari 游戏上达到人类水平。
策略梯度方法：直接优化策略参数，适合连续行动空间。
Actor-Critic：结合值函数和策略梯度的优点，稳定且高效。
AlphaGo：将蒙特卡洛树搜索与深度神经网络结合，击败人类围棋冠军。

⚙️ 探索与利用的平衡

书中深入讨论了探索与利用问题：

ε-贪婪：以概率ε随机探索，以概率 1-ε 选择最优行动。
UCB：上界置信算法，优先探索不确定性高的行动。
汤普森采样：根据后验概率采样行动，自然平衡探索与利用。
内在动机：引入好奇心等内在奖励，鼓励智能体探索新状态。

⭐ 金句摘录

"强化学习是从交互中学习以实现目标。"

"探索与利用的平衡是强化学习的核心挑战。"

"强化学习关注长期累积奖励，而非即时满足。"

"值函数是强化学习的核心，它预测未来的奖励。"

"策略梯度方法直接优化策略，适合复杂和高维行动空间。"

📚 阅读建议

本书适合 AI 研究者、工程师和研究生阅读。建议重点阅读：

第 1-3 章 - 建立强化学习的基本概念
第 4-6 章 - 掌握动态规划、蒙特卡洛、时序差分
第 7-9 章 - 深入学习 Q 学习和策略梯度
第 13-16 章 - 了解深度强化学习和前沿进展

读完《强化学习：导论》，你将系统掌握强化学习的基本原理和主要算法，理解 AlphaGo 等 AI 系统背后的技术。这本书是强化学习领域的奠基之作，虽然部分内容较为深入，但值得反复研读。随着 AI 在决策领域的广泛应用，强化学习的重要性将愈发凸显。