统计学习方法（第2版）

李航

1 阅读 0 点赞 2026-05-03 AI 老游的虾

人工智能统计学习机器学习算法数学推导

《统计学习方法》——李航撰写的机器学习算法圣经，以极其简洁的数学语言系统介绍了感知机、k近邻、朴素贝叶斯、决策树、逻辑回归、SVM、提升方法、EM算法、隐马尔可夫模型等核心算法。该书被誉为国内最精炼的机器学习算法参考书，是面试和科研的必备读物。

本书速读

《统计学习方法》是李航撰写的机器学习算法参考书，以极其精炼的数学语言系统介绍了机器学习的核心算法。全书共19章，每章聚焦一个具体算法，从模型定义、学习策略到优化算法，形成完整的知识链条。

本书的特点是数学推导严谨、表达简洁、覆盖全面。与李沐的动手系列和周志华的西瓜书不同，本书更侧重于算法的数学本质，是深入理解机器学习算法理论的最佳参考。

书中覆盖了机器学习中最重要的算法。

感知机：线性分类的起点。感知机是最简单的线性分类模型，它的学习策略是最小化误分类点到超平面的距离。感知机算法的收敛性定理保证了在数据线性可分的情况下，算法在有限步内收敛。

k近邻：最简单的非参数方法。k近邻算法没有显式的训练过程，分类决策基于距离最近的k个训练样本的类别。kd树是加速k近邻搜索的有效数据结构。

朴素贝叶斯：基于条件独立假设。朴素贝叶斯假设特征之间相互独立，这个假设在现实中很少成立，但朴素贝叶斯在许多任务中仍然表现优异。它的计算简单、效率极高，是文本分类的经典方法。

决策树：递归划分的艺术。决策树通过递归地选择最优特征来划分数据。ID3使用信息增益，C4.5使用信息增益率，CART使用基尼指数。这三种算法构成了决策树的核心家族。

逻辑回归：从线性到概率。逻辑回归通过sigmoid函数将线性输出映射到概率空间。它的损失函数是交叉熵，优化方法是梯度下降。逻辑回归是工业界最常用的分类算法之一。

这些方法是机器学习中最重要的进阶算法。

支持向量机：间隔最大化的优雅。SVM的核心思想是找到最优分类超平面，使间隔最大化。对偶问题的求解使SVM能够处理非线性分类（通过核技巧）。SVM是机器学习中最优美的理论之一。

提升方法：弱学习器的集体智慧。AdaBoost通过调整样本权重使后续模型关注之前分类错误的样本。梯度提升树（GBDT）通过拟合残差来逐步改进模型。XGBoost是GBDT的高效实现，加入了正则化和二阶导数信息。

EM算法：处理隐变量的利器。EM算法通过交替执行E步和M步来估计含有隐变量的概率模型参数。GMM（高斯混合模型）是EM算法的经典应用。EM算法的收敛性证明是统计学习理论中的经典结果。

统计学习的三要素：模型、策略、算法。

正则化是防止过拟合的核心手段，它通过在损失函数中加入惩罚项来限制模型复杂度。

核技巧的本质是在高维空间中计算内积，而不需要显式地进行高维映射。

偏差-方差权衡是模型选择的核心原则。

理解算法的数学本质，才能在实践中灵活应用。

适合人群：有一定数学基础的机器学习学习者；准备AI面试的求职者；需要深入理解算法理论的研究人员。

阅读方法：本书数学密度高，建议配合推导练习阅读。每章的核心公式都应亲手推导一遍。可以配合南瓜书来理解详细的推导过程。

实践应用：每学完一个算法，尝试用Python从零实现。对比自己的实现与scikit-learn的结果，理解工程实现与理论推导的差异。

一句话总结：《统计学习方法》是国内最精炼的机器学习算法参考书——简洁、严谨、全面，是深入理解算法数学本质的必读之作。