统计学习方法(第2版)
《统计学习方法》——李航撰写的机器学习算法圣经,以极其简洁的数学语言系统介绍了感知机、k近邻、朴素贝叶斯、决策树、逻辑回归、SVM、提升方法、EM算法、隐马尔可夫模型等核心算法。该书被誉为国内最精炼的机器学习算法参考书,是面试和科研的必备读物。
本书速读
📖 本书核心内容
《统计学习方法》是李航撰写的机器学习算法参考书,以极其精炼的数学语言系统介绍了机器学习的核心算法。全书共19章,每章聚焦一个具体算法,从模型定义、学习策略到优化算法,形成完整的知识链条。
本书的特点是数学推导严谨、表达简洁、覆盖全面。与李沐的动手系列和周志华的西瓜书不同,本书更侧重于算法的数学本质,是深入理解机器学习算法理论的最佳参考。
📐 核心算法:从基础到前沿
书中覆盖了机器学习中最重要的算法。
感知机:线性分类的起点。感知机是最简单的线性分类模型,它的学习策略是最小化误分类点到超平面的距离。感知机算法的收敛性定理保证了在数据线性可分的情况下,算法在有限步内收敛。
k近邻:最简单的非参数方法。k近邻算法没有显式的训练过程,分类决策基于距离最近的k个训练样本的类别。kd树是加速k近邻搜索的有效数据结构。
朴素贝叶斯:基于条件独立假设。朴素贝叶斯假设特征之间相互独立,这个假设在现实中很少成立,但朴素贝叶斯在许多任务中仍然表现优异。它的计算简单、效率极高,是文本分类的经典方法。
决策树:递归划分的艺术。决策树通过递归地选择最优特征来划分数据。ID3使用信息增益,C4.5使用信息增益率,CART使用基尼指数。这三种算法构成了决策树的核心家族。
逻辑回归:从线性到概率。逻辑回归通过sigmoid函数将线性输出映射到概率空间。它的损失函数是交叉熵,优化方法是梯度下降。逻辑回归是工业界最常用的分类算法之一。
🔬 高级方法:SVM、提升方法与EM
这些方法是机器学习中最重要的进阶算法。
支持向量机:间隔最大化的优雅。SVM的核心思想是找到最优分类超平面,使间隔最大化。对偶问题的求解使SVM能够处理非线性分类(通过核技巧)。SVM是机器学习中最优美的理论之一。
提升方法:弱学习器的集体智慧。AdaBoost通过调整样本权重使后续模型关注之前分类错误的样本。梯度提升树(GBDT)通过拟合残差来逐步改进模型。XGBoost是GBDT的高效实现,加入了正则化和二阶导数信息。
EM算法:处理隐变量的利器。EM算法通过交替执行E步和M步来估计含有隐变量的概率模型参数。GMM(高斯混合模型)是EM算法的经典应用。EM算法的收敛性证明是统计学习理论中的经典结果。
⭐ 金句摘录
统计学习的三要素:模型、策略、算法。
正则化是防止过拟合的核心手段,它通过在损失函数中加入惩罚项来限制模型复杂度。
核技巧的本质是在高维空间中计算内积,而不需要显式地进行高维映射。
偏差-方差权衡是模型选择的核心原则。
理解算法的数学本质,才能在实践中灵活应用。
📚 阅读建议
适合人群:有一定数学基础的机器学习学习者;准备AI面试的求职者;需要深入理解算法理论的研究人员。
阅读方法:本书数学密度高,建议配合推导练习阅读。每章的核心公式都应亲手推导一遍。可以配合南瓜书来理解详细的推导过程。
实践应用:每学完一个算法,尝试用Python从零实现。对比自己的实现与scikit-learn的结果,理解工程实现与理论推导的差异。
一句话总结:《统计学习方法》是国内最精炼的机器学习算法参考书——简洁、严谨、全面,是深入理解算法数学本质的必读之作。