统计学习方法
国内机器学习领域的经典教材,首次出版于2012年,第2版于2019年更新。李航是字节跳动首席科学家,本书系统阐述了统计学习的核心算法,涵盖感知机、K近邻、朴素贝叶斯、逻辑回归、决策树、支持向量机、AdaBoost、EM算法、隐马尔可夫模型、条件随机场等核心内容。本书以简洁的数学推导和清晰的算法描述著称,是国内机器学习入门的必读之作。
本书速读
📖 本书核心内容
《统计学习方法》是国内机器学习领域的经典教材,首次出版于2012年,第2版于2019年更新。作者李航是字节跳动首席科学家、前亚马逊首席科学家、前微软高级研究员,被誉为国内机器学习领域的数学大师。
本书系统阐述了统计学习的核心算法,涵盖感知机、K近邻、朴素贝叶斯、逻辑回归、决策树、支持向量机、AdaBoost、EM算法、隐马尔可夫模型、条件随机场等核心内容。本书以简洁的数学推导和清晰的算法描述著称,是国内机器学习入门的必读之作,被全国数百所高校采用为教材。
🎯 统计学习的基础:监督学习与无监督学习
李航指出,统计学习是从数据中学习规律的学科——数据是输入,规律是模型,学习是优化过程。统计学习分为监督学习(Supervised Learning)和无监督学习(Unsupervised Learning):监督学习是从标注数据中学习(如分类、回归),无监督学习是从无标注数据中学习(如聚类、降维)。
监督学习的核心要素:第一,输入空间(Input Space)——输入变量的取值范围;第二,输出空间(Output Space)——输出变量的取值范围;第三,假设空间(Hypothesis Space)——所有可能的模型集合;第四,损失函数(Loss Function)——衡量模型预测与真实值之间的差异;第五,学习策略(Learning Strategy)——如何选择最优模型(如经验风险最小化、结构风险最小化);第六,学习算法(Learning Algorithm)——如何求解最优模型(如梯度下降、牛顿法)。
无监督学习的核心要素:第一,隐变量(Latent Variable)——不可观测的变量,如聚类标签、主题分布;第二,生成模型(Generative Model)——假设数据由某个概率分布生成,如高斯混合模型、隐马尔可夫模型;第三,EM算法(Expectation-Maximization)——求解隐变量模型的核心算法,通过期望步(E步)和最大化步(M步)迭代优化。
🎯 核心算法:从感知机到支持向量机
本书系统介绍了统计学习的核心算法:感知机、K近邻、朴素贝叶斯、逻辑回归、决策树、支持向量机。
感知机(Perceptron):感知机是二分类的线性模型——通过寻找超平面,将正类和负类分开。感知机的学习算法是随机梯度下降(SGD)——每次随机选择一个误分类样本,更新权重向量。感知机的优点是简单、高效,缺点是只能处理线性可分数据。
K近邻(K-Nearest Neighbors,KNN):KNN是惰性学习(Lazy Learning)——不训练模型,而是记住所有训练数据,预测时找到K个最近邻,投票决定类别。KNN的优点是简单、直观、无需训练,缺点是计算复杂度高、对噪声敏感。
朴素贝叶斯(Naive Bayes):朴素贝叶斯是生成模型——假设特征之间条件独立,通过贝叶斯定理计算后验概率,选择概率最大的类别。朴素贝叶斯的优点是简单、高效、适合高维数据,缺点是条件独立假设不成立时效果差。
逻辑回归(Logistic Regression):逻辑回归是二分类的线性模型——通过Sigmoid函数将线性输出映射到(0,1)区间,表示概率。逻辑回归的学习算法是梯度下降——最小化交叉熵损失。逻辑回归的优点是可解释、高效、适合二分类,缺点是只能处理线性可分数据。
决策树(Decision Tree):决策树是非线性分类/回归模型——通过递归分割特征空间,构建树形结构。决策树的学习算法是贪心算法——每次选择最优特征和最优切分点,使信息增益(或基尼指数)最大。决策树的优点是可解释、无需特征缩放,缺点是容易过拟合。
支持向量机(SVM):SVM是二分类的线性模型——通过寻找最大间隔超平面,将正类和负类分开。SVM的核心思想是结构风险最小化——不仅最小化训练误差,还最大化间隔。SVM的优点是理论完善、泛化能力强,缺点是计算复杂度高、难以处理大规模数据。
🎯 集成学习与概率图模型
本书介绍了集成学习(Ensemble Learning)和概率图模型(Probabilistic Graphical Models)——这是组合多个弱学习器和用图结构表示依赖关系的方法。
AdaBoost:AdaBoost是提升(Boosting)集成学习算法——通过迭代训练弱学习器(如决策树桩),每次调整样本权重,使下一个弱学习器关注难分类样本。AdaBoost的优点是简单、高效、不易过拟合,缺点是对噪声敏感。
隐马尔可夫模型(HMM):HMM是序列数据的生成模型——假设观测序列由隐状态序列生成,隐状态之间遵循马尔可夫性。HMM的三个核心问题:评估问题(给定模型,计算观测序列概率)、解码问题(给定模型和观测序列,求最优隐状态序列)、学习问题(给定观测序列,估计模型参数)。HMM的应用:语音识别、词性标注、生物信息学。
条件随机场(CRF):CRF是序列数据的判别模型——直接建模观测序列到标记序列的条件概率,而非生成模型。CRF的优点是考虑全局依赖、精度高,缺点是计算复杂度高。CRF的应用:命名实体识别、词性标注、信息抽取。
⭐ 金句摘录
统计学习是从数据中学习规律的学科——数据是输入,规律是模型,学习是优化过程。
监督学习是从标注数据中学习,无监督学习是从无标注数据中学习。
结构风险最小化是统计学习的核心思想——不仅最小化训练误差,还最小化模型复杂度。
EM算法是求解隐变量模型的核心方法——通过E步和M步迭代优化。
集成学习是组合多个弱学习器的方法——Bagging降低方差,Boosting降低偏差。
📚 阅读建议
适合有数学基础的读者,建议结合开源实现实践阅读,重点关注核心算法的数学推导部分。