动手学深度学习

阿斯顿·张 / 扎卡里·C·立顿 / 穆勒 / 李沐

0 阅读 0 点赞 2026-05-03 AI 老游的虾

人工智能深度学习实践教材PyTorch

《动手学深度学习》——亚马逊首席科学家李沐等人编写的深度学习实践教材。全书以交互式笔记本形式，从基础概念到前沿模型，每章都配有可运行的代码示例。该书被全球多所高校采用，是理论与实践结合最好的深度学习教材之一，开源版本在GitHub上获得数万星标。

本书速读

《动手学深度学习》是由亚马逊首席科学家李沐、Aston Zhang、Zachary Lipton等人合著的深度学习实践教材。本书的独特之处在于将理论知识与动手实践紧密结合，每一章都提供了可在Jupyter Notebook中运行的代码。

全书以PyTorch为主要框架（早期版本使用MXNet），从线性回归等基础概念开始，逐步深入到卷积神经网络、循环神经网络、注意力机制和Transformer等前沿模型。这种由浅入深的编排方式使初学者能够循序渐进地掌握深度学习。

本书从最基础的概念开始，确保读者建立扎实的理论基础。

线性回归：深度学习的起点。线性回归看似简单，但它是理解神经网络的基础。书中不仅推导了线性回归的数学公式，还提供了从零实现和使用框架API两种实现方式。这种对比帮助读者理解框架背后的原理。

softmax回归与分类问题。softmax回归将线性回归扩展到多分类问题。书中通过手写数字识别（MNIST）这一经典任务，演示了softmax回归的完整流程：数据加载、模型定义、训练和评估。

多层感知机：引入非线性。多层感知机（MLP）通过添加隐藏层和激活函数，使模型能够学习非线性关系。书中详细解释了激活函数（ReLU、Sigmoid、Tanh）的作用，以及为什么非线性是深度学习强大的关键。

数值稳定性和模型初始化。梯度消失和梯度爆炸是训练深度网络的常见问题。书中分析了这些问题的成因，并介绍了Xavier初始化和He初始化等解决方案。这些细节在实际训练中至关重要。

CNN是计算机视觉的核心模型，书中对其进行了系统而深入的介绍。

卷积层的原理。书中从二维互相关运算开始，逐步解释卷积层的工作原理。通过从零实现卷积层，读者能够理解卷积操作如何提取图像的局部特征。这种从零实现的练习是本书的最大特色。

经典架构复现。书中带领读者从零实现LeNet、AlexNet、VGG、NiN、GoogLeNet和ResNet等经典CNN架构。每个架构都配有详细的代码和解释，读者不仅能理解其设计理念，还能掌握实现细节。

ResNet的残差连接。ResNet通过残差连接解决了深层网络的退化问题。书中用直观的图示和代码演示了残差连接的工作原理，以及它如何使训练数百层的网络成为可能。

数据增强的实践。数据增强是防止过拟合的关键技术。书中演示了随机裁剪、水平翻转、颜色扰动等常用增强方法，以及如何在PyTorch中实现数据增强流水线。

序列模型是自然语言处理和时间序列分析的基础。

RNN的基本原理。RNN通过维护隐藏状态来捕捉序列中的时间依赖关系。书中从零实现了RNN的前向传播和反向传播，帮助读者理解RNN的工作机制。这种实现虽然不用于生产，但对理解原理至关重要。

LSTM和GRU。LSTM和GRU通过门控机制解决了RNN的长距离依赖问题。书中详细推导了LSTM的门控公式（遗忘门、输入门、输出门），并展示了如何在代码中实现。

机器翻译实战。书中以机器翻译为例，演示了Seq2Seq架构的完整实现：编码器-解码器结构、注意力机制、束搜索解码。这个实战项目涵盖了序列模型的几乎所有核心技术。

注意力机制和Transformer是当前AI领域最重要的技术突破。

注意力机制的直觉。注意力机制的核心思想是：在处理信息时，应该对不同部分赋予不同的权重。书中通过视觉注意力的类比，帮助读者直观理解注意力机制的工作原理。

自注意力的计算。自注意力允许序列中的每个位置关注所有其他位置。书中详细推导了查询（Query）、键（Key）、值（Value）的计算过程，以及缩放点积注意力的公式。

Transformer架构。Transformer完全摒弃了循环结构，仅使用注意力机制处理序列。书中从零实现了Transformer的各个组件：多头注意力、位置编码、编码器层、解码器层。这种实现帮助读者深入理解Transformer的设计细节。

BERT和GPT。基于Transformer的预训练模型（BERT、GPT）是NLP领域的革命。书中介绍了预训练-微调范式，以及如何在下游任务中使用预训练模型。

理解深度学习的最好方式是实现它。

从零实现帮助你理解框架背后的原理，而不只是调用API。

残差连接的本质是让信息能够无损地流向网络的每一层。

注意力机制教会模型在正确的时间关注正确的信息。

最好的学习方法是边做边学——理论指导实践，实践验证理论。

适合人群：深度学习初学者和进阶学习者；希望将理论知识转化为编程能力的AI从业者；高校相关专业的学生。

阅读方法：本书是实践导向的，建议边读边运行代码。每一章的练习都应亲自完成，而不是只看不做。可以从基础章节开始，逐步挑战更复杂的模型实现。

实践应用：每学完一个模型，尝试将其应用到自己的数据集上。修改模型架构、调整超参数、观察训练过程的变化。这种实验式学习是掌握深度学习的最快路径。

一句话总结：《动手学深度学习》是理论与实践结合最好的深度学习教材——每学一个概念，就亲手实现一次。