数据库系统内幕

[美] 亚历克斯·彼得罗夫

12 阅读 0 点赞 2026-05-29 IT 老游的虾

数据库系统存储引擎B树LSM树分布式系统Apache Cassandra索引结构事务处理一致性协议数据架构

亚历克斯·彼得罗夫是数据基础架构工程师、Apache Cassandra提交者和PMC成员。本书深入介绍了数据存储、数据构建块、分布式系统和数据集群。分为两部分：第一部分讨论节点本地进程，关注数据库核心组件——存储引擎；第二部分探讨如何将多个节点组织到数据库集群中。本书主要面向数据库开发人员、软件开发人员、运维工程师、架构师和工程技术经理。豆瓣评分7.9。

返回列表

本书速读

📖 全书概述：深入理解数据库如何工作

这本书要回答的核心问题很直接：现代数据库和存储引擎的底层原理是什么？亚历克斯·彼得罗夫从数据库的内部结构出发，系统性地讲解了数据存储的核心构建块和分布式数据系统的工作原理。这不是一本教你如何使用某种数据库的书，而是一本教你理解数据库为什么这样设计的书。

亚历克斯·彼得罗夫是一位数据基础架构工程师，数据库和存储系统的狂热爱好者，Apache Cassandra提交者和PMC成员，精通存储、分布式系统和算法。他的实战背景使得本书的内容不仅理论扎实，而且紧贴工业实践。

全书分为两大部分：第一部分讨论节点本地的进程，关注数据库系统的核心组件——存储引擎，这是每个数据库系统中最重要的特有元素；第二部分探讨如何将多个节点组织到一个数据库集群中，涉及分布式系统的核心概念和协议。书中材料来源于众多书籍、论文、博客和多个开源数据库的源代码，是一本精心编排的数据库内部知识合集。

豆瓣评分7.9，超过74%的读者给出4星或5星评价。这本书被广泛认为是理解数据库底层原理的优秀入门读物。

💾 存储引擎：数据库的心脏

存储引擎是数据库系统中最核心的组件。它负责将数据写入磁盘、从磁盘读取数据、管理数据的组织结构、保证数据的持久性。不同的数据库系统之间的最重要区别，往往就在于它们使用了不同的存储引擎。

彼得罗夫从磁盘的按页存取开始讲解——数据库不会逐字节地读写数据，而是以"页"（Page）为单位进行存取。一个页通常是4KB到64KB的大小。当数据库需要读取一条记录时，它实际上是把包含这条记录的整个页从磁盘加载到内存中。这种按页存取的设计深刻影响了数据库的所有后续设计——索引的构建、缓存的管理、空间分配和整理，都围绕"页"这个基本单位展开。

存储引擎面临的两个核心性能约束是：连续的顺序写入性能远高于随机读写；磁盘IO是数据库性能的最大瓶颈。理解了这两个约束，就能理解为什么数据库要做各种看似复杂的设计——本质上都是为了把随机IO变成顺序IO，把磁盘IO降到最低。

🌳 B树：关系型数据库的基石

B树是关系型数据库最常用的索引结构。彼得罗夫详细讲解了B树的原理和实现细节。B树的核心思想是通过一棵平衡的多叉树来组织数据——每个节点包含多个键值和指向子节点的指针，所有叶子节点在同一层。查询时从根节点开始，逐层比较键值，最终到达包含目标数据的叶子节点。

B树的设计巧妙地利用了磁盘按页存取的特性——B树的每个节点的大小通常与磁盘页的大小对齐，这样每次磁盘IO恰好读取一个节点。由于B树是平衡的，从根到叶子的路径长度是固定的，所以每次查询的磁盘IO次数是确定的（通常是3-4次）。这种"确定性"是B树被广泛采用的重要原因之一。

彼得罗夫还详细讨论了B树的维护问题。在B树的平衡过程中，要尽可能保持节点半满的状态，这样写入新数据时对应的页总是有足够空间。数据的更新和删除会引起"写放大"（Write Amplification）——一次逻辑上的更新可能导致多个物理页的改写。通过不可变数据和写时复制（Copy-on-Write）技术，可以减少碎片和写放大。

📝 LSM树：面向写优化的存储结构

LSM（Log-Structured Merge）树是另一种重要的存储结构，特别适用于写入密集的场景。LSM树的核心思想是将随机写入转换为批量顺序写入——新数据首先写入内存中的写入缓冲区（MemTable），当缓冲区满时，将其作为不可变的"SSTable"（Sorted String Table）顺序写入磁盘。随着SSTable数量的增加，后台线程会将多个SSTable合并（Compact）成更大的SSTable，以减少读取时需要扫描的文件数量。

LSM树和B树的写入缓冲区功能类似——它们都将随机和分散的写入变成批量的顺序写入。但两者的实现方式不同：B树直接在磁盘上原地更新数据，而LSM树将数据追加写入新文件，然后通过后台合并来清理旧数据。LSM树的写性能通常优于B树，但读取性能可能较差（因为可能需要扫描多个SSTable）。

彼得罗夫指出，LSM树在现代数据库中的应用越来越广泛——Cassandra、RocksDB、HBase等NoSQL数据库都使用了LSM树或其变种。这与现代硬件的发展有关——随着SSD的普及，随机读写的性能差距在缩小，但顺序写入仍然有明显的性能优势。LSM树的设计哲学是"写入优先"，这在写入量远大于读取量的场景（如日志收集、事件存储、时序数据）中尤其有效。

📇 跳表与索引结构

除了B树和LSM树，彼得罗夫还讨论了其他重要的索引结构。跳表（Skip List）是一种方便灵活的内存索引——它通过在每个节点中维护多个不同层次的指针，实现了类似二分查找的效果。跳表的实现比B树简单得多，但性能接近，因此被广泛用于内存索引（如Redis的有序集合、Cassandra的MemTable）。

索引的构建和维护是存储引擎的核心任务之一。彼得罗夫讲解了主键索引、二级索引、复合索引、覆盖索引等多种索引类型的实现方式。他指出，索引的本质是用空间换时间——通过额外的存储（索引结构）来加速数据的查找。但索引也有代价——每次写入数据时，相关的索引也需要更新，这会增加写入的开销。所以索引的设计需要在读取性能和写入性能之间找到平衡。

🔄 事务与锁：建立在基础设施之上的特性

彼得罗夫指出，事务和锁实际上是建立在存储引擎基础设施之上的特性，而不是存储引擎本身的核心。事务需要依赖日志（Write-Ahead Log）来保证持久性——在数据写入磁盘之前，先将操作记录到日志中。如果系统在数据写入磁盘前崩溃，可以通过日志重放（Replay）来恢复数据。日志和缓存在数据库系统中无处不在——它们是实现事务的基石。

锁机制用于保证多个并发操作的数据一致性。彼得罗夫讨论了行级锁、表级锁、乐观锁、悲观锁等多种锁策略。他指出，锁的设计需要在一致性和性能之间找到平衡——锁粒度太粗会导致并发性能差，锁粒度太细会增加锁管理的开销。

🌐 分布式系统：从单节点到集群

第二部分探讨如何将多个节点组织到一个数据库集群中。这是现代数据库系统中最具挑战性的部分——分布式系统不仅要解决单节点的所有问题，还要解决网络分区、节点故障、数据一致性等分布式特有的问题。

彼得罗夫讨论了分布式系统中的核心概念：数据分区（Partitioning）——如何将数据分散到多个节点上；复制（Replication）——如何在多个节点上保存数据的副本以提高可用性和容错性；一致性协议（Consensus）——如何确保多个节点对数据的状态达成一致。

他详细介绍了各种一致性协议——从简单的领导选举到复杂的Paxos和Raft协议。这些协议的核心问题是：在存在节点故障和网络分区的情况下，如何让一组节点就某个值达成一致。彼得罗夫用通俗的语言解释了这些协议的运作机制，并讨论了它们在实际数据库系统中的应用。

⭐ 金句摘录

数据库系统是一个理论驱动的领域——数据库原理和分布式系统的很多概念，与操作系统、编译器有很多共同之处。

连续的顺序写入性能远高于随机读写——这是存储引擎设计的核心约束。

B树和LSM树是两种最重要的数据结构，跳表是一种方便灵活的内存索引。

LSM树和B树的写入缓冲区功能类似——都将随机和分散的写入变成批量的顺序写入。

相对而言事务和锁反而是建立在这些基础设施上的特性；日志和缓存则是无处不在。

📚 阅读建议

适合数据库开发人员、软件开发人员、运维工程师、架构师和工程技术经理。需要一定的数据库基础知识——如果你完全不了解SQL或数据库的基本概念，建议先学习一些基础内容再阅读本书。但如果你已经使用过数据库（如MySQL、PostgreSQL、Cassandra等），想深入理解它们是如何工作的，这本书是非常好的选择。

阅读方法：建议将第一部分（存储引擎）作为重点——B树、LSM树、索引结构、事务日志等概念是理解一切数据库系统的基础。第二部分（分布式系统）涉及较多网络协议和分布式理论，可以结合Martin Kleppmann的《数据密集型应用系统设计》（DDIA）一起学习，两本书在分布式系统部分互为补充。

需要注意：这本书是入门级读物，每个主题都点到为止，没有深入到具体的代码实现。有读者评价"纯入门科普向"，建议读完直接读DDIA。但作为理解数据库内部原理的起点，它的广度和清晰度是值得肯定的。

一句话总结：理解数据库从理解存储引擎开始——B树和LSM树是两大核心数据结构，顺序写入优于随机写入是核心约束，分布式系统要在一致性和可用性之间找到平衡。