无聊即可靠：一位资深工程师的九条系统设计法则

本文永久链接 – https://tonybai.com/2025/08/26/good-system-design

大家好，我是Tony Bai。

在技术圈，我们常常被各种“炫技式”的系统设计建议所包围。从入门级的“你一定没听说过队列吧？”到专家级的“在数据库里存布尔值简直是灾难”，这些建议要么过于肤浅，要么过于精巧，往往脱离了大多数工程实践的真实上下文。就连《设计数据密集型应用》这样的经典之作，虽然深刻，却也可能与我们日常面对的大多数问题有些距离。

那么，究竟什么是好的系统设计？如果说软件设计是如何组织代码，那么系统设计就是如何组织服务。其基本元素不再是变量和函数，而是应用服务器、数据库、缓存、队列、事件总线和代理。

近日，一篇名为《我所知道的关于优秀系统设计的一切》的文章在工程师社群中引发了广泛共鸣。其核心观点让人耳目一新：优秀的系统设计，往往看起来平平无奇，甚至有些“无聊”。这种“无聊”，恰恰是系统长期稳定、易于维护的标志。

在本文中，我就和大家一起深入这篇文章的核心思想，看看这位作者所说的“无聊即可靠”的系统设计法则究竟都是哪些！

识别优秀设计：于无声处听惊雷

优秀的设计是什么样的？它往往是“无感的”。当你发现一个功能实现起来比预想的要简单，或者你几乎从不需要去关心系统的某个部分，因为它总是在默默地、可靠地工作时，你就身处一个优秀的设计之中。

这引出了一个悖论：优秀的设计是自我掩饰的，而糟糕的设计往往看起来更令人印象深刻。一个充斥着分布式共识、多种事件驱动模式、CQRS 等“高级”概念的系统，常常让我们心生警惕。这背后，要么是为了弥补某个根本性的错误决策，要么就是赤裸裸的过度设计。

许多工程师看到复杂的系统，会惊叹：“这里发生了好多系统设计！” 但事实恰恰相反，复杂通常是优秀设计缺位的体现。当然，有些系统的复杂性是业务本身带来的，它们不可避免。但一个能正常工作的复杂系统，永远是从一个能正常工作的简单系统演化而来的。从零开始构建一个复杂系统，几乎注定会走向失败。

这与 Go 语言的哲学高度契合。Go 本身就是一门“无聊”的语言，它刻意回避了许多其他语言中的复杂特性，以换取无与伦比的简洁性、可靠性和工程效率。同样，优秀的 Go 系统设计，也应该追求这种“无聊”的可靠性。

状态与无状态：系统设计的核心难题

软件工程中最困难的部分，永远是状态管理。只要你需要在任何时间段内存储任何信息，一系列棘手的决策就会接踵而至。相反，不存储任何信息的应用被称为“无状态”的。

法则一：最大限度地减少有状态组件。

虽然我们应该最小化所有组件，但有状态的组件尤其危险，因为它们会进入“坏的状态”。一个无状态的服务（比如 PDF 转 HTML 服务）可以被容器编排系统（如 Kubernetes）轻易地杀死和重启，从而实现故障自愈。但一个有状态的服务（如数据库）却不能。如果数据库中出现一条格式错误的“脏数据”导致应用崩溃，你就必须手动介入修复。

在实践中，这意味着我们应该努力将系统划分成两种角色：
1. 少数的有状态服务：它们负责与数据库等持久化存储打交道，是状态的“守护者”。
2. 大量的无状态服务：它们负责处理业务逻辑、计算等任务，本身不存储任何持久化状态。

要严格避免让五个不同的服务去写同一张数据库表。更好的模式是，让其中四个服务通过 API 请求或发布事件的方式，与那个唯一的“状态守护者”服务通信，将所有写逻辑都封装在守护者服务内部。对于读逻辑，虽然可以稍微放宽，但将读操作也收敛到一个服务中，依然是更优的选择，只是有时为了性能，我们会容忍一些服务直接读取数据库副本。

数据库：状态的心脏

既然状态管理是核心，那么承载状态的数据库自然就是系统的心脏。以下是围绕关系型数据库（如 PostgreSQL）的一些关键实践。

法则二：精心设计“刚刚好”的 Schema 和索引。

Schema 设计：Schema 设计需要在灵活性和规范性之间找到平衡。一旦数据量达到百万级别，修改 Schema 将会是一场噩梦。但如果过度追求灵活性，例如将所有数据都塞进一个 JSON 字段，或者使用 EAV（实体-属性-值）模型，虽然初期开发快，但会将巨大的复杂性和潜在的性能问题转移到应用层代码中。一个好的标准是：你的表结构应该能让一个新人大致读懂应用的业务模型。
索引：索引是数据库性能的命脉。要根据最常见的查询模式来创建索引。例如，如果你经常按 WHERE user_id = ? AND status = ? 查询，那么就应该创建一个 (user_id, status) 的复合索引。索引的顺序至关重要，应该将选择性更高（基数更大）的字段放在前面。user_id 的值远比 status（可能只有几种状态）要多，所以 (user_id, status) 远优于 (status, user_id)。同时，不要滥用索引，因为每个索引都会增加写的开销。

法则三：让数据库做它最擅长的事。

在高流量应用中，数据库访问往往是最大的瓶颈。
* 避免 N+1 查询：这是 ORM 带来的常见陷阱。如果你需要从多个表中获取数据，优先使用 JOIN，而不是在应用代码中先查询一个表，然后在循环中逐个查询另一个表。在 Go 中，即使使用 database/sql 或 sqlx，也应通过 IN 子句等方式批量获取数据。
* 善用读写分离：典型的数据库架构包含一个主节点（写）和多个从节点（读）。将尽可能多的读请求路由到只读副本上，可以极大地减轻主节点的压力。唯一的例外是那些无法容忍任何复制延迟的场景。
* 警惕写风暴：对数据库压力最大的操作是写，尤其是事务中的写。如果你的服务可能会产生突发的写请求（例如批量导入功能），务必考虑在应用层进行节流（Throttling）或缓冲。一个简单的 Go 实现可以是，将批量任务拆分成小任务，通过一个带缓冲的 channel 发送给一组 worker goroutine，由它们平滑地写入数据库。

慢操作与快操作：队列是你的朋友

一个服务需要快速响应用户的交互（如 API 请求），通常在几百毫秒内。但有些操作天生就很慢（如视频转码）。

法则四：将慢操作异步化，使用后台作业（Background Jobs）。

通用模式是将“能为用户提供即时价值的最小工作单元”同步完成，将其余的慢操作放入后台作业中处理。例如，用户上传视频后，立即返回“上传成功，正在处理中”，然后将转码任务放入队列。

每个技术公司都会有一套后台作业系统，通常由两部分组成：一个队列（如 Redis、RabbitMQ）和一个作业执行服务。在 Go 生态中，Asynq 和 Machinery 是非常成熟和流行的选择。对于需要延迟执行的任务（例如一个月后发送提醒邮件），直接写入数据库表，然后用定时任务（如 Go 的 cron 库）去扫描和触发，是一种更“无聊”也更可靠的模式。

缓存：一把锋利的双刃剑

当一个慢操作的结果可以被多个用户复用时，缓存就派上了用场。

法则五：谨慎使用缓存，优化优于缓存。

初级工程师热衷于缓存一切，而资深工程师则对缓存避之不及。为什么？因为缓存引入了新的状态，它会过时、会与数据源不一致、会引发难以排查的“幽灵”Bug。在缓存一个慢查询之前，请先确认它是否已经有了最优的索引。

在 Go 中，我们可以使用 sync.Map 或带锁的 map 实现简单的内存缓存，也可以使用 Redis 等外部服务实现分布式缓存。一个有用的“无聊”缓存技巧是，对于那些计算成本极高且不常变化的大型报告，可以用一个定时作业（cron job）每天生成一次，然后将结果（如 JSON 或 Parquet 文件）存入对象存储（如 S3）。API 服务直接从对象存储中提供这个静态文件，这远比维护一个复杂的分布式缓存系统要简单和可靠。

事件：当“不知情”成为一种美德

除了作业队列，事件总线（如 Kafka、NATS）是另一种重要的异步机制。

法则六：当发送者不关心（或不应关心）接收者的行为时，使用事件。

事件与 API 调用的核心区别在于耦合度。API 调用是一种紧耦合的、同步的请求-响应模式。而事件是一种松耦合的、发布-订阅模式。发送者只负责声明“某件事发生了”（如 UserSignedUp），它不关心谁在监听，也不等待任何结果。

在 Go 中，NATS 是一个非常流行的、云原生友好的选择。一个典型的场景是：用户注册服务在成功创建用户后，向 NATS 发布一条 UserSignedUp 事件。下游的邮件服务、风控服务、数据分析服务可以各自订阅并处理这条事件，它们之间互不影响，注册服务也不需要知道它们的存在。

热路径：将精力花在刀刃上

一个复杂的系统有无数的数据流和用户交互路径，试图让每一处都完美是不现实的。

法则七：识别并聚焦于“热路径”。

“热路径”指的是系统中最关键和流量最大的部分。在一个电商系统中，“商品浏览”和“下单支付”是热路径，而“修改用户头像”则不是。

热路径的决策空间更小，犯错的成本也更高。一个设计糟糕的设置页面可能只会影响少数用户，但一个有性能问题的下单接口，则可能导致整个业务瘫痪。我们应该将最好的工程资源、最审慎的设计和最完善的监控，都投入到热路径上。

可观测性：照亮黑暗的角落

法则八：在“不开心”的路径上积极地留下痕迹。

当系统出现问题时，日志和指标是我们唯一的线索。

日志：许多工程师为了代码的“优雅”而不愿添加日志。这是一个巨大的错误。尤其是在错误处理、业务决策分支等“unhappy path”上，要积极地、结构化地打日志。Go 1.21+ 内置的 log/slog 包是实现结构化日志的绝佳工具。一个好的日志应该告诉你“为什么”会走到这个分支，而不仅仅是“走到了”这个分支。
指标：除了 CPU、内存等基础指标，还要关注核心业务指标，如队列长度、作业处理耗时、API 响应时间等。尤其要关注 P95/P99 延迟，因为平均值会掩盖掉那些最大、最重要的用户正在遭受的痛苦。

为失败而设计：优雅地倒下

法则九：思考系统在最坏情况下的行为。

重试：不能盲目重试。对于失败的请求，应采用带抖动的指数退避策略，避免在下游服务已经过载时，用重试请求将其彻底压垮。
幂等性：对于所有会产生副作用的写操作（如支付），必须保证其幂等性。经典的实现方式是，在请求中加入一个唯一的“幂等键”（Idempotency Key），服务端记录下处理过的键，对于重复的请求直接返回之前的结果。
故障开关与优雅降级：想清楚当某个依赖不可用时，系统应该“故障开放”（Fail-Open）还是“故障关闭”（Fail-Closed）。限流系统通常应该故障开放，因为可用性比精确限流更重要。而认证系统则必须故障关闭。

小结：拥抱“无聊”的智慧

系统设计的核心，不是追逐时髦的技术或精巧的架构，而是像一个经验丰富的管道工，知道如何用最普通、最可靠的组件，以最稳固的方式将它们连接起来。在大型科技公司，这些“无聊”的组件——事件总线、缓存服务、作业队列——都已是现成的基础设施。此时，优秀的系统设计，就是以最简单直接的方式，将它们恰当地组合起来，解决业务问题。

这种对简洁、可靠和务实的追求，与 Go 语言的设计哲学如出一辙。也许，最激动人心的系统设计，正是那个能让未来接手它的工程师感叹“嗯，这里没什么特别的，一切都理所当然”的设计。因为“理所当然”的背后，是深思熟虑的简单，是千锤百炼的可靠。

资料链接：https://www.seangoedecke.com/good-system-design/

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？