NGINX（三）从架构与工作原理看懂高并发的秘密

原创于 2025-08-23 02:00:00 发布 · 822 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#nginx #架构 #运维

中间件系列专栏收录该内容

6 篇文章

订阅专栏

作为Web服务领域的“性能王者”，Nginx能轻松应对数万并发连接，而资源消耗却远低于传统服务器（如Apache）。很多初学者会疑惑：“同样是处理HTTP请求，为什么Nginx这么快？”答案藏在它的架构设计与工作模型里——就像一家高效运转的餐厅，靠合理的“人员分工”和“服务流程”，用最少的人力（资源）服务最多的顾客（并发请求）。

本文将用“餐厅运营”作比喻，深入浅出讲解Nginx的核心架构（多进程模型）、高并发原理（事件驱动+非阻塞I/O），结合真实命令与压测案例，让初学者也能轻松理解Nginx“快”的本质。

一、为什么需要了解Nginx架构？

在学具体原理前，先明确一个问题：“我只是用Nginx部署网站，为什么要懂架构？”
举个真实案例：某电商平台用Nginx作为静态资源服务器，促销活动时并发量突增至5万，Nginx突然变得卡顿。运维同学排查时发现，worker_processes（工作进程数）设为了2，而服务器是8核CPU——相当于“8个餐桌只配2个服务员”，再厉害的服务员也忙不过来。

懂架构，本质是懂“Nginx如何利用硬件资源”“如何处理请求”，才能：

遇到性能问题时快速定位（是进程数不够？还是连接数限制？）；
合理配置参数（不是参数越大越好，而是匹配硬件）；
理解“为什么Nginx适合高并发”，避免误用场景。

二、Nginx核心架构

Nginx采用多进程模型，核心进程分为三类：主进程（Master）、工作进程（Worker）、缓存进程（Cache Loader/Manager）。这种分工就像餐厅的“经理-服务员-仓库管理员”，各司其职又协同配合。

2.1 多进程模型：3类进程的“岗位职责”

我们先通过一条命令，看看Nginx运行时的进程情况（以Linux系统为例）：

# 查看Nginx进程
ps aux | grep nginx

输出类似这样（不同环境可能有差异）：

root      1234  0.0  0.1  20528  2248 ?        Ss   10:00   0:00 nginx: master process /usr/sbin/nginx
nginx     1235  0.2  0.3  21056  6544 ?        S    10:00   0:05 nginx: worker process
nginx     1236  0.2  0.3  21056  6540 ?        S    10:00   0:05 nginx: worker process
nginx     1237  0.0  0.2  20896  4320 ?        S    10:00   0:01 nginx: cache loader process
nginx     1238  0.0  0.1  20768  2864 ?        S    10:00   0:00 nginx: cache manager process

从输出能清晰看到5个进程：1个Master、2个Worker、1个Cache Loader、1个Cache Manager。下面用“餐厅”比喻逐一拆解它们的作用。

2.1.1 主进程（Master Process）：餐厅经理

作用：不直接处理请求，负责“管理全局”，相当于餐厅经理，只做“统筹工作”。
具体职责：

加载配置：读取nginx.conf配置文件（如监听端口、Worker进程数）；
启动/停止Worker进程：根据配置创建Worker进程，Worker异常退出时自动重启（保证服务不中断）；
接收管理员命令：比如执行nginx -s reload（重载配置）、nginx -s stop（停止服务）时，Master会将命令分发到所有Worker；
权限管理：通常以root用户启动（需绑定80/443等特权端口），但Worker进程会切换为普通用户（如nginx），避免权限过高导致安全风险。

举个例子：当我们执行nginx -s reload（重载配置）时，Master的操作流程是：

重新读取nginx.conf；
创建新的Worker进程（按新配置工作）；
向旧Worker进程发送“优雅退出”信号（旧Worker处理完当前请求后退出）；
新Worker完全接替工作，整个过程服务不中断。

2.1.2 工作进程（Worker Process）：餐厅服务员

作用：直接处理客户端请求（如静态资源返回、反向代理），相当于餐厅服务员，是“一线执行者”。
核心特点：

数量与CPU核心匹配：默认worker_processes auto（自动等于CPU核心数），比如8核CPU会启动8个Worker。为什么？——避免“进程切换开销”：一个Worker占用一个CPU核心，无需频繁切换，效率最高。
- 反例：若8核CPU只设2个Worker，相当于“8张桌子配2个服务员”，服务员跑着服务，CPU核心却空闲；若设16个Worker，CPU需要频繁切换进程，反而浪费资源。
平等竞争连接：客户端连接到来时，Master进程会“公平分配”给每个Worker（类似餐厅顾客均匀分给服务员），避免某一个Worker过载；
基于事件驱动处理请求：这是Worker的核心能力——一个Worker能同时处理成千上万的连接（后面详细讲），而不是“一个连接对应一个Worker”。

实战查看：通过lscpu查看CPU核心数，再对比nginx.conf的worker_processes配置：

# 查看CPU核心数
lscpu | grep "CPU(s):" | head -1  # 输出如"CPU(s):                8"

# 查看Nginx Worker配置
grep "worker_processes" /etc/nginx/nginx.conf  # 输出"worker_processes  auto;"

2.1.3 缓存进程（Cache Loader/Manager）：仓库管理员

作用：管理Nginx的缓存（如反向代理时缓存后端服务的响应），相当于餐厅的“仓库管理员”，负责“存货”和“清货”。

Cache Loader：Nginx启动时，加载磁盘上的缓存数据到内存（只在启动时运行一次，之后退出）；
Cache Manager：定期清理过期缓存、控制缓存大小（比如配置proxy_cache_path的max_size，当缓存超过阈值时，删除不常用的缓存）。

注意：只有启用了缓存配置（如proxy_cache），这两个进程才会出现。如果只是用Nginx服务静态资源，不会启动这两个进程。

2.2 为什么用“多进程”而不是“单进程”？

初学者可能会问：“用一个进程处理所有请求不行吗？为什么要分Master和Worker？”
答案是稳定性和安全性：

若单进程崩溃，整个Nginx服务就停了；而Worker进程崩溃，Master会立即重启一个新的Worker，服务不中断（比如某服务员请假，经理马上找替补）；
Worker进程用普通用户运行（如nginx），即使被攻击，也不会获得root权限；而Master用root启动，只负责管理，不处理请求，降低安全风险。

三、事件驱动+非阻塞I/O = 高并发核心

Nginx能处理数万并发连接，关键不在于“多进程”，而在于Worker进程采用的事件驱动（Event-Driven）+非阻塞I/O模型。我们先从“传统服务器的痛点”入手，理解Nginx的改进。

3.1 传统服务器的“痛点”：阻塞I/O模型

以Apache的“进程/线程模型”为例（Prefork模式）：

每来一个客户端连接，就创建一个新进程（或线程）处理；
进程处理请求时，若遇到I/O操作（如读磁盘文件、等后端服务响应），会“阻塞”——直到I/O完成，才能处理下一个连接。

用餐厅比喻：一个服务员（进程）只服务一个顾客（连接），顾客点菜后（I/O请求），服务员站在旁边等菜做好（阻塞），期间什么都干不了。

问题来了：当并发连接达到1万时，Apache需要创建1万个进程/线程，每个进程占用几MB内存，1万进程就需要几十GB内存，服务器直接“内存溢出”；而且进程切换会消耗大量CPU资源，响应速度急剧下降。

3.2 Nginx的“破局之道”：非阻塞I/O+epoll

Nginx的Worker进程采用“非阻塞I/O+事件驱动”，解决了传统模型的痛点。我们还是用“餐厅”比喻，先理解两个核心概念：

3.2.1 非阻塞I/O：服务员不“傻等”

非阻塞I/O的意思是：Worker处理请求时，遇到I/O操作（如读磁盘），不会一直等，而是先去处理其他请求，等I/O完成后再回来继续处理。
比如服务员（Worker）给顾客A点菜后，不是站在厨房等菜，而是去服务顾客B；厨房菜做好了（I/O完成），再回来给顾客A上菜。

3.2.2 事件驱动：靠“epoll”做“服务员调度”

光有非阻塞I/O还不够——Worker怎么知道“哪个I/O操作完成了”？这就需要“事件驱动”的核心：epoll（Linux系统下的事件通知机制，BSD系统用kqueue，Windows用IOCP）。

epoll的作用像餐厅的“订单系统”：

注册事件（epoll_ctl）：服务员（Worker）把需要处理的“事件”（如“等顾客A的菜”“等顾客B的付款”）注册到订单系统（epoll）；
等待事件（epoll_wait）：服务员（Worker）查看订单系统，看看哪些事件“就绪”了（如“顾客A的菜好了”）；
处理事件：服务员（Worker）只处理“就绪”的事件，处理完后再回到订单系统，等待下一批就绪事件。

用技术语言拆解epoll的工作流程：

epoll_create：Worker启动时，创建一个epoll实例（相当于创建订单系统）；
epoll_ctl：Worker将“监听端口的连接事件”“读文件的I/O事件”等，注册到epoll实例（相当于服务员把订单录入系统）；
epoll_wait：Worker调用epoll_wait，等待事件就绪（相当于服务员看订单系统，没就绪事件就“休息”，不占用CPU）；
处理就绪事件：当有事件就绪（如客户端连接到来、文件读取完成），epoll_wait返回就绪事件列表，Worker逐个处理（相当于服务员处理做好的订单）。

3.3 实战理解：一个Worker处理1万并发连接

我们用“服务静态HTML页面”的场景，看Nginx的Worker如何处理1万并发连接：

连接建立：1万个客户端同时发起连接，Master进程将连接均匀分配给4个Worker（每个Worker处理2500个连接）；
注册事件：每个Worker将2500个连接的“读事件”（等待客户端发送HTTP请求）注册到epoll；
等待就绪：Worker调用epoll_wait，等待客户端发送请求（此时Worker不占用CPU，处于“空闲”状态）；
处理请求：
- 当某客户端发送HTTP请求（如GET /index.html），epoll标记该连接的“读事件”就绪，epoll_wait返回；
- Worker读取请求数据，解析请求路径，发现是静态文件，发起“读磁盘文件”的非阻塞I/O（注册“文件读事件”到epoll）；
- Worker继续处理其他就绪事件（如其他客户端的请求），不用等磁盘文件读完；
返回响应：
- 磁盘文件读取完成，epoll标记“文件读事件”就绪，epoll_wait返回；
- Worker读取文件数据，构建HTTP响应，发送给客户端（注册“写事件”到epoll，等待客户端接收数据）；
- 客户端接收完数据，连接关闭（或进入长连接等待）。

整个过程中，一个Worker能同时管理2500个连接，而资源消耗极低——因为大部分时间Worker在“等事件就绪”，而非“阻塞等待I/O”。

3.4 压测对比：Nginx vs Apache

我们用ab（Apache Bench）工具做简单压测，直观感受两者的差异（测试环境：4核CPU、8GB内存，服务1KB的静态HTML）：

压测命令（模拟1万并发，发送10万请求）

# 压测Nginx
ab -n 100000 -c 10000 http://192.168.1.100/

# 压测Apache（Prefork模式）
ab -n 100000 -c 10000 http://192.168.1.101/

压测结果对比

指标	Nginx	Apache（Prefork）
平均响应时间	8ms	200ms
CPU使用率	40%	95%
内存占用	150MB	3.2GB
失败请求数	0	1200（内存不足导致）

从结果能看到：Nginx在1万并发下，响应快、资源消耗低；而Apache因阻塞模型，内存和CPU占用飙升，还出现请求失败。

四、Nginx请求处理全流程：从连接到响应

结合前面的架构和模型，我们完整梳理一次“用户访问Nginx服务静态页面”的流程（以4核CPU、4个Worker为例）：

sequenceDiagram
    participant 客户端
    participant Master进程
    participant Worker1
    participant Worker2
    participant Worker3
    participant Worker4
    participant 磁盘 静态文件
    participant epoll

    客户端->>Master进程： 发起TCP连接（如访问http://xxx.com）
    Master进程->>Worker1： 分配连接（轮询分配）
    Worker1->>epoll： 注册“读事件”（等待客户端发请求）
    客户端->>Worker1： 发送HTTP请求（GET /index.html）
    epoll->>Worker1： 通知“读事件就绪”
    Worker1->>Worker1： 读取并解析请求
    Worker1->>epoll： 注册“文件读事件”（读/index.html）
    epoll->>磁盘（静态文件）： 触发文件读取
    磁盘（静态文件）->>epoll： 读取完成，通知“文件读事件就绪”
    epoll->>Worker1： 通知“文件读事件就绪”
    Worker1->>Worker1： 读取文件数据，构建HTTP响应
    Worker1->>epoll： 注册“写事件”（给客户端发响应）
    epoll->>Worker1： 通知“写事件就绪”（客户端可接收数据）
    Worker1->>客户端： 发送HTTP响应
    Worker1->>epoll： 注销事件，连接关闭（或进入长连接）

关键总结：

Master只做“分配”：不处理具体请求，只负责把连接分给Worker；
Worker靠epoll“调度”：所有I/O操作都通过epoll注册和通知，Worker只处理“就绪事件”，不阻塞；
非阻塞I/O是“效率核心”：一个Worker能同时管理上千个连接，资源消耗极低。

五、核心配置与架构的“联动”：初学者必调参数

Nginx的核心配置直接影响架构性能，初学者需重点关注以下参数（配置文件/etc/nginx/nginx.conf）：

5.1 worker_processes：Worker进程数

# 推荐配置：等于CPU核心数（auto自动识别）
worker_processes auto;

作用：控制Worker进程数量，每个Worker占用一个CPU核心；
误区：不是越多越好——8核CPU设16个Worker，会导致CPU频繁切换，性能下降；
查看：用lscpu看CPU核心数，确保worker_processes与之匹配。

5.2 worker_connections：单Worker最大连接数

events {
    # 单Worker能处理的最大连接数（默认1024，高并发场景可调至10000+）
    worker_connections 10240;
    # 启用epoll事件模型（Linux下默认自动启用，可显式配置）
    use epoll;
}

作用：每个Worker能同时管理的最大连接数；
总并发能力：worker_processes × worker_connections（如4×10240=40960，即Nginx总并发能力约4万）；

注意：需同步调整系统文件描述符限制（Linux默认每个进程最多打开1024个文件，连接也会占用文件描述符）：

# 临时调整系统文件描述符限制（重启失效）
ulimit -n 65535
# 永久调整：编辑/etc/security/limits.conf，添加
nginx soft nofile 65535
nginx hard nofile 65535

5.3 use epoll：显式启用高效事件模型

events {
    use epoll;  # Linux系统
    # use kqueue;  # BSD/Mac系统
    # use iocp;    # Windows系统
}

作用：指定Nginx使用的事件模型，epoll是Linux下性能最好的模型；
注意：Nginx会自动识别系统，选择最优事件模型，但显式配置可避免识别错误。

六、总结：Nginx架构的“成功之道”

Nginx的高并发、低资源消耗，本质是“架构设计”与“操作系统特性”的完美结合：

多进程模型：Master管全局，Worker做执行，稳定又安全；
事件驱动+epoll：一个Worker处理上千连接，非阻塞I/O避免资源浪费；
与硬件匹配的配置：Worker数随CPU核心调整，连接数随系统资源调整，不做“无用功”。

对初学者来说，记住三个核心结论：

调优先看worker_processes：必须等于CPU核心数；
高并发先调worker_connections：配合系统文件描述符限制；
遇到性能问题先查“事件模型”：确保启用epoll（Linux）。

下一步，你可以自己动手：用ps看Nginx进程，用ab做压测，修改配置后观察性能变化——只有实践，才能真正理解Nginx架构的魅力！