select、poll 和 epoll

原创已于 2025-07-16 13:19:34 修改 · 981 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#操作系统 #调度 #epoll

于 2025-07-15 20:11:50 首次发布

多线程专栏收录该内容

8 篇文章

订阅专栏

select、poll、epoll，是 Linux/Unix 系统中用于 多路复用 I/O 的几种机制。简单说，它们都用来解决一个问题：如何同时监控多个文件描述符（fd）上的事件（比如是否可读、可写、异常等），以便程序高效地处理网络连接或文件I/O。

一. select

select 是一种系统调用，用于同时监控多个文件描述符（fd），判断它们是否准备好进行读、写或是否有异常情况。它的作用是让程序在单线程内“观察”多个fd，而不是一个一个阻塞等待，大幅提升I/O效率。

1. select的基本工作原理

select 是一种经典的 I/O 多路复用机制，其基本作用是：通过一个系统调用，监视多个文件描述符（File Descriptor, fd）的状态，判断是否可进行非阻塞的读写操作或是否发生异常，以实现高效的 I/O 事件驱动。

1.1 文件描述符集合的设置

在调用 select 函数之前，应用程序需要设置三个文件描述符集合，以指明需要内核监控的事件类型：

1.读集合（readfds）：指定需要监控是否“可读”的文件描述符。例如：接收缓冲区中是否已有数据可读，或者监听套接字是否有新的连接请求。

2.写集合（writefds）：指定需要监控是否“可写”的文件描述符。例如：发送缓冲区是否有足够空间以便立即写入数据。

3.异常集合（exceptfds）：指定需要监控异常事件的文件描述符。例如：TCP 套接字上的带外数据（Out-of-Band Data）等异常情况。

1.2 内核事件轮询

当 select 被调用时，内核会执行以下操作：

1.遍历所有传入的文件描述符集合；

2.对每一个文件描述符检查其当前状态是否符合用户指定的事件类型（读、写或异常）；

3.若检测到有文件描述符满足条件，select 立即返回；

4.若无事件满足，内核将阻塞当前进程，直到：

a. 某个文件描述符状态发生变化；

b.超时时间到达；

c.或被信号中断。

1.3 状态结果的反馈

select 函数返回后：

1.返回值为 已就绪的文件描述符数量；

2.内核会将原始的 fd_set 集合修改，仅保留状态已变化的文件描述符；

3.应用程序随后遍历集合，识别出具体哪些描述符已经就绪，并据此执行相应的 read、write 或异常处理操作。

2. select 的优点

1.实现简单，接口统一

select 接口设计简洁、使用方便，广泛应用于各种操作系统中。其 API 接口在 POSIX 标准中被定义，具备良好的可移植性，适用于类 Unix 系统和 Windows 系统。

2.支持多种类型的文件描述符

select 可用于监控除套接字之外的其他文件描述符（如普通文件、管道、终端等），适用场景较为广泛。

3.适用于小规模连接

在文件描述符数量较少的场景中（如几十个连接以内），select 的性能仍能满足要求，具有良好的实用价值。

3. select 的缺点

1.文件描述符数量有限制

select 使用固定大小的位图结构 fd_set 来存储文件描述符状态，通常受限于操作系统的 FD_SETSIZE 宏定义，默认最多只能监控 1024 个文件描述符（部分系统允许通过修改宏值提高此限制），不适合高并发场景。

2.每次调用需重置 fd 集合

由于内核在处理过程中会修改传入的文件描述符集合，因此在每次调用 select 之前，用户必须重新设置所有感兴趣的文件描述符集合，增加了编程复杂度和 CPU 开销。

3.效率低，采用线性轮询

select 内部通过对每个文件描述符进行线性扫描判断其状态，导致其时间复杂度为 O(n)，在监控大量文件描述符时性能下降显著，尤其在连接数量大、就绪连接少的情况下效率极低。

4.状态信息缺乏持久性

select 不会保存用户注册的事件状态，所有监控信息需每次重复传入，并且状态检查过程重复进行，造成额外资源浪费。

4. select 关键特性

1.select 通过“集合 + 轮询”方式进行事件检测，属于同步阻塞式 I/O 多路复用；

2.使用固定大小的 fd_set 位图结构，通常限制最大文件描述符数为 1024（受 FD_SETSIZE 限制）；

3.每次调用后，文件描述符集合会被内核修改，应用程序需在每次调用前重新初始化集合。

select 作为最早的 I/O 多路复用机制，因其简单、通用和可移植性强，仍在许多系统中得到应用。然而，受限于连接数上限与性能瓶颈，其在高并发、高性能网络应用场景中已逐渐被 poll、epoll 等更高效的机制所替代。

二. poll

poll 是一种 I/O 多路复用机制，最早由 System V 引入，用于替代传统的 select 系统调用。与 select 类似，poll 可以用于同时监视多个文件描述符的 I/O 状态，从而实现非阻塞的 I/O 操作。相较于 select，poll 在接口设计、文件描述符数量限制、可扩展性等方面进行了改进。

1. poll 的基本工作原理

poll 是一种基于事件轮询的 I/O 多路复用机制，其核心思想是：通过遍历用户传入的文件描述符集合，检测每个文件描述符上是否发生了用户感兴趣的事件（如可读、可写或异常）。当满足条件的事件发生时，poll 函数返回，通知应用程序进行相应处理。

1.1 事件注册

应用程序构造一个 pollfd 结构体数组，并在每个元素中指定待监视的文件描述符 fd 以及感兴趣的事件类型（通过 events 字段设置，如 POLLIN、POLLOUT 等）。随后，将该数组传入 poll 函数调用。

1.2 内核复制用户态数据

当调用 poll 时，内核会将用户空间中的 pollfd 数组复制到内核空间，以便在内核态进行事件检测。

1.3 事件检查（轮询扫描）

内核在内部遍历 pollfd 数组，针对每个文件描述符执行一次状态检查，以判断其当前是否满足所请求的事件条件：

1. 若文件描述符处于就绪状态（如有数据可读、可写或发生错误），则在对应的 revents 字段中标记已发生的事件；

2. 若所有文件描述符均未就绪，内核根据 timeout 参数的设置，进入阻塞等待，直到超时或有事件发生为止。

1.4 返回事件结果

一旦满足以下任一条件：

1.至少有一个文件描述符的事件就绪；

2.超时时间到达；

3.系统信号中断当前调用；

poll 函数立即返回，返回值为就绪的文件描述符数量。同时，内核将每个文件描述符的实际事件结果写入其对应结构体的 revents 字段，供用户空间程序后续读取与处理。

1.5 应用层处理

应用程序通过遍历 pollfd 数组，检查各元素的 revents 字段，判断哪些文件描述符上已发生感兴趣的事件，并据此执行相应的 I/O 操作。

2. poll优点

1.突破文件描述符数量限制

poll 采用线性表（pollfd 数组）而非位图结构存储监控对象，因此不受 FD_SETSIZE（通常为 1024）约束，可支持成千上万的文件描述符，满足中等规模并发需求。

2.事件定义灵活、信息反馈清晰

每个数组元素同时包含输入事件字段 events 和输出事件字段 revents。应用程序可按需组合 POLLIN、POLLOUT、POLLERR 等标志，返回值也以位掩码形式精确标示实际发生的事件，便于后续处理。

3.数据结构可动态调整

因为监控集合存放在用户空间，应用可以在每次调用前自由增删文件描述符或修改关心的事件，而无需像 select 那样受限于固定大小的内核位图。

4.跨平台兼容性良好

poll 处于 POSIX 标准，自 System V 时代起就在主流 Unix / Linux 发行版中提供支持，也可在部分 BSD 和 Windows（WSAEventSelect 变体）环境中使用，便于编写可移植应用。

3. poll缺点

1.线性扫描导致 O(n) 时间复杂度

检测阶段内核仍需逐个遍历数组，判断每个文件描述符的状态。连接数较多且就绪事件稀少时，CPU 开销随 n 线性增长，效率明显低于基于事件回调的 epoll / kqueue。

2.每次调用必须重新传入完整数组

poll 不保存任何注册状态。应用层在每轮事件循环前，需重新构造并复制整个 pollfd 数组至内核，这一内核/用户态数据交换会产生额外开销。

3.无法避免“惊群”问题（thundering herd）

多线程或多进程同时监控同一套接字集合时，某个事件就绪会唤醒所有等待实体，导致无效竞争与上下文切换，影响可伸缩性。

4.不支持边沿触发（Edge‑Triggered）语义

poll 仅提供水平触发（Level‑Triggered）机制。当缓冲区仍留有未读/未写数据时，轮询调用将持续报告就绪，应用需显式循环处理，增加逻辑复杂度和系统调用次数。

4. poll 关键特性

1. poll 支持任意大小的文件描述符集合，不再受 FD_SETSIZE 限制；

2. 检测机制采用线性遍历方式，对每个文件描述符逐一检查，时间复杂度为 O(n)；

3. 不保留任何状态信息，每次调用均需重新传入完整的文件描述符数组；

4. 支持更丰富的事件类型和更清晰的事件反馈机制（通过 revents 字段实现）。

poll 通过灵活的数组结构解决了 select 的描述符数量上限和事件表达不够直观的问题，适合中等并发、跨平台要求较高的场景；然而，其 O(n) 线性扫描及状态不持久等局限使其难以胜任大规模高并发服务器。在追求极致性能与伸缩性的应用中，通常应优先考虑 epoll（Linux）、kqueue（BSD/macOS）等更高效的事件通知机制。

三. epoll

epoll（Event Poll）是 Linux 内核 2.5.44 起引入的一种高性能 I/O 多路复用机制，用于替代传统的 select 和 poll。它专为大规模并发连接设计，能高效处理数以万计的文件描述符，广泛应用于高性能网络服务器与事件驱动模型中。

1. poll 的基本工作原理

epoll 是 Linux 平台上用于实现 I/O 多路复用的高效机制，其核心思想是将事件注册与事件监听分离，借助内核维护的事件就绪队列，实现对大量文件描述符的高性能监控。与传统的 select 和 poll 相比，epoll 在高并发场景下具有更优的扩展性和更低的系统开销。

1.1 事件注册阶段（epoll_ctl）

应用程序首先通过 epoll_create 创建一个 epoll 实例（返回一个 epoll 文件描述符），然后通过 epoll_ctl 系统调用向内核注册需要监视的文件描述符及其关注的事件类型。

注册事件时，开发者可以指定以下类型：

1.EPOLLIN：监视“可读”事件；

2.EPOLLOUT：监视“可写”事件；

3.EPOLLERR：监视错误事件；

4.以及可选的触发模式，如：

EPOLLET（边沿触发）；

EPOLLONESHOT（一次性触发）等。

内核将这些事件信息记录在 epoll 实例内部的数据结构中，通常以红黑树组织，以便高效地管理监视目标。

1.2 事件检测阶段（内核维护）

当所监控的文件描述符中有某个 fd 的状态发生变化（例如变得可读或可写），内核会将其加入一个“就绪事件队列”（ready queue）。这一就绪列表由内核主动维护，采用链表等高效结构进行组织。

相比 select 和 poll 每次调用都需遍历所有 fd，epoll 仅处理就绪的 fd，避免了大量无效轮询，大幅降低了性能损耗。

1.3 事件响应阶段（epoll_wait）

应用程序通过调用 epoll_wait 来等待已就绪的事件。调用时，用户需提供：

1. epfd：由 epoll_create 返回的 epoll 实例描述符；

2. events：用户态数组，用于接收发生的事件；

3. maxevents：数组容量；

4. timeout：最长等待时间（毫秒），支持阻塞、非阻塞和超时模式。

epoll_wait 调用会被挂起，直到以下任一条件满足：

1.有一个或多个已注册的 fd 的状态满足触发条件；

2.超时时间到达；

3.系统调用被信号中断。

当有事件发生时，内核将就绪事件从内核空间拷贝到用户空间的 events 数组，并返回就绪事件的数量。应用程序可依次处理每个就绪事件所对应的 fd。

1.4 触发模式与行为差异

epoll 支持两种触发模式：

1. 水平触发（Level Triggered, LT）：默认模式。只要 fd 对应的缓冲区中仍有数据未处理，epoll_wait 每次都会返回该事件；

2. 边沿触发（Edge Triggered, ET）：仅在 fd 状态从“无事件”变为“有事件”时通知一次。若未一次性处理完所有数据，后续不会再次提醒，必须结合非阻塞 I/O 使用。

2. epoll 优点

1. 高效的事件处理机制

epoll 将所有就绪的文件描述符通过内核维护的“就绪队列”主动推送至用户空间，避免了 select/poll 所需的全量遍历，就绪事件的时间复杂度为 O(1)，大幅提升了在高并发场景下的效率。

2. 支持大规模并发连接

由于 epoll 使用的是基于文件描述符红黑树与链表的管理结构，其监控的描述符数量仅受系统资源限制，而非像 select 那样受 FD_SETSIZE（通常为 1024）限制，因此可轻松管理数万甚至更多的并发连接，适用于构建高性能服务器。

3. 内核状态自动维护

调用 epoll_ctl 注册一次事件后，后续的 epoll_wait 调用无需重复传递 fd 集合，减少了用户态与内核态之间的数据拷贝开销，同时简化了编程模型。

4. 支持边沿触发（ET）和一次性触发（ONESHOT）

epoll 除支持水平触发（Level Triggered）外，还可选择边沿触发模式（Edge Triggered），在高性能服务器编程中能进一步降低事件通知次数，提升 I/O 响应效率。EPOLLONESHOT 则提供更细粒度的控制能力，适用于多线程场景下的事件分发。

5. 事件与数据解耦

通过 epoll_event 结构体中的 data 字段，用户可关联任意指针或整数，实现事件与业务数据的映射，便于在回调处理时定位资源和状态。

3. epoll 缺点

1. 平台兼容性差

epoll 是 Linux 特有的系统调用，不属于 POSIX 标准，在 FreeBSD、macOS 或 Windows 等系统中无法使用，限制了应用程序的跨平台能力。在跨平台开发中，需额外封装适配层。

2. 编程复杂度较高

特别是在采用边沿触发模式时，必须结合非阻塞 I/O 且一次性读取/写入全部数据，否则可能导致事件“丢失”，进而引发通信阻塞。相比 select/poll，epoll 的正确使用门槛更高，对开发者要求更严格。

3. 不适合处理少量连接

在连接数量较少的应用场景中，epoll 带来的性能收益有限，甚至可能因红黑树结构的维护和 epoll 实例开销而略逊于简单的 select。

4. 对某些 I/O 类型支持有限

epoll 主要适用于 socket 类型的文件描述符，对于普通文件（如磁盘文件）或某些特殊设备的 I/O 事件，其并不能提供有效的就绪通知机制。

4. epoll 关键特性

epoll（event poll）是 Linux 内核为满足高性能网络服务器和大规模并发场景需求而设计的一种事件驱动型 I/O 多路复用机制。相较于传统的 select 与 poll，epoll 在系统资源使用、事件处理效率及编程模型等方面均具显著优势。

1. 支持高并发连接

epoll 可支持数量级达到数万级的并发文件描述符（fd）监控，突破了 select 的 FD_SETSIZE 限制（通常为 1024），理论上仅受系统资源上限制约，适用于高负载、高连接数场景。

2. 事件驱动模型（回调式设计）

采用注册-触发的工作机制：用户通过 epoll_ctl 预先注册感兴趣的事件，内核在对应 fd 状态变化时主动将其放入就绪队列，事件检测由内核主动完成，避免重复轮询，显著降低 CPU 占用。

3. O(1) 级别的就绪事件通知效率

与 select 和 poll 采用线性遍历 fd 集合不同，epoll 通过内核维护的就绪队列直接返回事件，其处理效率与监控 fd 数量无关，具备更优的时间复杂度，提升整体响应性能。

4. 支持水平触发与边沿触发

5. 事件与用户数据绑定

epoll_event 结构允许开发者为每个 fd 绑定一个 data 字段（如结构体指针、对象 ID 等），便于在事件触发时快速定位业务对象或上下文信息，增强代码的可扩展性和可维护性。

6. 减少内核与用户态切换

7. 支持一次性事件（EPOLLONESHOT）

通过 EPOLLONESHOT 标志，可实现事件触发后自动注销的机制，适用于多线程并发处理场景，避免重复触发带来的资源竞争问题。

8. Linux 平台专属，非跨平台机制

四. select、poll 和 epoll 的区别

对比维度	select	poll	epoll
引入时间	最早，POSIX 标准	后于 select，兼容性更好	Linux 2.6 内核引入，Linux 独有
支持的最大连接数	有限制，默认 1024（可改内核参数）	理论无上限，但效率下降	理论无上限，依赖系统资源，扩展性强
内核维护的数据结构	位图数组	数组	红黑树 + 就绪链表
调用方式	每次传入所有 fd	每次传入所有 fd	fd 注册一次，后续事件自动触发
检测效率	O(n)，每次都要遍历全部 fd	O(n)，线性遍历	O(1)，只处理就绪事件
用户/内核交互成本	高，每次都要拷贝 fd 集合	高，同上	低，fd 注册一次即可
支持触发方式	仅水平触发	仅水平触发	支持水平和边沿触发
边沿触发支持	不支持	不支持	支持（更高性能）
数据结构传递方式	fd_set 位图	pollfd 结构数组	epoll_event + 内核队列
用户数据绑定能力	不支持	不支持	支持通过 data 指针关联用户上下文
跨平台能力	POSIX 标准，跨平台	POSIX 标准，跨平台	Linux 独有
编程复杂度	低，适合初学	中	高，使用 ET 模式要求配合非阻塞 I/O
适用场景	少量连接、简单场景	中小规模并发	大规模并发、高性能服务器、事件驱动框架