面试场景——如何检测死锁

最新推荐文章于 2025-08-11 20:41:56 发布

原创最新推荐文章于 2025-08-11 20:41:56 发布 · 346 阅读

CC 4.0 BY-SA版权

文章标签：

20 篇文章

订阅专栏

在面试中回答 “如何检测死锁” 时，可以从不同场景（单机 / 分布式） 和具体工具 / 方法两个维度展开，结合实际案例说明会更有说服力。以下是结构化的回答思路：

单机环境下，死锁主要发生在多线程争夺本地资源（如内存锁、文件锁）的场景，检测方法依赖系统工具或代码埋点：

Java 生态：
- 使用 jstack <进程ID> 命令生成线程栈快照，搜索 BLOCKED 状态的线程，查看其等待的锁资源和持有锁的线程。若发现线程 A 等待线程 B 的锁，而线程 B 等待线程 A 的锁，即存在死锁。
- 示例：在电商项目的库存扣减模块中，曾通过 jstack 发现两个线程因争夺 商品库存锁 和 订单状态锁 形成死锁，栈信息中明确显示相互等待的锁地址。
Go 语言：
- 使用 go tool trace 分析程序执行轨迹，或通过 sync.Mutex 的调试模式（debug.SetMutexProfileFraction）生成锁竞争报告，排查循环等待的 goroutine。

Linux 系统：
- pstack <进程ID>：打印进程内所有线程的调用栈，分析线程阻塞原因。
- ps -eL -o pid,tid,state：查看线程状态，若多个线程长期处于 D（不可中断睡眠）或 R（运行但阻塞）状态，可能存在死锁。
Windows 系统：
- 通过 “任务管理器→详细信息→右键进程→创建转储文件”，结合 WinDbg 分析线程阻塞关系。

实现简单的 “资源等待监控”：为每个锁维护持有者和等待队列，定时检查是否存在环形等待链（如用有向图检测环）。
示例：在自定义的分布式锁工具中，通过记录每个线程持有的锁和等待的锁，每 10 秒扫描一次，若发现 线程A→锁1→线程B→锁2→线程A 的环形依赖，立即日志告警。

数据库死锁（如 MySQL InnoDB）主要源于事务争夺行锁，数据库自身有成熟的检测机制：

MySQL：
- 执行 show engine innodb status\G 查看最近一次死锁详情，包括死锁事务的 SQL 语句、持有锁和等待锁的类型（如 X锁）、回滚策略（InnoDB 会自动回滚代价较小的事务）。
- 案例：订单系统中，两个事务同时更新订单表和库存表，因加锁顺序相反触发死锁，通过该命令定位到具体的 UPDATE 语句和行锁冲突。
SQL Server：
- 使用 sp_who2 查看阻塞进程，或通过 “活动监视器” 可视化展示事务阻塞链。