如何避免死锁？ - 问题详情 - 创脉思

解读

在国内 Rust 后端/基础架构面试中，“死锁”是并发安全必考题。面试官不仅想知道“什么是死锁”，更关注“你在真实业务代码里如何系统性地消灭它”。回答时要把 Rust 的编译期保证与运行期策略结合起来，体现“编译通过即正确”的社区文化，同时给出可落地的工程规范。

在 Rust 中避免死锁遵循“编译期防数据竞争 + 运行期防逻辑循环等待”双轨策略，具体分五步：

统一锁层级
给所有锁定义全局层级常量，如 const LEVEL_DB: u8 = 10; const LEVEL_CACHE: u8 = 20; 并封装成 OrderedMutex<T>，加锁时按层级升序获取；逆序需求先释放再重入，循环等待被强制打破。
最小临界区 + 无锁化
用 crossbeam::Epoch 或 AtomicXXX 实现无锁队列，把热点路径从锁中剥离；确实需要共享数据时，把 Mutex 藏在结构体内部，只暴露非阻塞 API，避免调用方二次加锁。
尝试锁 + 超时回退
对可能重入的临界区使用 mutex.try_lock_for(Duration::from_millis(50))，失败即回滚并异步重试，防止线程永久阻塞；在异步代码里统一用 tokio::sync::Mutex，禁止.blocking_lock()，否则会把 tokio 工作线程钉死，等价死锁。
静态分析与单测
在 CI 中启用 parking_lot_deadlock::check_deadlock() 作为集成测试用例；配合自定义 clippy lint，凡出现嵌套 lock() 即报错，强制开发者写“锁顺序注释”才能合并。
线上观测
生产环境开启 parking_lot 的 deadlock_detection feature，每秒采样锁图；一旦检测到循环，立即通过 tracing 输出线程栈并自动 dump 到 Sentry，实现分钟级定位。

通过以上五层防线，我们团队把过去 C++ 服务中每周 2–3 起死锁降到 Rust 重构后零线上事故，并通过了 2023 年双十一流量洪峰验证。

当引入 async 与 block_in_place 混写时，协程锁与线程锁交叉可能产生“伪死锁”，如何设计 #[no_blocking] 注解在编译期禁止混用？
若业务必须逆向加锁（如回调链），可采用 “锁令牌” 机制：把高层级锁 into_inner() 后降级为 &T，以值传递方式避免二次获取，是否破坏抽象安全性？
在 NUMA 架构下，统一锁顺序会导致跨 Node 竞争加剧，如何结合 sharded_slab 与每 CPU 副本，实现无锁读 + 批量写回，从而既防死锁又保性能？