如何屏蔽内存访问时序？ - 问题详情 - 创脉思

解读

在国内 Rust 岗位面试中，“屏蔽内存访问时序”并不是让 CPU 真正“看不见”时序，而是在语言层面和编译器层面消除因编译器重排、CPU 乱序、缓存一致性带来的可见性副作用，从而保证多线程环境下对共享内存的读写顺序符合程序意图。Rust 通过**内存模型（Rust Memory Model）与LLVM 的内存序（Ordering）**机制，把 C++20 风格的 atomic 语义完整暴露给开发者，用类型系统+编译器屏障+硬件屏障三管齐下，把“时序”封装成可组合、可验证的 API，而不是像 C/C++ 那样靠开发者手写汇编或宏来强行“屏蔽”。

知识点

Rust 内存模型
基于 LLVM 的“happens-before”关系，所有同步原语都必须通过 atomic 类型显式声明，编译器不会为普通引用生成任何屏障指令。
Atomic 类型与 Ordering
std::sync::atomic::{AtomicUsize, AtomicPtr, AtomicBool} 提供五种排序：
- Relaxed：只保证原子性，不保证顺序。
- Acquire/Release：成对使用，建立跨线程同步边。
- AcqRel：同时具有 Acquire 和 Release 语义。
- SeqCst：全局一致顺序，最强屏障。
编译器屏障 vs 硬件屏障
Rust 的 atomic::fence(Ordering) 会根据目标平台生成对应的 dmb/mfence/sync 指令，阻止编译器和 CPU 的重排。
Unsafe 与裸指针
裸指针读写 *mut T/*const T 默认不带任何屏障，必须在临界区前后手动插入 fence，否则会出现“看似屏蔽、实则未屏蔽”的漏洞。
Cache 一致性协议
在 ARM64 或 RISC-V 多核 SoC 上，仅靠 Relaxed 无法刷新 Store Buffer，必须升级到 Release 或 SeqCst 才能真正“屏蔽”时序差异。

答案

在 Rust 中屏蔽内存访问时序的标准做法是：

把所有会被多线程并发访问的共享变量声明为 Atomic* 类型；
根据同步需求选择合适的 Ordering：
- 如果只想阻止编译器重排，但 CPU 乱序可接受，用 Relaxed；
- 如果要建立“写-读”同步边，写端用 Release，读端用 Acquire；
- 如果要全局一致快照，用 SeqCst。
对一段临界区内的多条普通内存访问，用 fence(Ordering::SeqCst) 在前后插入全屏障，确保前面的写对后面的读全局可见；
在 unsafe 块里操作裸指针时，必须手动调用 core::sync::atomic::fence，否则编译器会假设这段内存未被其他线程修改，从而重排或删除内存访问；
在嵌入式裸机场景，如果平台没有缓存一致性（如某些 RISC-V MCU），还需要外设级屏障（如 asm!("fence io, io")），此时用 core::arch::asm! 内联汇编配合 fence 才能彻底屏蔽时序。

示例代码：

use std::sync::atomic::{AtomicBool, Ordering};

static FLAG: AtomicBool = AtomicBool::new(false);
static mut DATA: u32 = 0;

// 线程 A
unsafe {
    DATA = 42;                           // 普通写
    core::sync::atomic::fence(Ordering::Release); // 编译器+CPU 屏障
    FLAG.store(true, Ordering::Release); // 发布
}

// 线程 B
while !FLAG.load(Ordering::Acquire) {}   // 获取
core::sync::atomic::fence(Ordering::Acquire);
assert_eq!(unsafe { DATA }, 42);         // 必为 42，时序被屏蔽

拓展思考

ARM64 的 LDAR/STLR 与 Rust 的映射关系
Acquire 对应 ldar，Release 对应 stlr，Rust 编译器会自动选择这些单指令屏障，无需手写汇编，但面试时可展示你对指令级细节的了解。
SeqCst 的性能代价
在**国产服务器芯片（如鲲鹏 920）**上，SeqCst 会触发全局广播，延迟比 Release/Acquire 高 15~20 ns，高频路径应优先用成对 Acquire/Release。
混合语言链接
当 Rust 通过 FFI 调用 C 库时，C 侧可能使用 __sync_synchronize 或 __atomic_thread_fence，Rust 侧必须保证 Ordering 级别不低于 C 侧，否则会出现“时序屏蔽断层”。
Miri 与 Loom 检测
国内大厂已开始用 Miri 检测 unsafe 下的数据竞争，用 Loom 模拟并发时序，面试时提到“用工具验证屏障有效性”会大幅加分。