当合规要求保存 15 天日志，对压测环境存储造成 5 倍压力时，你会如何权衡 - 问题详情 - 创脉思

解读

面试官想验证三件事：

日志分级与采样：ERROR/FATAL 全量、INFO/WARN 按 TraceID 采样、DEBUG 关闭；
热-温-冷三级存储：SSD 本地 48 h、SATA 本地 7 天、对象存储 15 天，生命周期策略自动沉降；
压缩与裁剪：Lucene 编解码 + ZSTD 压缩率 5:1，裁剪掉图片二进制、SQL 参数值、堆栈重复帧；
计算存储分离：压测集群只写本地 2 h 缓冲，随后通过 Flink/Logstash 流式转储到 HDFS/OSS，不占用压测机 IO；
合规最小化原则：仅保留可追溯到“交易对手方+金额+时间戳”字段，其余脱敏后删除，降低 40% 体积；
容量模型：单并发用户 1.2 kB/s，5 k 并发 5.86 TB/15 天，压缩后 1.17 TB，冷存储单价 0.12 元/GB/月，成本 140 元/月，占整体压测环境成本 <3%，可接受；
SLA 与审计：存储对象开启 WORM（一次写多次读），Bucket Policy 禁止删除，日志哈希链每日固化，满足《证券基金经营机构信息技术管理办法》第 34 条；
风险回退：若压缩算法 CPU 占用 >5%，立即回滚到 GZIP-1 级，并触发告警。

我会把问题拆成“合规不可谈判、存储成本可优化、性能影响可隔离”三条线并行推进：
第一步，量化：

第二步，架构：

日志分级：ERROR/FATAL 全量落盘，INFO/WARN 按 TraceID 1/10 采样，DEBUG 关闭，减少 60% 写入量；
热-温-冷三级：本地 NVMe 只保留 48 h 热数据，供实时定位瓶颈；7 天内 SATA 温数据通过 Nightingale 自动沉降；15 天冷数据转 OSS-WORM，禁止篡改；
计算存储分离：压测机通过异步 batch 512 kB 发送到 Kafka，消费组写入 OSS，不占用压测磁盘 IO，避免 5 倍压力直接落在环境上；
实时清洗：Flink 作业在 Kafka→OSS 链路上完成脱敏、裁剪、压缩，CPU 增加 <3%，对压测结果无感知。

第三步，落地：

第四步，复盘：

一句话总结：用“分级+采样+压缩+沉降”把 5 倍存储压力降到 0.7 倍，成本增加 <3%，合规、性能、预算三者兼得。

如果合规期从 15 天延长到 90 天，冷存储成本线性放大 6 倍，此时可引入“日志摘要链”：只保存原始日志的 Merkle Tree 根哈希与抽样文件，90 天后原始文件删除，仍能证明未被篡改，满足《个人信息保护法》第 47 条“最小保存”要求。
在云原生环境下，可把日志 sidecar 容器资源限制为 0.2 core/200 MiB，通过 Vertical Pod Autoscaler 动态扩容，避免压测 Pod 因 sidecar OOM 被误杀，导致 TPS 掉零。
未来若压测规模扩大 10 倍，可考虑把 Kafka 换成 Pulsar 分层存储，利用 offload 到 S3 的能力，做到“无限日志”而不扩容本地磁盘，实现真正的“存储与并发解耦”。