如何记录每次推理的输入、输出、模型版本并满足 GDPR 可删除要求?

解读

面试官想确认三件事:

  1. 你是否理解大模型推理日志在业务、合规、运维三方面的价值;
  2. 能否在中国数据出境监管(《个人信息保护法》《数据跨境传输安全管理办法》)与GDPR双重框架下设计“可删可查”的存储方案;
  3. 是否具备LLMOps 可观测性落地经验,能把“删”做成自动化、可审计、不可回滚的流程,而不是一句“定期清理”就结束。

知识点

  1. 个人信息定义与匿名化标准:GDPR 第 4 条与《个保法》第 73 条均把“已识别或可识别”作为判断标准,哈希+盐、形式化脱敏、向量降维仍可能因可逆而被认定为个人信息。
  2. 数据分级存储原始层(Raw)脱敏层(Pseudonymized)聚合层(Aggregated),每层配套TTL+加密+权限矩阵
  3. 可删除的技术路径
    • 逻辑删除+加密密钥粉碎(Crypto-Shredding),确保 30 天内物理不可恢复;
    • WORM 对象存储(如阿里云 OSS 合规保留)与KMS 密钥轮换联动,实现“删密钥即删数据”;
    • 向量数据库(Milvus、Pinecone)支持按用户 ID 做 Partition Key,删除时直接 Drop Partition,避免全局扫描。
  4. 模型版本追溯:每次推理写入Model Signature(名称+SHA256+Git Commit),与日志同写一条事务,保证可重放、可回滚、可审计
  5. 中国本地合规增强:对跨境传输触发点(GPU 节点在境外、日志备份到海外 S3)需做数据出境安全评估标准合同备案,否则即使技术上满足 GDPR,仍会被国内监管叫停。

答案

“我会把链路拆成采集、脱敏、分级存储、可删除、可审计五步闭环。
第一步,采集:在推理服务网关统一拦截,记录 Request-ID、用户伪 ID、输入输出、模型版本、时间戳,不落盘先过脱敏函数(正则+NER 把手机号、邮箱替换成可逆 Token)。
第二步,脱敏:对欧盟用户采用AES-256 加密+随机盐,密钥放在阿里云 KMS 的欧盟专属密钥库;对中国用户走国密 SM4,密钥在金融云 HSM
第三步,分级存储

  • 热数据(7 天)写Kafka→ClickHouse,用于实时报警;
  • 温数据(90 天)写OSS 标准存储+WORM 策略,对象名带“用户伪 ID+年月”,方便定位;
  • 冷数据(>90 天)聚合为指标与样本,原始日志密钥粉碎后物理删除。
    第四步,可删除:收到用户删除请求时,网关异步下发事件到 Kafka-delete Topic,下游服务按“用户伪 ID”删除 ClickHouse 分区、OSS 对象、向量库 Partition,30 天内完成并回执。删除记录写进不可篡改的审计链(LedgerDB),方便监管抽查。
    第五步,可审计:所有操作通过企业 LDAP 账号+ MFA 登录,IAM 最小权限+Bucket Policy 限定欧盟工程师只能访问欧盟区存储;定期渗透测试+内部红队验证删除有效性。
    这样既能秒级定位线上问题,又能在法定时限内彻底删除,同时满足 GDPR 第十七条与中国《个保法》第四十七条。”

拓展思考

  1. 如果业务需要把用户输入用于持续微调,必须在首次弹窗时获得GDPR 第六条“合法利益”或第九条“明确同意”,并支持随时撤回;撤回后要把该用户数据从训练集隔离并重新训练,否则属于“二次使用”违规。
  2. 生成式输出也可能含版权或商业秘密,记录时要同步跑指纹算法(如 MinHash),与版权库比对,高风险输出自动拒绝并记审计日志,防止后续删除请求引发“已传播内容无法回收”的窘境。
  3. 多租户 SaaS 场景下,可采用**“日志即服务”独立集群,租户密钥自行持有(BYOK),平台方在删除请求时只需销毁租户根密钥**,即可实现**“看不见即删除”**,降低平台侧运维复杂度。