当AI系统在对话中意外泄露了用户的身份证号或银行卡号时,您会如何紧急处理?
解读
面试官想验证三件事:
- 合规红线意识:是否第一时间把“停止侵害”置于“排查技术”之上;
- 跨部门协同能力:能否在分钟级拉通安全、法务、客服、公关、研发、数据与监管接口人;
- 数据-模型闭环思维:止血之后如何定位数据泄露根因、快速补洞并沉淀可复用的风控模块。
回答必须体现“先合规、再技术、后复盘”的中国监管语境,同时给出可落地的SOP与量化指标。
知识点
- 《个人信息保护法》第57条:发生或可能发生泄露时,平台应立即补救并通知履行个人信息保护职责的部门及个体。
- 《数据安全法》第29条:建立数据安全事件应急预案,分级分类响应。
- 央行《个人金融信息保护技术规范》(JR/T 0171-2020):银行卡号、身份证号均属C3 类敏感信息,泄露即属重大事件。
- 算法备案与生成式AI监管:生成内容出现敏感信息需在5 个工作日内向属地网信办报告。
- 数据-模型闭环:召回率、误报率、PII(个人敏感信息)命中率、RLHF 奖励模型修正。
- 事故分级:P0(已外泄且可定位到个人)、P1(已外泄但去标识化)、P2(仅内部日志可见)。
- 黄金 15 分钟原则:业务先降级,模型先熔断,法务先上报。
答案
我将按“15-30-60-24” 紧急时间窗推进,并同步启动三级响应:
-
0-15 分钟:止血
a. 触发 P0 熔断:通过配置中心一键关闭该模型所有对外服务,保留影子模式写日志;
b. 通知 SOC(安全运营中心)与法务,同步至公司数据安全委员会微信群,10 分钟内完成口头报备;
c. 客服脚本:对同一 session 用户主动弹窗告知“系统正在升级,请勿继续输入敏感信息”,降低次生泄露。 -
15-30 分钟:定位与封存
a. 拉通数据、算法、SRE 成立“战时小组”,用 traceId 定位泄露样本来源:
– 若来自训练语料,立即把含该身份证号/银行卡号的 shard 从在线特征库剔除,并计算影响面;
– 若来自用户本轮输入的上下文记忆,检查是否因长上下文窗口被强制召回;
b. 封存原始日志与模型快照,写入只读 COS 桶,供后续司法鉴定。 -
30-60 分钟:合规上报
a. 法务按《个保法》57 条拟正式报告,30 分钟内提交至属地网信办与人民银行分支机构;
b. 若涉及 5 万条以上或特别敏感信息,同步准备材料向省级以上监管部门做 24 小时内书面报告;
c. 对内发布“红线通报”,禁止员工在社交媒体讨论细节。 -
1-24 小时:修复与验证
a. 技术修复:
– 数据层:用正则+NER+校验位算法(Luhn)重新扫描全量语料,建立 C3 类敏感信息黑名单;
– 模型层:在奖励模型里加入“泄露 PII 即负分”样本 5k 条,启动 RLHF 热更新;
– 输出层:部署基于 DLP 的二次过滤网关,对生成内容实时脱敏,误杀率目标 <0.5%。
b. 业务验证:灰度 5% 流量,跑 6 小时,监控 PII 命中率为 0 方可全量。 -
24 小时后:复盘与沉淀
a. 产出 5W2H 事故报告,量化指标:泄露条数、影响用户数、召回时长、熔断时长、误杀率;
b. 把“敏感信息泄露”纳入月度 OKR 风险池,KR1:PII 召回率≥99.99%,KR2:应急演练覆盖率 100%;
c. 将 DLP 网关与熔断开关做成可插拔组件,沉淀到 AI 中台,供兄弟业务线复用,降低后续合规边际成本。
通过以上步骤,既满足监管“立即采取补救措施并报告”的刚性要求,也用最短时间恢复业务,同时把单点事故转化为平台级风控能力。
拓展思考
-
如何设计“可验证的脱敏”而非简单掩码?
可引入同态加密或令牌化(Tokenization)技术,使模型在训练与推理阶段只接触令牌,业务侧需要真实数据时再经 HSM 解密,实现“模型可用不可见”。 -
若泄露源自第三方插件调用,责任如何切割?
产品需在合作协议中明确“数据处理器”与“数据控制者”角色,发生泄露时由插件方 2 小时内提供溯源日志,否则触发高额违约金与先赔机制,降低平台连带责任。 -
怎样把“隐私合规”做成差异化竞争力?
将应急演练与 ISO 27701 认证结果产品化,前端展示“隐私守护分”动态评级,让用户实时感知脱敏水位,既提升品牌信任,又反向驱动技术持续投入。