如何确保Agent不泄露未公开重大信息?

解读

在国内金融、政企、医疗等高敏场景,未公开重大信息(Material Non-Public Information,MNPI)一旦通过Agent泄露,将触发《证券法》第193条、《个人信息保护法》第66条甚至《刑法》第219条之刑事责任。面试官想验证三件事:

  1. 能否把“保密”拆解成数据、模型、系统、运营四阶防线;
  2. 能否把大模型不可控生成转化为可验证、可回滚、可追责的工程问题;
  3. 是否熟悉国内监管沙盒、等保2.0、国密算法、数据出境评估的合规落地细节。

知识点

  1. 数据分级与密级标识:参考《金融数据安全 数据安全分级指南》(JR/T 0197-2020),将MNPI定为4级(核心数据),在元数据层打国密SM4-GCM加密标签,做到“字段级血缘追踪”。
  2. 向量隔离与红蓝对抗:采用**“双库三域”架构——公共知识库、内部知识库、MNPI隔离库;通过强化学习红队持续生成“钓鱼提示词”,利用差分隐私奖励塑形**把泄露概率压到ε≤0.01。
  3. 输出过滤与可证明安全:部署国密SM3+HMAC零知识摘要网关,任何返回内容须通过Bloom过滤器+语义相似度<0.05的双重校验;对命中MNPI哈希桶的请求直接熔断+审计
  4. 合规留痕与司法取证:全链路国密SM2数字签名+可信时间戳,日志在区块链取证节点(符合《最高人民法院在线诉讼规则》)存证,确保单条日志不可篡改且可作为呈堂证供
  5. 持续监控与合规报告:7×24大模型行为基线监控,异常漂移>3σ触发等级保护2.0三级应急响应,30分钟内向属地网信办+行业主管双线报告。

答案

“我会把防泄露拆成五道工程化闸门
第一,数据入口闸:所有入库文本先经国密SM4加密+敏感实体识别(BERT-CRF+金融NER白名单),MNPI字段写入硬件加密机(HSM)隔离域,密钥托管在人行金融加密服务平台,做到“拿不到明文”。
第二,训练隔离闸:采用
联邦微调
方案,MNPI只在本地化可信执行环境(TEE-Intel SGX2)内参与LoRA权重更新,梯度上传前做(ε,δ)-差分隐私裁剪,ε≤1,δ≤10⁻⁵,确保模型参数不记忆明文。
第三,生成过滤闸:线上推理时,输出层加挂“国密摘要过滤器”,对每一个token序列实时计算SM3哈希,与MNPI指纹库比对,相似度阈值0.05即触发Session级熔断,并自动降级到公开知识子模型
第四,审计追责闸:全链路日志采用SM2签名+TSA时间戳,写入长安链司法存证节点,保留不少于二十年;一旦泄露,可在30分钟内完成精准用户-会话-模型版本的三级定位,满足《证券期货业数据安全管理指引》6.3.2 审计溯源要求。
第五,运营合规闸:每季度做一次证监会科技监管局备案红蓝对抗演练,邀请国家信息技术安全研究中心渗透测试;同时把差分隐私预算ε、熔断次数、误杀率纳入SLA指标,向属地人民银行科技处提交合规运行报告,实现监管可见、可控、可度量。”

拓展思考

  1. 大模型遗忘(Unlearning)在国内尚无标准,可提前布局“国密算法+强化反学习”方案,把MNPI样本从权重中可验证擦除,并出具第三方测评机构(如中国金融认证中心CFCA)遗忘有效性报告,作为未来监管检查的“免死金牌”。
  2. 多模态MNPI(如未公开的药品结构图、芯片版图)需引入CV加密域特征提取,用国密SM4-CBC对图像token做同态加密推理,防止视觉提示词注入绕过文本过滤器。
  3. 跨境业务需通过国家网信办数据出境安全评估,对Agent输出再做**“境内-境外双实例”部署,境外实例永远拿不到MNPI指纹库,确保《数据出境安全评估办法》第五条**“数据不可出境”刚性达标。