如何确保Agent不泄露未公开重大信息？ - 问题详情 - 创脉思

解读

在国内金融、政企、医疗等高敏场景，未公开重大信息（Material Non-Public Information，MNPI）一旦通过Agent泄露，将触发《证券法》第193条、《个人信息保护法》第66条甚至《刑法》第219条之刑事责任。面试官想验证三件事：

能否把“保密”拆解成数据、模型、系统、运营四阶防线；
能否把大模型不可控生成转化为可验证、可回滚、可追责的工程问题；
是否熟悉国内监管沙盒、等保2.0、国密算法、数据出境评估的合规落地细节。

知识点

数据分级与密级标识：参考《金融数据安全数据安全分级指南》（JR/T 0197-2020），将MNPI定为4级（核心数据），在元数据层打国密SM4-GCM加密标签，做到“字段级血缘追踪”。
向量隔离与红蓝对抗：采用**“双库三域”架构——公共知识库、内部知识库、MNPI隔离库；通过强化学习红队持续生成“钓鱼提示词”，利用差分隐私奖励塑形**把泄露概率压到ε≤0.01。
输出过滤与可证明安全：部署国密SM3+HMAC的零知识摘要网关，任何返回内容须通过Bloom过滤器+语义相似度<0.05的双重校验；对命中MNPI哈希桶的请求直接熔断+审计。
合规留痕与司法取证：全链路国密SM2数字签名+可信时间戳，日志在区块链取证节点（符合《最高人民法院在线诉讼规则》）存证，确保单条日志不可篡改且可作为呈堂证供。
持续监控与合规报告：7×24大模型行为基线监控，异常漂移>3σ触发等级保护2.0三级应急响应，30分钟内向属地网信办+行业主管双线报告。

答案

“我会把防泄露拆成五道工程化闸门：
第一，数据入口闸：所有入库文本先经国密SM4加密+敏感实体识别（BERT-CRF+金融NER白名单），MNPI字段写入硬件加密机（HSM）隔离域，密钥托管在人行金融加密服务平台，做到“拿不到明文”。
第二，训练隔离闸：采用联邦微调方案，MNPI只在本地化可信执行环境（TEE-Intel SGX2）内参与LoRA权重更新，梯度上传前做(ε,δ)-差分隐私裁剪，ε≤1，δ≤10⁻⁵，确保模型参数不记忆明文。
第三，生成过滤闸：线上推理时，输出层加挂“国密摘要过滤器”，对每一个token序列实时计算SM3哈希，与MNPI指纹库比对，相似度阈值0.05即触发Session级熔断，并自动降级到公开知识子模型。
第四，审计追责闸：全链路日志采用SM2签名+TSA时间戳，写入长安链司法存证节点，保留不少于二十年；一旦泄露，可在30分钟内完成精准用户-会话-模型版本的三级定位，满足《证券期货业数据安全管理指引》6.3.2 审计溯源要求。
第五，运营合规闸：每季度做一次证监会科技监管局备案的红蓝对抗演练，邀请国家信息技术安全研究中心做渗透测试；同时把差分隐私预算ε、熔断次数、误杀率纳入SLA指标，向属地人民银行科技处提交合规运行报告，实现监管可见、可控、可度量。”

拓展思考

大模型遗忘（Unlearning）在国内尚无标准，可提前布局“国密算法+强化反学习”方案，把MNPI样本从权重中可验证擦除，并出具第三方测评机构（如中国金融认证中心CFCA）的遗忘有效性报告，作为未来监管检查的“免死金牌”。
多模态MNPI（如未公开的药品结构图、芯片版图）需引入CV加密域特征提取，用国密SM4-CBC对图像token做同态加密推理，防止视觉提示词注入绕过文本过滤器。
跨境业务需通过国家网信办数据出境安全评估，对Agent输出再做**“境内-境外双实例”部署，境外实例永远拿不到MNPI指纹库，确保《数据出境安全评估办法》第五条**“数据不可出境”刚性达标。