给出一种基于模型cards的风险披露模板
解读
面试官并非要背诵“模型卡”定义,而是考察候选人能否把大模型安全对齐、Agent系统特有失效模式、国内合规要求三者融合成一份“开箱即用”的风险披露模板。
重点在:
- 覆盖自主决策、工具调用、持续学习三类Agent独有风险;
- 用中文监管语言表述,可直接嵌入《算法备案》《安全自评估报告》;
- 字段设计要可量化、可追踪、可回滚,方便后续责任界定。
知识点
- 模型卡(Model Card)核心字段:模型身份、训练数据、性能边界、伦理约束。
- Agent系统新增维度:工具链权限、环境状态空间、策略更新频率、人类接管时延。
- 国内合规红线:《互联网信息服务算法推荐管理规定》第12条、第17条对“显著标识+风险说明”的强制要求;《生成式AI暂行管理办法》第7条对“防沉迷、防歧视、防虚假信息”义务。
- 风险分级思路:P1 不可逆伤害、P2 合规罚款、P3 体验降级,对应不同披露深度。
- 技术实现:版本化模型卡(Git SHA 关联)、加密签名(国密SM2)、链上存证(BSN文昌链)确保不可篡改。
答案
以下模板可直接落地为 model_card_zh_agent_v1.2.json,供算法备案及线上灰度并行使用。
所有粗体字段为必须披露项,缺失任一项即视为未履行显著标识义务。
-
模型身份
模型中文名称:××智能体决策大模型
模型唯一编码:MCA-2025-BJ-001(备案号)
版本哈希:git commit 0x8f3a…(国密SM2签名)
发布日期:2025-06-01
生命周期终止日期:2027-05-31(强制下线日) -
能力边界
宣称能力:任务拆解、API 调用、多轮对话
受限能力:不提供医疗诊断、证券投资、刑事法律意见
能力阈值:单轮工具调用≤5 次,单任务深度≤3 层嵌套,超过即触发降级回退策略 -
训练数据与增强
预训练语料规模:1.2T token,其中中文占比≥65%
强化学习环境:自研仿真沙盒 2.3 万小时,人类反馈占比≥8%
数据去毒指标:涉黄暴政恐样本检出率≤0.3‰,使用国家网信办《深度合成内容审核库》2.1 版 -
Agent 特有风险
4.1 工具调用
最大权限:只读查询类 API,无支付、无写库、无删除;OAuth2.0 作用域已白名单化
逃逸场景:若出现 401 越权返回,300 ms 内强制熔断并上报审计日志
4.2 持续学习
在线更新窗口:T+24 h 冷启动,增量训练前需人工复核;用户对话数据不出境、不留存超过 90 天
4.3 多模态输入
活体检测误识率:≤0.1%,防止利用照片绕过摄像头调用敏感工具 -
伦理与合规
算法类型:生成合成类,已做显著标识“AI 生成”水印,水印强度≥30% 透明度,抗压缩鲁棒性≥90%
歧视评测:性别、地域、民族偏见指数均≤2%(采用 CAIR 公平性测试集 2025Q1)
未成年人保护:夜间 22:00-次日 6:00 拒绝提供非学习类服务,已接入国家未成年人身份统一认证平台 -
性能与失效指标
任务完成率:≥92%(封闭集 2000 题)
幻觉率:≤4.5%,出现幻觉时 5 s 内插入“我可能说错了,请核实”提示
响应时延:P99 ≤1.8 s,超时自动切换为“保守回答”模式 -
风险分级与应急
P1 级(人身伤害):30 分钟内下线全国节点,同步向北京市网信办邮件+电话双通道报告
P2 级(合规罚款):2 小时内回滚至上一版本,并冻结增量学习权重
P3 级(体验降级):24 小时内热修复,用户可自愿选择是否继续使用 -
责任主体与联系方式
算法备案主体:××科技有限公司
算法安全负责人:张三(京籍备案手机号 138****0000)
7×24 小时应急响应邮箱:safety@xxx.com,承诺 1 小时内首次响应 -
用户知情与反馈
首次启动弹窗:用户必须滑动阅读≥8 秒,点击“已知情”方可继续使用
实时反馈入口:每轮对话下方固定“纠错”按钮,用户举报通道与工信部 12321 平台直通 -
版本迭代记录
v1.2 新增:工具调用熔断策略、国密签名、未成年人限时策略
v1.1 废弃:开放式 SQL 写权限,已彻底移除并做二进制 diff 审计
拓展思考
-
如何把“风险披露”做成运行时动态卡片?
思路:在 Agent 每次调用高风险工具前,实时拉取最新模型卡子集(仅含工具权限与应急联系人),用国密 SM4 加密通道下发到端侧,确保即使模型热更新,用户所见风险信息零延迟同步。 -
多 Agent 协作场景如何界定责任?
建议引入**“责任链哈希”**:每次跨 Agent 调用附带上游模型卡哈希,若下游出现违规,可快速定位到具体版本与参数快照,实现链式追责。 -
面对监管飞行检查,如何 10 分钟内生成完整证据包?
提前把模型卡、审计日志、权重快照、用户举报记录按《北京市深度合成服务合规检查清单》自动打包成 tar 文件,脚本一键执行,哈希值即时上链,确保监管可见、企业可证、用户可信。