您会为每个AI产品立项设立一个'伦理影响评估表'吗?它应包含哪些条目?

解读

面试官想验证三件事:

  1. 你是否把伦理合规当成“前置条件”而非“事后补丁”;
  2. 你是否熟悉国内监管红线(算法备案、深度合成、数据跨境、个人信息保护等);
  3. 你能否把伦理抽象成可落地、可度量的产品动作,而不是喊口号。
    回答结构要先给“必建”立场,再用“场景分级”体现灵活性,最后给出一张国内可直接落地的条目清单,证明你既懂政策也懂工程。

知识点

  1. 国内强制合规框架:

    • 《互联网信息服务算法推荐管理规定》→ 算法备案、显著标识、关闭键;
    • 《深度合成规定》→ 安全评估、显著标识、日志留存;
    • 《个人信息保护法》第55条→ 自动化决策事前影响评估;
    • 《生成式AI管理办法》→ 训练数据合法、人工标注规范、内容过滤;
    • 国标GB/T 41867-2022《人工智能 伦理审查指南》→ 风险分级、生命周期管控。
  2. 伦理风险分级思路:

    • A级(高风险):涉及未成年人、生物识别、金融信贷、招聘、医疗、公权力;
    • B级(中风险):搜索排序、推荐、客服、营销;
    • C级(低风险):内部工具、非个性化OCR、语音转写。
      只有A级必须输出完整评估表并过法务+伦理委员会双审;B级可简化;C级留档即可。
  3. 产品经理的“可落地”原则:

    • 每条评估项必须对应一个可验证动作(埋点、标注规则、开关、日志、回退方案);
    • 用“是否影响业务指标”反向说服研发愿意配合;
    • 把伦理表写进PRD附录,与数据需求、模型指标并列,成为上线Checklist一项。

答案

我会为所有A级场景强制建立“伦理影响评估表”,B级场景用简化模板,C级场景仅做内部备案。评估表作为PRD附录,在需求评审前完成,未完成不得立项。
条目设计遵循“风险-措施-验证”三段式,共10条,全部可直接落地:

  1. 算法目的与正当性
    描述:用一句话说明“该模型替用户解决了什么真实痛点”,禁止出现“提升留存”这类模糊目的。
    验证:用户调研报告引用编号写入PRD。

  2. 训练数据来源合法性
    描述:列出所有数据获取方式(采购、开源、用户授权、爬虫),并给出三份以上法律意见书编号。
    验证:法务在Confluence勾选“已审”状态。

  3. 敏感个人信息去标识化比例
    描述:统计训练集中身份证、人脸、声纹、健康数据占比,要求≤0.1%或完成不可逆脱敏。
    验证:数据团队输出脱敏脚本+抽样审计报告。

  4. 偏见与公平性指标
    描述:定义“受保护属性”(性别、地域、年龄、民族),在验证集上统计不同子集F1差异,最大差距≤3%。
    验证:模型报告必须附带“公平性”Sheet,否则测试不通过。

  5. 可解释性与用户告知
    描述:向用户提供“为何推荐此结果”的30字以内说明,并在交互界面给出“更多”跳转。
    验证:上线前由UX走查,截图留档。

  6. 人工干预与关闭键
    描述:在显著位置提供“关闭个性化”“一键重置标签”按钮,响应时延≤200ms。
    验证:埋点上报“关闭”点击率,季度复盘低于1%需重新评估文案。

  7. 深度合成/生成内容标识
    描述:所有AI生成图片、视频、音频在左上角加浮层水印“AI生成”,同时在文件元数据写入同一标识。
    验证:上线前通过工信部“标识一致性”检测工具。

  8. 未成年人保护措施
    描述:14岁以下用户自动进入“青少年模式”,算法不调用个性化权重,仅推送白名单内容。
    验证:用虚拟账号测试,日志留存≥180天。

  9. 数据跨境传输评估
    描述:若模型推理需调用海外GPU,列出数据出境场景、加密方式、接收方名称,并通过省级网信办安全评估。
    验证:拿到备案编号后方可上线。

  10. 应急回滚与责任链
    描述:建立“24小时内模型下线+数据冻结”双通道(技术开关+法务函),并明确第一责任人姓名、手机、工位。
    验证:每季度做一次红蓝演练,演练报告由CTO与法务联合签字。

以上10条全部勾选完成,伦理评估表状态自动置为“通过”,方可进入上线评审。

拓展思考

  1. 如何把伦理表与OKR挂钩:
    将“公平性差距≤3%”写进算法团队O项,占绩效10%;产品经理O项为“伦理评估表一次性通过率≥95%”,用制度倒逼而不是靠个人自觉。

  2. 与供应链协同:
    若调用第三方模型,需在合同里增加“伦理合规连带责任”条款,并要求对方提供其评估表副本,避免“算法外包”变成“伦理外包”。

  3. 持续监控而非一次性审查:
    上线后每万条用户反馈中若“歧视/偏见”标签≥0.5%,自动触发伦理复评;复评不通过立即降级模型流量,形成“数据-伦理”闭环。

  4. 商业与伦理冲突时的决策框架:
    采用“收益-风险矩阵”量化:当预期营收<潜在罚款10%或<品牌损失估值5%时,直接砍掉需求;否则走“高层+法务+公关”三堂会审,留下书面决策记录,确保个人免责。