在使用用户数据训练模型时,如何遵守 GDPR 和中国《个人信息保护法》?

解读

面试官问的不是“背法条”,而是考察候选人能否把“合规”落地到 Android 工程闭环:从数据采集、端侧处理、云端训练、模型更新到用户行权,每一步都要给出技术方案,并证明方案在中国监管和欧盟 GDPR 双重语境下跑得通。回答时要体现“最小必要”“可审计”“可撤销”“可解释”四大原则,同时兼顾国内备案、数据出境评估、三方 SDK 合规等现实痛点。

知识点

  1. 合法性基础对照表:GDPR 6 大合法事由 vs 个保法 13 条合法性
  2. 敏感个人信息:生物识别、行踪轨迹、未成年人数据,需“单独同意+加密+明示”
  3. 端侧隐私技术:联邦学习(FL)、差分隐私(DP)、本地差分隐私(LDP)、安全多方计算(MPC)、TEE 可信执行环境、Android 12 后提供的 Privacy Compute Core
  4. 数据出境三条路径:安全评估、认证、标准合同;国内存储必须做数据分类分级与加密(国密 SM4/SM2)
  5. 用户权利工程化:同意弹窗(Granular Consent)、系统级“撤销授权”广播、WorkManager 触发本地遗忘、云端数据可擦除接口(Right to be Forgotten)
  6. 模型可解释与影响评估:算法备案(网信办 2022 深度合成规定)、AI 安全评估报告、日志留痕 3 年
  7. 构建-训练-分发闭环:Gradle 插件做静态扫描(检测硬编码隐私字段)、MLOps 流水线集成合规检查、AAB 上架前隐私声明自动对比 SDK 实际调用、OTA 模型补丁走 Google Play 或国内托管平台必须重新走签名与合规审核

答案

在 Android 侧落地“训练合规”分五步:

  1. 采集阶段
    a. 采用“隐私优先”架构:只采集业务最小颗粒度,高敏数据(人脸、语音)全部在 TEE 或 ARM TrustZone 内完成特征提取,原始图像立即丢弃。
    b. 弹窗使用 Google 推荐的 Granular Consent API,支持分场景开关;未成年人模式调用 Android 13 的 UserManager#isUserUnlocked() 做年龄门控。
    c. 国内渠道额外弹出“双清单”(个人信息收集清单、第三方共享清单)并记录用户点击事件到本地加密数据库,key 存在 Android Keystore,AES_GCM 加密,防篡改。

  2. 端侧预处理
    a. 敏感特征走本地差分隐私:在 Jetpack WorkManager 任务里注入 DP-SGD 噪声,ε 值按 GDPR 建议 ≤1,国内备案报告里给出计算过程。
    b. 使用 Android 联邦学习框架(TensorFlow Federated Lite + Privacy Compute Core):每轮梯度上传前做 Secure Aggregation,服务器只能拿到聚合结果,无法反推个体。
    c. 记录处理日志到加密沙箱,日志包含设备伪 ID(FIDO2 生成的可重置 UUID),不含 IMEI、MAC 地址,满足《个保法》匿名化要求。

  3. 云端训练与存储
    a. 数据出境场景:若服务器在欧盟,先通过网信办安全评估,再走标准合同备案;若服务器在境内,物理隔离并启用国密算法全链路加密(TLS_SM4_GCM)。
    b. 建立数据分级策略:P1 敏感特征只存于加密对象存储,KMS 密钥轮转周期 90 天;P3 聚合梯度存于冷存,自动删除周期 180 天。
    c. 训练流水线集成“合规闸门”:每次触发前校验数据主体是否已撤回授权,撤回列表以 Bloom Filter 方式同步到训练节点,实时过滤。

  4. 模型更新与回滚
    a. 差分更新包通过 Google Play App Bundle 或国内托管平台下发,模型权重文件额外再做一次 zipalign + 签名验证,防止中间人植入后门。
    b. 在 Android 端使用 TEE Key Attestation 校验模型签名,若校验失败立即回滚到上一版本并上报安全事件。
    c. 记录模型版本、训练数据源哈希、DP 参数、影响评估报告,随 APK 一起提交应用商店备案,满足 GDPR 30 日内提供影响评估(DPIA)要求。

  5. 用户行权与审计
    a. 提供“一键撤销”入口,触发 WorkManager 任务:本地删除特征缓存、调用服务器 Forget API 擦除训练样本、回滚模型贡献度。
    b. 支持导出用户个人数据(JSON+加密压缩),30 天内响应,导出接口加 OAuth2 + PKCE,防止滥用。
    c. 内部审计:使用 Android 11 的 AppOpsManager 记录每一次读取 SENSOR_TYPE_AMBIENT_TEMPERATURE、CAMERA、MICROPHONE 的行为,日志上传到公司 SIEM,留存 3 年,供监管飞行检查。

通过以上五步,可在工程层面同时满足 GDPR“可审计、可撤销、最小化”以及《个保法》“告知同意、敏感单独同意、数据出境评估、算法备案”要求,实现端到端合规闭环。

拓展思考

  1. 折叠屏/车载多设备场景:同一用户可能在手机、车机、TV 三端产生数据,如何跨设备联邦?可引入 Android 13 的 Cross-device SDK,用 D2D 加密通道做梯度聚合,避免数据出境。
  2. 生成式大模型:若使用用户输入提示词做微调,需额外遵守《深度合成规定》,在端侧加水印(Compose 的 Canvas 层插入不可见哈希),并在应用简介声明“AI 生成”字样。
  3. 合规自动化测试:可编写 Espresso + UIAutomator 脚本,自动遍历所有同意弹窗,抓取日志验证是否调用 PrivacyComputeCore,集成到 CI 门禁,每次 MR 拒绝引入新的高风险 SDK。