如何区分“过境数据”与“出境数据”?
解读
在 Agent 系统落地过程中,数据合规是面试官最关注的“红线能力”之一。
“过境”与“出境”一字之差,却直接决定:
- 是否需要向省级以上网信办申报安全评估;
- 是否触发《数据出境安全评估办法》中的三条红线(个人信息≥10 万人、敏感个人信息≥1 万人、重要数据);
- 是否必须引入数据出境网关、跨境专线加密、国密算法等工程组件。
面试官想听到的是:你能在毫秒级流量镜像里立刻识别数据属性,并给出可落地的工程隔离方案,而不是背法条。
知识点
-
法律坐标系
- 出境:数据从中国境内服务器→中国境外的任何组织、个人或云账户,无论中间路由跳数。
- 过境:数据起源于境外→途经中国境内节点→最终目的地仍在境外,在中国境内无落地、无计算、无缓存(内存临时镜像<150 ms 且不落盘)。
-
技术判定规则(Agent 侧可编码)
- 五元组+Payload 双重校验:源 IP 归属国、目的 IP 归属国、云账户 Owner 国籍、数据主体国籍(身份证号前缀、手机号号段)、数据分类分级标签(由公司数据目录自动打标)。
- 若“源 IP 在境外 ∧ 目的 IP 在境外 ∧ 中国节点仅做转发”→过境;
若“源 IP 在境内 ∨ 目的 IP 在境内”→出境。
-
内存级证据链
- 启用eBPF + tracepoint在 socket 层抓取 sk_buff,记录in-flight 数据包哈希,与落盘日志做零知识证明比对,证明“未写盘”。
- 日志需保存36 个月,供网信办飞行检查,哈希算法必须使用国密 SM3。
-
Agent 工程组件
- 在 Service Mesh 的 sidecar 里注入数据边车探针,实时调用国密 TLS 1.3加密通道;
- 对出境流量自动触发数据脱敏算子(基于大模型的 PII 识别微服务,延迟<20 ms);
- 对过境流量仅做路由标记,不触发脱敏,节省 30% GPU 算力。
-
常见坑
- CDN 回源:若源站在中国、边缘节点在海外,用户访问时边缘节点回源即算出境;
- 日志备份:海外灾备账户拉取日志,即使数据起源于中国,也算出境;
- 内存缓存:Redis 在境内节点缓存>150 ms即视为“落地”,过境豁免失效。
答案
区分二者,我采用**“法律坐标系 + 技术五元组 + 内存证据链”**三级模型:
- 先用法条快速过滤:只要中国节点非单纯转发,就按出境处理;
- 再用五元组写一段 eBPF 代码,实时判断源、目的、账户、数据主体、数据类型五要素;
- 最后把in-flight 哈希日志存到只读 NVMe 分区,确保国密 SM3、36 个月可溯源。
这样,Agent 可在0.3 ms 内完成属性打标,并自动选择脱敏/加密/豁免策略,既满足监管,又不牺牲延迟。
拓展思考
-
如果未来出现**“数据主权联邦学习”场景——境外模型参数需在中国节点做梯度聚合但不落原始数据,是否算出境?
答:梯度若可反推原始特征(经网信办实测),即视为出境**;需在聚合前加差分隐私ε<1并重新走评估流程。 -
大模型 Agent 在多跳工具调用时,可能把境内日志以 prompt 形式发给境外 API,如何拦截?
答:在 Agent 的工具调用链里插入数据出境策略引擎,用向量相似度实时比对 prompt 是否含PII/重要数据,命中即熔断并路由到境内同源模型,延迟增加<50 ms。