如何区分“过境数据”与“出境数据”？ - 问题详情 - 创脉思

解读

在 Agent 系统落地过程中，数据合规是面试官最关注的“红线能力”之一。
“过境”与“出境”一字之差，却直接决定：

是否需要向省级以上网信办申报安全评估；
是否触发《数据出境安全评估办法》中的三条红线（个人信息≥10 万人、敏感个人信息≥1 万人、重要数据）；
是否必须引入数据出境网关、跨境专线加密、国密算法等工程组件。
面试官想听到的是：你能在毫秒级流量镜像里立刻识别数据属性，并给出可落地的工程隔离方案，而不是背法条。

知识点

法律坐标系
- 出境：数据从中国境内服务器→中国境外的任何组织、个人或云账户，无论中间路由跳数。
- 过境：数据起源于境外→途经中国境内节点→最终目的地仍在境外，在中国境内无落地、无计算、无缓存（内存临时镜像<150 ms 且不落盘）。
技术判定规则（Agent 侧可编码）
- 五元组+Payload 双重校验：源 IP 归属国、目的 IP 归属国、云账户 Owner 国籍、数据主体国籍（身份证号前缀、手机号号段）、数据分类分级标签（由公司数据目录自动打标）。
- 若“源 IP 在境外 ∧ 目的 IP 在境外 ∧ 中国节点仅做转发”→过境；
  若“源 IP 在境内 ∨ 目的 IP 在境内”→出境。
内存级证据链
- 启用eBPF + tracepoint在 socket 层抓取 sk_buff，记录in-flight 数据包哈希，与落盘日志做零知识证明比对，证明“未写盘”。
- 日志需保存36 个月，供网信办飞行检查，哈希算法必须使用国密 SM3。
Agent 工程组件
- 在 Service Mesh 的 sidecar 里注入数据边车探针，实时调用国密 TLS 1.3加密通道；
- 对出境流量自动触发数据脱敏算子（基于大模型的 PII 识别微服务，延迟<20 ms）；
- 对过境流量仅做路由标记，不触发脱敏，节省 30% GPU 算力。
常见坑
- CDN 回源：若源站在中国、边缘节点在海外，用户访问时边缘节点回源即算出境；
- 日志备份：海外灾备账户拉取日志，即使数据起源于中国，也算出境；
- 内存缓存：Redis 在境内节点缓存>150 ms即视为“落地”，过境豁免失效。

答案

区分二者，我采用**“法律坐标系 + 技术五元组 + 内存证据链”**三级模型：

先用法条快速过滤：只要中国节点非单纯转发，就按出境处理；
再用五元组写一段 eBPF 代码，实时判断源、目的、账户、数据主体、数据类型五要素；
最后把in-flight 哈希日志存到只读 NVMe 分区，确保国密 SM3、36 个月可溯源。
这样，Agent 可在0.3 ms 内完成属性打标，并自动选择脱敏/加密/豁免策略，既满足监管，又不牺牲延迟。

拓展思考

如果未来出现**“数据主权联邦学习”场景——境外模型参数需在中国节点做梯度聚合但不落原始数据，是否算出境？
答：梯度若可反推原始特征（经网信办实测），即视为出境**；需在聚合前加差分隐私ε<1并重新走评估流程。
大模型 Agent 在多跳工具调用时，可能把境内日志以 prompt 形式发给境外 API，如何拦截？
答：在 Agent 的工具调用链里插入数据出境策略引擎，用向量相似度实时比对 prompt 是否含PII/重要数据，命中即熔断并路由到境内同源模型，延迟增加<50 ms。