为什么在移动端优先使用设备端 AI（On-device AI）？ - 问题详情 - 创脉思

解读

面试官抛出此题，核心想验证三点：

对“端侧推理”与“云端推理”差异的理解深度；
能否结合国内网络环境、合规要求、硬件演进给出落地视角；
是否具备把技术收益翻译成产品收益的能力（时延、成本、留存、合规）。
回答时切忌只背“省流量、低时延”，而要分层拆解：用户体验、商业成本、政策红线、技术可行性、Android 生态配套。

知识点

时延确定性：国内 4G/5G 平均 RTT 80-200 ms，小区拥塞时抖动可达秒级；端侧推理把关键路径压缩到 5-30 ms，满足 16 ms 帧率预算。
弱网/离线可用：地铁、电梯、偏远地区、国际漫游场景下，云端请求失败率 5-15%，端侧 100% 可用，直接决定功能是否可上线。
隐私合规：个人信息保护法、数据跨境流动新规、工信部 164 号文要求“最小必要、本地优先”；人脸、声纹、健康数据若上传云端需单独授权且通过安全评估，端侧处理可免评估。
成本模型：国内云厂商 GPU 推理 0.8-1.2 元/千次，DAU 千万级产品月账单可达百万；端侧利用 Hexagon/NPU 免费算力，边际成本≈0。
功耗与续航：5G 射频 100-200 mA 持续发射，一次 200 ms 云端推理耗电 ≈ 端侧 20 次推理；Battery Historian 实测可差 3-5% 续航。
系统级加速：Android NNAPI 1.3+ 统一 HAL，高通 Hexagon、联发科 APU、麒麟 NPU 均提供 INT8/FP16 加速，TFLite GPU Delegate 在 Adreno 730 上可达 4 TOPS，已覆盖 90% 主流机型。
安全隔离：Keystore + TEE 可信执行环境支持模型解密与权重完整性校验，防止云端下发模型被中间人替换；SELinux 对 DSP 通道追加 MAC 保护。
热启动与保活：Android 13 后台限制进一步收紧，云端推理需保活网络长连接，端侧推理仅依赖前台 Service，系统杀进程概率下降 40%。
A/B 灰度与动态下发：TFLite Selective Build + Play Feature Delivery 可按机型 SoC 维度动态下发 200-800 KB 子图，云端兜底，实现“端侧优先、云端回退”混合策略。
折叠屏/车载新场景：折叠屏多窗口同时运行相机、翻译、识屏，多路云端并发 QPS 翻倍；车载隧道场景 30% 里程无网，端侧是刚需。

答案

“国内移动端优先用端侧 AI，是用户体验、合规、成本、功耗四方约束下的最优解。
第一，体验层：5G 空口抖动大，平均 RTT 百毫秒级，而端侧推理把关键路径压到 1-2 帧以内，保证相机美颜、扫码、手势追踪实时不掉帧。
第二，合规层：个保法要求人脸、声纹等敏感信息本地处理，若走云端需通过网信办安全评估，周期 3-6 个月；端侧方案可直接落地，节省合规成本。
第三，成本层：云 GPU 推理 1 元/千次，千万 DAU 产品月账单超百万；端侧复用手机 NPU，边际为零，且 5G 射频耗电是端侧计算的 3-5 倍，直接换续航。
第四，技术层：Android NNAPI 已标准化高通、MTK、麒麟 NPU 后端，TFLite 支持 INT8 量化、动态子图下发，90% 主流机型算力≥2 TOPS，满足 MobileNet、BERT-mini 实时需求；配合 TEE 做模型解密，兼顾安全与性能。
因此，我们采用‘端侧优先、云端兜底’的混合策略：离线模型覆盖 80% 高频场景，置信度低或新特性再走云端，既保证功能可用，又符合国内政策与商业现实。”

拓展思考

端侧模型如何与云端大模型协同？——可采用“端侧小模型做召回 + 云端大模型做精排”的级联框架，通过 Jetpack DataStore 记录用户反馈，再经 WorkManager 在 Wi-Fi 场景下增量蒸馏，实现端侧自我进化。
国内厂商 ROM 差异大，如何保障 NNAPI 驱动兼容？——需在 CI 阶段搭建 30+ 真机矩阵，使用 TFLite Benchmark Tool 跑 INT8/FP16 性能基线，差异>30% 的机型自动降级 CPU+OpenGL，同时通过 Firebase/自有后台收集 SIGSYS、SIGSEGV 崩溃，驱动黑名单动态热更新。
模型热更新与工信部 164 号文“重大功能变更需重新备案”如何平衡？——若仅做权重微调、不改变输入输出维度与业务场景，可视为“算法优化”而非“重大变更”；但需在隐私政策中声明“模型版本号”与更新机制，并通过 MD5/签名校验保证下发完整，避免监管认定“隐蔽升级”。