设备端 AI 的局限性有哪些？何时需要回退到云端服务？ - 问题详情 - 创脉思

解读

面试官想确认两点：

你是否真正在 Android 侧落地过大模型或端侧推理框架，对 NPU/APU/GPU/CPU 异构计算、内存、功耗、包体积、合规性有体感；
能否结合业务场景给出“端云协同”策略，而不是简单回答“模型大就上云”。
国内面试尤其关注隐私合规（工信部 164 号文、个人信息保护法）、弱网/离线可用性、厂商碎片化、以及 5G 流量成本，回答必须把这些痛点揉进去。

知识点

端侧推理瓶颈：算力（TOPS 理论值 vs 持续峰值）、内存带宽、电池容量、发热降频、32 位 ABI 兼容。
模型尺寸：APK 通道 200 MB（Google Play）、国内渠道 500 MB 红线、用户冷启动流量敏感；动态下发需走 MSA 统一推送或厂商 PMS，受 72 MB 单包限制。
精度与泛化：量化 INT8/INT4 后 mAP 下降 2–5 个点，小模型对长尾类别召回低；中文 OCR 生僻字、方言 ASR 需要 500 M 参数以上。
更新频率：A/B 实验一周三迭代，端侧 OTA 要走灰度、厂商审核，周期 ≥7 天；云端可分钟级热更。
合规与隐私：人脸、声纹、医疗影像属于敏感生物特征，本地处理需通过 TEE（Trusty/TEE OS）+ 国密算法，否则必须走“可审计、可删除”云端。
国内网络：5G 下行 300 Mbps 理论值，写字楼/地铁弱网 2–5 Mbps，RTT 200 ms；若首包推理结果 >150 ms 用户体感卡顿，需端侧兜底。
成本模型：高通 8 Gen2 NPU 每 1 TOPS ≈ 0.35 mJ，云端 A10 GPU 一次 100 ms 推理 0.3 分人民币，DAU 千万级时云端日烧 30 万；需要算经济账。

答案

“端侧 AI 的核心局限可以概括为‘三小一高’：算力小、内存小、电池小、合规风险高。
第一，算力小。旗舰 SoC 理论 8 TOPS，但持续跑 3 分钟即降频到 40%，大模型 100 M 参数 INT8 推理一次就要 120 ms，帧率直接掉到 8 fps，无法用在 16 ms 视频实时美颜。
第二，内存小。Android 应用 Java 堆上限 512 MB（64 位），模型加载后常驻 200 MB，极易触发 lmK；GPU 纹理内存还要额外 100 MB，导致后台音乐被杀。
第三，电池小。NPU 全速 2 W，5000 mAh 电池连续推理 2 小时掉电 50%，用户投诉“发烫门”。
第四，合规风险高。人脸比对阈值超过 0.6 即视为生物识别，按《个人信息保护法》第 26 条需获得“单独同意”，若本地无通过国密认证的 TEE，必须回退云端并走加密通道+可审计日志。

因此，我们制定‘端云三级回退’策略：
L0 端侧：量化 ≤50 M 参数、推理 ≤30 ms、功耗 ≤100 mW 的任务（人脸检测、简单 OCR、关键词唤醒）全部放端侧，离线可跑。
L1 端云协同：把 encoder 放端侧，输出 256 维特征向量，TLS1.3 上云做 decoder，延迟 80 ms 内完成；即解决模型体积，又避免原始图片上传。
L2 纯云端：遇到长尾问题（生僻字、多语言混合 ASR）、需要天级热更的 A/B 实验、或敏感生物特征无 TEE 时，直接走云端，同时弹窗“单独同意”，并用差分隐私添加噪声，保证合规。

上线三个月，我们把端侧覆盖率做到 78%，云端成本下降 42%，用户负反馈从 0.37% 降到 0.09%。”

拓展思考

端云协同的“弹性拆分”还能再细：把 attention 层按 token 动态卸载到云端，本地只保留 KV-Cache，实现“无限上下文”而不爆内存。
国内厂商（华为、OPPO、vivo）已开放 NPU SDK，但 HAL 层接口不统一，可封装 NNAPI Delegate + 自研 runtime，做“一次编译，多端运行”，降低碎片化维护成本。
工信部正在制定《终端 AI 计算隐私保护要求》，预计 2025 年强制执行，需提前把“本地敏感特征不出 TEE”写进 PRD，避免后期返工。