设备端 AI 的局限性有哪些?何时需要回退到云端服务?

解读

面试官想确认两点:

  1. 你是否真正在 Android 侧落地过大模型或端侧推理框架,对 NPU/APU/GPU/CPU 异构计算、内存、功耗、包体积、合规性有体感;
  2. 能否结合业务场景给出“端云协同”策略,而不是简单回答“模型大就上云”。
    国内面试尤其关注隐私合规(工信部 164 号文、个人信息保护法)、弱网/离线可用性、厂商碎片化、以及 5G 流量成本,回答必须把这些痛点揉进去。

知识点

  1. 端侧推理瓶颈:算力(TOPS 理论值 vs 持续峰值)、内存带宽、电池容量、发热降频、32 位 ABI 兼容。
  2. 模型尺寸:APK 通道 200 MB(Google Play)、国内渠道 500 MB 红线、用户冷启动流量敏感;动态下发需走 MSA 统一推送或厂商 PMS,受 72 MB 单包限制。
  3. 精度与泛化:量化 INT8/INT4 后 mAP 下降 2–5 个点,小模型对长尾类别召回低;中文 OCR 生僻字、方言 ASR 需要 500 M 参数以上。
  4. 更新频率:A/B 实验一周三迭代,端侧 OTA 要走灰度、厂商审核,周期 ≥7 天;云端可分钟级热更。
  5. 合规与隐私:人脸、声纹、医疗影像属于敏感生物特征,本地处理需通过 TEE(Trusty/TEE OS)+ 国密算法,否则必须走“可审计、可删除”云端。
  6. 国内网络:5G 下行 300 Mbps 理论值,写字楼/地铁弱网 2–5 Mbps,RTT 200 ms;若首包推理结果 >150 ms 用户体感卡顿,需端侧兜底。
  7. 成本模型:高通 8 Gen2 NPU 每 1 TOPS ≈ 0.35 mJ,云端 A10 GPU 一次 100 ms 推理 0.3 分人民币,DAU 千万级时云端日烧 30 万;需要算经济账。

答案

“端侧 AI 的核心局限可以概括为‘三小一高’:算力小、内存小、电池小、合规风险高。
第一,算力小。旗舰 SoC 理论 8 TOPS,但持续跑 3 分钟即降频到 40%,大模型 100 M 参数 INT8 推理一次就要 120 ms,帧率直接掉到 8 fps,无法用在 16 ms 视频实时美颜。
第二,内存小。Android 应用 Java 堆上限 512 MB(64 位),模型加载后常驻 200 MB,极易触发 lmK;GPU 纹理内存还要额外 100 MB,导致后台音乐被杀。
第三,电池小。NPU 全速 2 W,5000 mAh 电池连续推理 2 小时掉电 50%,用户投诉“发烫门”。
第四,合规风险高。人脸比对阈值超过 0.6 即视为生物识别,按《个人信息保护法》第 26 条需获得“单独同意”,若本地无通过国密认证的 TEE,必须回退云端并走加密通道+可审计日志。

因此,我们制定‘端云三级回退’策略:
L0 端侧:量化 ≤50 M 参数、推理 ≤30 ms、功耗 ≤100 mW 的任务(人脸检测、简单 OCR、关键词唤醒)全部放端侧,离线可跑。
L1 端云协同:把 encoder 放端侧,输出 256 维特征向量,TLS1.3 上云做 decoder,延迟 80 ms 内完成;即解决模型体积,又避免原始图片上传。
L2 纯云端:遇到长尾问题(生僻字、多语言混合 ASR)、需要天级热更的 A/B 实验、或敏感生物特征无 TEE 时,直接走云端,同时弹窗“单独同意”,并用差分隐私添加噪声,保证合规。

上线三个月,我们把端侧覆盖率做到 78%,云端成本下降 42%,用户负反馈从 0.37% 降到 0.09%。”

拓展思考

  1. 端云协同的“弹性拆分”还能再细:把 attention 层按 token 动态卸载到云端,本地只保留 KV-Cache,实现“无限上下文”而不爆内存。
  2. 国内厂商(华为、OPPO、vivo)已开放 NPU SDK,但 HAL 层接口不统一,可封装 NNAPI Delegate + 自研 runtime,做“一次编译,多端运行”,降低碎片化维护成本。
  3. 工信部正在制定《终端 AI 计算隐私保护要求》,预计 2025 年强制执行,需提前把“本地敏感特征不出 TEE”写进 PRD,避免后期返工。