为什么AI产品的开发不能遵循'需求-设计-编码-测试'的线性瀑布模型?
解读
面试官想验证三件事:
- 你是否理解AI项目“不确定性高、数据驱动、迭代闭环”的本质;
- 你是否能把“算法指标≠功能完成”这一认知讲透;
- 你是否能用国内真实案例说明瀑布模型在AI场景下带来的“延期、超支、合规风险”三大坑。
回答时要先否定瀑布的“一次性正确”假设,再给出AI特有的“数据-模型-产品”三循环,最后落到国内落地痛点(数据合规、算力成本、标注人力)。
知识点
- 数据不确定性:中文语料分布漂移、标注主观差异导致需求无法一次性冻结。
- 算法可解释性监管:网信办《算法推荐管理规定》要求上线前完成“双评估”,瀑布模型无法前置预留评估迭代窗口。
- 指标耦合:模型AUC提升≠用户留存提升,需在线A/B多轮验证,瀑布的“测试阶段”无法覆盖。
- 算力成本弹性:国内GPU资源按卡/小时计费,瀑布一次性大批量训练极易造成预算爆炸。
- 数据闭环合规:个人信息保护法要求“最小可用+动态删除”,瀑布在需求阶段锁定的数据集合可能在上线前已需重新脱敏。
答案
AI产品不能走线性瀑布,核心原因是“需求、数据、模型”三者相互制约,无法在项目启动时一次性确定。
第一,需求本身模糊。以智能客服为例,业务方最初只提“降低人工坐席30%”,但模型上线后发现用户口语化表达、方言、 emoji 导致意图识别准确率仅72%,远低于可用门槛,必须回炉重新标注2万条语料。瀑布模型把“需求”锁在第一阶段,后续变更需整体返工,造成至少4周延期。
第二,数据决定天花板。中文医疗NER任务中,公开CMeEE数据集仅3.5万实体,覆盖疾病不足2000种,而三甲医院内部病历需脱敏且需伦理审批,数据到位时间不可控。瀑布模型把“设计”放在第二阶段,等数据到位才发现实体类别分布严重失衡,需重新设计标注规范,导致编码阶段全部白做。
第三,监管要求迭代。按照《深度合成规定》,上线前须通过“安全评估+备案”,评估项包括鲁棒性、公平性、隐私泄露测试。瀑布把“测试”放在最后,一旦备案被驳回,回溯修改模型结构将牵一发而动全身,风险不可接受。
因此,AI产品必须采用“小步快跑”的螺旋迭代:每两周一个数据-模型-产品闭环,用离线指标+在线业务指标双闸门控制,才能同时满足算法效果、合规要求与商业目标。
拓展思考
面试官可能追问:“你们实际用哪种流程?”可补充:
- 国内大厂主流是“双轨制”:产品PRD走敏捷Scrum,算法实验用“科研冲刺(Research Sprint)”,每轮7天,包含数据采样→模型训练→灰度实验→合规评审四步,评审通过才合并到主分支。
- 成本对冲策略:与云厂商签订“ preemptible GPU 预留合约”,把训练任务拆成≤4小时的子任务,利用夜间低价资源,整体算力成本可降38%。
- 合规左移:在需求阶段就引入“数据保护官+法务+算法安全”三方评审,用“合成数据+联邦学习”提前验证路径,避免后期因数据下架导致模型召回。
- 指标映射表:将算法AUC、F1、延迟映射到业务“转人工率、首响时长、客诉率”,每次迭代必须同时提升至少一项业务指标,否则即使模型指标上涨也不允许上线,防止“自嗨式迭代”。