为什么AI产品的开发不能遵循'需求-设计-编码-测试'的线性瀑布模型？ - 问题详情 - 创脉思

解读

面试官想验证三件事：

你是否理解AI项目“不确定性高、数据驱动、迭代闭环”的本质；
你是否能把“算法指标≠功能完成”这一认知讲透；
你是否能用国内真实案例说明瀑布模型在AI场景下带来的“延期、超支、合规风险”三大坑。
回答时要先否定瀑布的“一次性正确”假设，再给出AI特有的“数据-模型-产品”三循环，最后落到国内落地痛点（数据合规、算力成本、标注人力）。

知识点

数据不确定性：中文语料分布漂移、标注主观差异导致需求无法一次性冻结。
算法可解释性监管：网信办《算法推荐管理规定》要求上线前完成“双评估”，瀑布模型无法前置预留评估迭代窗口。
指标耦合：模型AUC提升≠用户留存提升，需在线A/B多轮验证，瀑布的“测试阶段”无法覆盖。
算力成本弹性：国内GPU资源按卡/小时计费，瀑布一次性大批量训练极易造成预算爆炸。
数据闭环合规：个人信息保护法要求“最小可用+动态删除”，瀑布在需求阶段锁定的数据集合可能在上线前已需重新脱敏。

答案

AI产品不能走线性瀑布，核心原因是“需求、数据、模型”三者相互制约，无法在项目启动时一次性确定。
第一，需求本身模糊。以智能客服为例，业务方最初只提“降低人工坐席30%”，但模型上线后发现用户口语化表达、方言、 emoji 导致意图识别准确率仅72%，远低于可用门槛，必须回炉重新标注2万条语料。瀑布模型把“需求”锁在第一阶段，后续变更需整体返工，造成至少4周延期。
第二，数据决定天花板。中文医疗NER任务中，公开CMeEE数据集仅3.5万实体，覆盖疾病不足2000种，而三甲医院内部病历需脱敏且需伦理审批，数据到位时间不可控。瀑布模型把“设计”放在第二阶段，等数据到位才发现实体类别分布严重失衡，需重新设计标注规范，导致编码阶段全部白做。
第三，监管要求迭代。按照《深度合成规定》，上线前须通过“安全评估+备案”，评估项包括鲁棒性、公平性、隐私泄露测试。瀑布把“测试”放在最后，一旦备案被驳回，回溯修改模型结构将牵一发而动全身，风险不可接受。
因此，AI产品必须采用“小步快跑”的螺旋迭代：每两周一个数据-模型-产品闭环，用离线指标+在线业务指标双闸门控制，才能同时满足算法效果、合规要求与商业目标。

拓展思考

面试官可能追问：“你们实际用哪种流程？”可补充：

国内大厂主流是“双轨制”：产品PRD走敏捷Scrum，算法实验用“科研冲刺（Research Sprint）”，每轮7天，包含数据采样→模型训练→灰度实验→合规评审四步，评审通过才合并到主分支。
成本对冲策略：与云厂商签订“ preemptible GPU 预留合约”，把训练任务拆成≤4小时的子任务，利用夜间低价资源，整体算力成本可降38%。
合规左移：在需求阶段就引入“数据保护官+法务+算法安全”三方评审，用“合成数据+联邦学习”提前验证路径，避免后期因数据下架导致模型召回。
指标映射表：将算法AUC、F1、延迟映射到业务“转人工率、首响时长、客诉率”，每次迭代必须同时提升至少一项业务指标，否则即使模型指标上涨也不允许上线，防止“自嗨式迭代”。