如何在 CouchDB 旁路部署 TensorFlow Serving？ - 问题详情 - 创脉思

解读

国内面试官问“旁路部署”，并非让你把 TensorFlow Serving 塞进 CouchDB 进程，而是考察**“数据层与推理层解耦、零侵入、可灰度、可回滚”的工程能力。CouchDB 作为文档库，本身只存 JSON 与附件，不具备模型推理能力；旁路的核心是让 TensorFlow Serving 与 CouchDB 并行运行，通过变更流（_changes feed）或定时 ETL 把待推理数据异步推给推理服务，再把结果写回 CouchDB 或业务索引库**，整个过程对在线读写链路零阻塞、零改造。面试官想听到的是：你熟悉 CouchDB 的复制协议、变更流鉴权、附件分片下载，也懂 TensorFlow Serving 的 REST/gRPC 接口、模型热更新、批处理优化，并能在中国特有的**“内网隔离、模型加密、等保 2.0 审计”**约束下给出落地细节。

知识点

CouchDB 变更流（_changes）的三种模式：longpoll、continuous、eventsource；国内阿里云、腾讯云 Hosted CouchDB 只开放 100 长连接，需用 nginx 反向代理做收敛。
附件（_attachments）大于 64 MB 时，CouchDB 自动分片，下载需带 ?att_encoding_info=gzip 避免内网流量双倍计费。
TensorFlow Serving 的模型配置文件 model.config 支持**“版本策略+灰度流量”，通过 model_version_policy { specific { versions: 168 } } 可实现“蓝绿回滚”**。
国内 GPU 资源普遍紧张，TFS 开启 batching_parameters { max_batch_size { value: 32 } max_enqueued_batches { value: 256 } } 可把 P4 卡利用率从 35% 提到 78%。
等保 2.0 要求**“模型文件存储加密”**，可把 saved_model.pb 用国密 SM4-CBC 加密后放对象存储，TFS 启动前通过 sidecar 解密到 tmpfs，避免明文落盘。
旁路链路必须可观测：在_changes 消费端埋点 Prometheus 指标 couchdb_changes_lag_seconds，超过 30 s 即触发阿里云 SLS 告警电话。

答案

生产级旁路部署分五步：

网络平面隔离：CouchDB 集群放内网区段 172.16.0.0/24，TensorFlow Serving 放 GPU 区段 192.168.100.0/24，中间通过企业版 Kong 网关做 mTLS 双向认证，满足金融客户**“南北向流量审计”**要求。
数据出口：在 CouchDB 里对 doc.type=="ai_inference" 的文档创建过滤型复制过滤器
function(doc, req){ return doc.type=="ai_inference" && doc._attachments && doc._attachments.image;}
然后启动独立 changes 消费者（Node.js 或 Go），每 200 ms 批量拉取 500 条变更，把附件下载到本地 tmp 目录，记录 seq 到 Redis 防止宕机重放。
推理调用：消费者把图片转成 224×224 RGB 字节数组，通过 gRPC 接口 localhost:8500 调 TensorFlow Serving，开启 GPU batching；返回的 logits 再映射成业务标签，整体 P99 延迟控制在 180 ms 以内。
结果回写：推理完把结果 JSON {doc_id, label, score, model_version, ts} 通过 CouchDB 批量 API _bulk_docs 写回同库不同前缀 doc.type=="ai_result"，写前带 ?new_edits=false 避免冲突，同时把原始 doc 打上 inferred=true 标记，防止重复消费。
运维灰度：TensorFlow Serving 的模型目录挂接阿里云 NAS，通过Jenkins+ansible 流水线推送新版本；Kong 网关按 header 中 x-canary=1 把 5% 流量导到新模型，验证准确率无回退后全量切换；回滚策略是 model.config 里把 specific 指回旧版本号，30 秒级生效。

拓展思考

如果 CouchDB 集群跨两地三中心，变更流延迟可能达到 2 s，此时可把 changes 消费者做成Kafka Connect Source Connector，先落 Kafka，再让 TFS 消费，实现“离线推理”与“在线推理”双链路。
当模型需要多模态输入（文本+图片）时，CouchDB 附件里存图片，文本放 doc.text，消费者侧需做字段对齐与补齐，可把缺失字段通过阿里云 PAI-EAS 特征服务实时补齐，保证模型输入 schema 一致。
国内监管要求**“模型可解释”，可在 TFS 侧开启SavedModel Signature 中的 attention_weights 输出**，回写 CouchDB 时把热图附件一并带上，前端直接通过 ?attachments=true 拉取展示，实现“推理+解释”一体化，方便后续等保 3.0 审计抽查。