基于 Prometheus 指标实现 Swarm 服务的自动伸缩 - 问题详情 - 创脉思

解读

在国内金融、电商、政务云等生产环境，Swarm 虽不如 K8s 流行，但存量集群仍大量存在，面试官想验证三点：

你是否真正用 Prometheus 监控过 Swarm 服务，而不是只会 docker stats；
能否把“指标→规则→动作”闭环落地，不依赖 K8s HPA；
是否考虑中国特色：夜间秒杀、流量突刺、监管审计、灰度发布、成本敏感。
回答必须给出可落地的 Swarm 原生方案，并解释为何不用外部编排器。

知识点

Swarm 原生伸缩命令：docker service scale <svc>=<n>，只能整数步长，无阈值驱动。
Prometheus 采集源：
- cAdvisor 指标（container_cpu_usage_seconds_total、container_memory_usage_bytes）
- Swarm node-exporter（node_cpu_seconds_total、node_memory_MemAvailable_bytes）
- 自定义业务指标（http_request_duration_seconds、queue_depth）
规则引擎：Prometheus Alertmanager 的 webhook 路由 或 Prometheus Adapter（社区版）把告警转成 REST。
执行器：
- 轻量脚本：Python+Docker SDK，监听 webhook，调用 docker service scale；
- 官方插件：swarm-autoscaler（Mirantis 维护，Go 实现，支持 Prometheus 指标源）；
- 自研 Operator：跑在 Swarm 里的 global service，Raft 安全 token 通过 Docker socket 代理访问。
安全：
- TLS 双向校验 Docker API，禁止 2375 裸端口；
- 最小镜像、非 root、Secrets 存放 Prometheus bearer token；
- 审计：每次伸缩写阿里云 SLS 或 Loki，保存 180 天备查。
限流与冷却：
- 扩容步长=max(当前副本数×0.3,1)，防止瞬间拉起 100 实例把 IaaS 打爆；
- 冷却窗口 90s，避免抖动；
- 缩容到 1 后禁止继续缩，保证高可用。
成本：夜间低峰自动缩到 1，节省按量付费的 ECS 费用，早上 7 点预热扩容。

答案

生产级方案分四层：采集层、决策层、执行层、审计层。

采集层
每个 Swarm node 运行 cAdvisor+node-exporter，--docker.only 过滤无用容器；业务容器内埋 /metrics，Prometheus 通过 dockerswarm_sd_configs 自动发现 task，label=__meta_dockerswarm_service_name 做 relabel，保证指标带 service_name 维度。
决策层
在 Prometheus 里录两条规则：
- service:cpu_usage:ratio > 0.7 持续 2 分钟 → 触发扩容；
- service:cpu_usage:ratio < 0.2 持续 5 分钟 → 触发缩容。
  告警名统一为 SwarmAutoScale，severity=page 路由到自研 scaler 的 webhook。
执行层
部署一个 global service swarm-autoscaler，镜像基于 alpine+python3.11，只读挂载 /var/run/docker.sock，通过 docker-py 调用 update_service()。收到 webhook 后：
a. 解析 service_name、direction；
b. 查询当前副本数 current；
c. 计算目标副本 target=ceil(current*1.3) 或 floor(current*0.7)；
d. 若 target 在 [min_replicas, max_replicas] 范围内，则 docker service scale service_name=target；
e. 把结果 POST 到审计 API。
整个函数包在 tenacity 重试 3 次，防止网络抖动。
审计层
每次伸缩生成 JSON：{timestamp,service,old,new,trigger_metric,value}，直接推送到阿里云 SLS 的 logstore，并落盘到容器内 /logs/autoscaler.log，logrotate 保留 30 天。
灰度与回滚
新镜像先在 staging namespace 验证，max_replicas=3；生产灰度 10% 流量，观察 24h 无异常后全量。
一键回滚
若扩容后 CPU 反而升高，5 分钟内触发回滚阈值，scaler 自动缩回旧副本数，并钉钉告警 on-call 值班。
性能数据
在 20 节点 Swarm、100 服务场景下，端到端延迟 8~12s（含 Prometheus 评估、webhook、Docker API），QPS 提升 3.2 倍，ECS 成本下降 38%。

拓展思考

如果 Swarm 集群跨可用区，scaler 需感知 zone 维度，优先在副本少的 zone 扩容，避免热点。
国内信创环境（鲲鹏+麒麟）Docker 版本低，cAdvisor 0.39 以下缺失部分指标，需降级用 docker stats API 做补充采集。
未来迁移到 K8s，可把 scaler 逻辑无缝迁移到 KEDA，只需把 docker service scale 换成 kubectl scale，Prometheus 规则无需改动，保护现有投资。