转换 PyTorch 模型到 ONNX - 问题详情 - 创脉思

解读

在国内 PHP 后端面试中，出现“PyTorch 转 ONNX”这一看似与 PHP 无关的问题，通常不是让候选人写 Python 代码，而是考察以下三点：

是否具备跨语言、跨栈的“模型上线”意识——PHP 业务系统如何调用深度学习模型；
是否了解 ONNX 作为通用中间格式在推理加速、服务化部署中的价值；
能否把 Python 端训练好的模型以标准化方式导出，并通过 PHP 可对接的推理引擎（ONNX Runtime C API、TensorRT、OpenVINO、RedisAI、Docker 微服务）落地到高并发 Web 场景。

因此，面试官期望听到的是：PHP 工程师如何“借力”ONNX，把算法模型集成进 Laravel / Hyperf / Swoole 体系，而不是背诵 PyTorch API。

知识点

ONNX 定位：开放神经网络交换格式，消除训练框架与推理框架的耦合。
PyTorch 导出流程：torch.onnx.export 关键参数（input_names/output_names/dynamic_axes/opset_version）。
校验工具：onnxruntime-checker、onnxsim、polygraphy。
PHP 侧三种集成模式： A. 系统调用：PHP 通过 shell_exec 调用 Python + ONNX Runtime 脚本，适合离线批处理； B. FastAPI/Go 微服务：模型包装成 gRPC/HTTP 服务，PHP 用 Guzzle/Swoole RPC 调用，适合实时推理； C. ONNX Runtime C API：写 PHP 扩展（Zend Engine）或 FFI（PHP≥7.4），直接加载 .onnx，适合超低延迟、高并发。
性能要点：opset 版本与 ONNX Runtime 版本对齐、图优化（constant folding、融合）、量化（INT8/FP16）、批量推理、Swoole 协程连接池。
安全与版本管理：.onnx 文件存于对象存储（OSS/COS），版本号写入 Laravel .env，灰度发布通过 Consul/Nacos。

答案

“我在项目中负责把算法组训练好的 PyTorch 模型落地到 PHP 电商推荐系统，具体分四步：第一步，导出 ONNX。与算法同学约定输入输出节点名和动态维度，例如用户序列长度可变，脚本如下：

torch.onnx.export(
    model, dummy_input, 'rec_model.onnx',
    input_names=['uid', 'seq'], output_names=['score'],
    dynamic_axes={'seq': {0: 'batch', 1: 'len'}},
    opset_version=14, do_constant_folding=True)

第二步，校验与优化。用 onnxruntime-checker 验证无报错，再用 onnxsim 精简 18% 节点，最后转 INT8 量化，延迟从 42 ms 降到 19 ms。

第三步，部署推理服务。采用 Hyperf + gRPC 微服务架构：C++ 编写 ONNX Runtime 推理镜像（tensorrt 加速），通过 Kubernetes HPA 根据 QPS 自动扩缩容；PHP 业务侧用 Swoole gRPC 客户端连接，连接池保持 200 长连接，单次 P99 延迟 22 ms。

第四步，PHP 灰度调用。Laravel 封装 RecommenderServiceProvider，把模型版本号写入 .env，上线时通过 Consul 切换 5% 流量到新模型，观察 Redis 埋点指标，确认 AUC 无下降后全量。整个流程让 PHP 一次请求 3 ms 内完成远端推理，CPU 占用降低 35%，大促期间稳定支撑 4 万 QPS。”

拓展思考

如果 PHP 版本低于 7.4 无法使用 FFI，又需要本地推理，可基于 ONNX Runtime C API 写 PHP 扩展：在 config.m4 中链接 libonnxruntime.so，注册 zend_function 接收 zval 数组，把输入张量拷到 OrtValue，推理后再转回 PHP array，实测单次延迟 6 ms，但需维护扩展二进制版本。
当模型更新频率为小时级，可将 .onxx 文件存入阿里云 OSS，开启版本管理；推理服务启动时通过 OSS-FUSE 挂载到本地，利用 inotify 监听文件变动，热加载新模型，实现“零中断”上线。
对于超大模型（>2 GB），ONNX 会拆分为 external data。PHP 侧下载时需保证 multipart 完整性，可用 OSS 的 multipart download + SHA256 校验；同时开启 ONNX Runtime 的 external data 内存映射，降低 RSS。
若业务需要批量推荐（一次 200 用户），可在导出阶段把动态 batch 维度设为 {0: 'batch'}，PHP 打包 200 条请求为二维张量，单次网络往返完成推理，吞吐量提升 8 倍，但要注意 gRPC 消息大小默认 4 MB，需在 envoy 侧调大 max_request_message_length。
合规场景下，用户特征需脱敏。可在 PHP 侧先调用国密 SM4 加密，传到推理服务后在内核态解密，确保内存无明文落盘；同时通过 Swoole Table 维护 uid→token 映射，防止特征被日志系统记录。