集成WebRTC实现实时语音转文字 - 问题详情 - 创脉思

解读

在国内游戏/数字孪生项目中，实时语音转文字常被用于无障碍交互、战术语音快速落字、直播弹幕生成等场景。面试官问“U3D里集成WebRTC做实时语音转文字”，核心想看三件事：

Unity麦克风采集：Microphone.Start返回AudioClip，采样率强制44.1 kHz时需重采样到16 kHz再送入WebRTC。
WebRTC原生插件选型：
- Unity-WebRTC（Unity官方）：仅支持Windows/Android/iOS，H.264/VP8+Opus，需自己拆Opus流；
- libwebrtc-audio-only：裁剪视频模块，减少包体30 MB+，国内大厂普遍魔改此库。
音频帧封装：每20 ms Opus帧=320样本，封装成RTP时SSRC与PT需与信令服务器协商一致，国内一般用GO或Erlang写的SFU，支持双流大小通道（主语音+控制）。
云端ASR链路：
- 阿里云一句话识别WebSocket版：支持16 kHz Opus直传，返回半句级partial，延迟300 ms；
- 腾讯云实时语音识别：需PCM 16bit转码，自带VAD，但QPS按并发路收费，成本敏感项目需本地VAD预过滤静音段。
热更合规：若用HybridCLR或ILRuntime热更，ASR密钥不能放DLL，需走加密Lua+云端临时Token，符合国内版号审查“动态内容可关闭”要求。

“我去年在战术竞技项目里落地过一套Unity+libwebrtc+阿里云ASR的实时语音转文字系统，端到端延迟700 ms，识别准确率92%+。核心分四层：

采集层：Unity侧用Microphone.Start循环读取缓存，重采样到16 kHz单声道，WebRTC AudioDeviceModule注册自定义CaptureObserver，把PCM帧直接推入webrtc::AudioTransport，绕过Unity音频管线，减少一帧延迟。
传输层：自研轻量级SFU部署在阿里云ECS上海节点，UDP+DTLS走443端口防公司防火墙拦截，Opus payload type=120，NACK+PLC对抗20%丢包，NetEQ jitter buffer 60 ms。
识别层：SFU收到Opus后直接透传至阿里云ASR WebSocket，不转码节省10% CPU；回包用partial+final双通道，Unity主线程只接收final，partial丢给UI线程做实时预览，避免GC.Alloc；敏感词用Trie树本地过滤，命中则*号替换**，符合国内审核规范。
Unity表现层：UGUI ScrollRect+对象池展示字幕，每句上限20字，超过自动滚动；麦克风权限用AndroidJavaObject调android.Manifest.permission.RECORD_AUDIO，iOS则在Xcode PostProcess添加NSMicrophoneUsageDescription，否则提审会被拒。
最终包体增量+18 MB，CPU占用+6%（骁龙865），内存+25 MB，已通过版署内容审查上线TapTap。”

离线方案：若项目出海中东或欧美，云端ASR成本翻倍，可集成OnnxRuntime+Whisper-tiny（39 M），量化int8后延迟1.2 s，本地跑在Unity JobSystem+Burst，满足GDPR数据不出境。
双通道字幕：电竞直播场景可把解说语音和选手语音分Track，WebRTC用两个SSRC同时推流，Unity侧用不同颜色字幕区分，提升观赛体验。
AEC反向优化：VR Chat类项目中，用户佩戴耳机时无需AEC，可关闭WebRTC内置AEC模块，CPU再降3%，但需检测耳机插拔事件（Android AUDIO_DEVICE_OUT_WIRED_HEADSET）。