当视频时长 2 小时时，如何采用层次化摘要生成 200 字简述？ - 问题详情 - 创脉思

解读

面试官想验证候选人能否把“长视频→层次化摘要→200 字简述”做成一条可落地、可扩展、可监控的 LLM 应用流水线，而不是简单调用一次大模型接口。核心考点有三：

长上下文处理：2 小时视频≈12-15 万 token 字幕，远超国内主流商用模型 32 k 窗口，必须分而治之+层次融合。
信息密度控制：200 字≈300 token，需多级压缩+语义去重，避免“说了一堆，等于没说”。
工程化与合规：整条链路要可回溯、可干预、可热更新，满足国内监管对生成式 AI“安全可控”的硬性要求。

知识点

长视频结构化输入
- 先抽关键帧（1 fps→场景切换检测→OCR+ASR 得字幕），再按语义边界（停顿、话题转移、PPT 翻页）切分为 30-120 s 的语义片段。
- 每片段生成**<片段标题, 关键词, 起止时间, 原文>四元组，作为后续摘要的最小原子**。
层次化摘要策略
- 片段级摘要：用 7 B/13 B 轻量模型（国内可部署在 A800 或昇腾 910B）做抽取+压缩，输出 30-50 字“发生了什么”。
- 章节级聚合：按时间或主题把 10-20 个片段摘要喂给千亿模型（如文心、GLM-130B），生成 100 字“为什么重要”，并提炼 3-5 个关键论点。
- 全局级简述：再把章节摘要+关键论点+视频元数据（标题、标签、观众弹幕热词）一起 prompt，要求“200 字以内，含背景、亮点、结论”，用反向约束（禁止列举、禁止口语）强制密度。
推理加速与质量 guardrail
- 片段级用INT8 量化+动态 batch，RTF＜0.3；章节级用投机采样（小模型草稿+大模型验证），延迟从 8 s 降到 2 s。
- 引入**“事实一致性” reward model**（基于中文 RoBERTa-wwm-ext 微调）做后校验，若摘要与原文 ROUGE-L<0.6 则触发自动重试+人工审核，确保幻觉率<3%。
LLMOps 持续监控
- 埋点：每级摘要的token 长度、压缩比、reward 分值、用户点踩率实时写入 Prometheus。
- 热更新：Prompt 模板与 reward model 走ConfigMap+灰度发布，30 秒级生效，满足国内生成式 AI 备案要求的“可干预、可回滚”。

答案

“我会把 2 小时视频先拆成带时间戳的语义片段，用 7 B 轻量模型做片段级 50 字摘要；再把 10-20 个片段摘要聚合后送千亿模型生成 100 字章节要点；最后把章节摘要+关键论点+元数据一起 prompt，强制‘200 字、背景-亮点-结论’结构，用事实一致性 reward model做幻觉过滤，整条链路INT8 量化+投机采样保证 2 秒内返回，并通过 LLMOps 实时监控压缩比与用户点踩率，30 秒热更新 prompt，确保线上安全可控。”

拓展思考

如果视频是直播流，需在边采边算场景下做到 5 秒延迟，可把片段级模型下沉到昇腾 310P 边缘盒，用滑动窗口触发摘要，章节级再送云端大模型，形成云边协同的增量式层次摘要。
针对中文培训类长视频，可在章节级引入知识图谱外挂：先把 PPT OCR 文本与字幕对齐，构建**“概念-定义-案例”三元组**，再让大模型在摘要中强制引用图谱实体，实现“知识点不遗漏、术语不幻觉”，进一步提升教育场景的可信度。