当视频时长 2 小时时,如何采用层次化摘要生成 200 字简述?

解读

面试官想验证候选人能否把“长视频→层次化摘要→200 字简述”做成一条可落地、可扩展、可监控的 LLM 应用流水线,而不是简单调用一次大模型接口。核心考点有三:

  1. 长上下文处理:2 小时视频≈12-15 万 token 字幕,远超国内主流商用模型 32 k 窗口,必须分而治之+层次融合
  2. 信息密度控制:200 字≈300 token,需多级压缩+语义去重,避免“说了一堆,等于没说”。
  3. 工程化与合规:整条链路要可回溯、可干预、可热更新,满足国内监管对生成式 AI“安全可控”的硬性要求。

知识点

  1. 长视频结构化输入

    • 先抽关键帧(1 fps→场景切换检测→OCR+ASR 得字幕),再按语义边界(停顿、话题转移、PPT 翻页)切分为 30-120 s 的语义片段
    • 每片段生成**<片段标题, 关键词, 起止时间, 原文>四元组,作为后续摘要的最小原子**。
  2. 层次化摘要策略

    • 片段级摘要:用 7 B/13 B 轻量模型(国内可部署在 A800 或昇腾 910B)做抽取+压缩,输出 30-50 字“发生了什么”。
    • 章节级聚合:按时间或主题把 10-20 个片段摘要喂给千亿模型(如文心、GLM-130B),生成 100 字“为什么重要”,并提炼 3-5 个关键论点
    • 全局级简述:再把章节摘要+关键论点+视频元数据(标题、标签、观众弹幕热词)一起 prompt,要求“200 字以内,含背景、亮点、结论”,用反向约束(禁止列举、禁止口语)强制密度。
  3. 推理加速与质量 guardrail

    • 片段级用INT8 量化+动态 batch,RTF<0.3;章节级用投机采样(小模型草稿+大模型验证),延迟从 8 s 降到 2 s。
    • 引入**“事实一致性” reward model**(基于中文 RoBERTa-wwm-ext 微调)做后校验,若摘要与原文 ROUGE-L<0.6 则触发自动重试+人工审核,确保幻觉率<3%
  4. LLMOps 持续监控

    • 埋点:每级摘要的token 长度、压缩比、reward 分值、用户点踩率实时写入 Prometheus。
    • 热更新:Prompt 模板与 reward model 走ConfigMap+灰度发布,30 秒级生效,满足国内生成式 AI 备案要求的“可干预、可回滚”。

答案

“我会把 2 小时视频先拆成带时间戳的语义片段,用 7 B 轻量模型做片段级 50 字摘要;再把 10-20 个片段摘要聚合后送千亿模型生成 100 字章节要点;最后把章节摘要+关键论点+元数据一起 prompt,强制‘200 字、背景-亮点-结论’结构,用事实一致性 reward model幻觉过滤,整条链路INT8 量化+投机采样保证 2 秒内返回,并通过 LLMOps 实时监控压缩比与用户点踩率,30 秒热更新 prompt,确保线上安全可控。”

拓展思考

  1. 如果视频是直播流,需在边采边算场景下做到 5 秒延迟,可把片段级模型下沉到昇腾 310P 边缘盒,用滑动窗口触发摘要,章节级再送云端大模型,形成云边协同增量式层次摘要
  2. 针对中文培训类长视频,可在章节级引入知识图谱外挂:先把 PPT OCR 文本与字幕对齐,构建**“概念-定义-案例”三元组**,再让大模型在摘要中强制引用图谱实体,实现“知识点不遗漏、术语不幻觉”,进一步提升教育场景的可信度。