当视频时长 2 小时时,如何采用层次化摘要生成 200 字简述?
解读
面试官想验证候选人能否把“长视频→层次化摘要→200 字简述”做成一条可落地、可扩展、可监控的 LLM 应用流水线,而不是简单调用一次大模型接口。核心考点有三:
- 长上下文处理:2 小时视频≈12-15 万 token 字幕,远超国内主流商用模型 32 k 窗口,必须分而治之+层次融合。
- 信息密度控制:200 字≈300 token,需多级压缩+语义去重,避免“说了一堆,等于没说”。
- 工程化与合规:整条链路要可回溯、可干预、可热更新,满足国内监管对生成式 AI“安全可控”的硬性要求。
知识点
-
长视频结构化输入
- 先抽关键帧(1 fps→场景切换检测→OCR+ASR 得字幕),再按语义边界(停顿、话题转移、PPT 翻页)切分为 30-120 s 的语义片段。
- 每片段生成**<片段标题, 关键词, 起止时间, 原文>四元组,作为后续摘要的最小原子**。
-
层次化摘要策略
- 片段级摘要:用 7 B/13 B 轻量模型(国内可部署在 A800 或昇腾 910B)做抽取+压缩,输出 30-50 字“发生了什么”。
- 章节级聚合:按时间或主题把 10-20 个片段摘要喂给千亿模型(如文心、GLM-130B),生成 100 字“为什么重要”,并提炼 3-5 个关键论点。
- 全局级简述:再把章节摘要+关键论点+视频元数据(标题、标签、观众弹幕热词)一起 prompt,要求“200 字以内,含背景、亮点、结论”,用反向约束(禁止列举、禁止口语)强制密度。
-
推理加速与质量 guardrail
- 片段级用INT8 量化+动态 batch,RTF<0.3;章节级用投机采样(小模型草稿+大模型验证),延迟从 8 s 降到 2 s。
- 引入**“事实一致性” reward model**(基于中文 RoBERTa-wwm-ext 微调)做后校验,若摘要与原文 ROUGE-L<0.6 则触发自动重试+人工审核,确保幻觉率<3%。
-
LLMOps 持续监控
- 埋点:每级摘要的token 长度、压缩比、reward 分值、用户点踩率实时写入 Prometheus。
- 热更新:Prompt 模板与 reward model 走ConfigMap+灰度发布,30 秒级生效,满足国内生成式 AI 备案要求的“可干预、可回滚”。
答案
“我会把 2 小时视频先拆成带时间戳的语义片段,用 7 B 轻量模型做片段级 50 字摘要;再把 10-20 个片段摘要聚合后送千亿模型生成 100 字章节要点;最后把章节摘要+关键论点+元数据一起 prompt,强制‘200 字、背景-亮点-结论’结构,用事实一致性 reward model做幻觉过滤,整条链路INT8 量化+投机采样保证 2 秒内返回,并通过 LLMOps 实时监控压缩比与用户点踩率,30 秒热更新 prompt,确保线上安全可控。”
拓展思考
- 如果视频是直播流,需在边采边算场景下做到 5 秒延迟,可把片段级模型下沉到昇腾 310P 边缘盒,用滑动窗口触发摘要,章节级再送云端大模型,形成云边协同的增量式层次摘要。
- 针对中文培训类长视频,可在章节级引入知识图谱外挂:先把 PPT OCR 文本与字幕对齐,构建**“概念-定义-案例”三元组**,再让大模型在摘要中强制引用图谱实体,实现“知识点不遗漏、术语不幻觉”,进一步提升教育场景的可信度。