多模态大模型下一站:从看图,到看懂视频,再到世界模型
从 CLIP、VLM/MLLM 到 GPT-4o模型已经能描述图片、回答视觉问题、定位目标甚至做简单推理。但如果把输入换成视频问题马上变复杂。因为视频是一个持续变化的世界物体会移动、遮挡、重现相机会转动事件有前因后果。因此模型不仅要知道画面里有什么还要知道这些东西如何随时间变化。来自哥本哈根大学、南开大学、洛桑联邦理工学院EPFL、美国圣路易斯华盛顿大学、德国维尔茨堡大学等10家国际顶尖学术机构的研究者们联合发布的综述论文《Video Understanding: From Geometry and Semantics to Unified Models》正是在梳理这条路线。论文把视频理解分成三层低层几何理解世界怎么动高层语义理解视频里发生了什么统一视频模型能否同时理解、问答、生成和预测1. 先理解运动几何是视频的地基论文图 2 对比了三类低层任务视频深度估计、相机位姿估计、光流/点跟踪代表工作有 DepthFormer、PoseNet 和 Track-On。深度估计要求跨帧稳定否则画面会“闪”。相机位姿支撑定位、SLAM 和 3D 重建。光流适合短程运动Tracking Any Point 则追踪任意点的长程轨迹。更重要的趋势是这些任务正在从“各做各的”走向联合前馈几何模型如 DUSt3R 和 VGGT。论文图 3 展示了这种变化模型不再分别估深度、位姿、对应关系而是在一次前向传播中联合输出多个几何量。这意味着视频模型正在形成一种 3D / 4D 世界表征而不只是逐帧识别图片。2. 再理解事件语义让视频变成故事有了几何模型知道世界如何运动但还要知道谁在动、做了什么、事件何时发生。谁在动论文图 4 梳理了视频分割的三种形态代表工作有 SAM2 和 SAM3固定类别分割识别预设类别如人、车、道路。开放词汇分割根据文本类别分割未见过的对象。类无关分割用户给点、框、mask 或文本提示模型持续追踪目标。做了什么论文图 5 则展示了目标跟踪的演化从 Siamese 模板匹配到序列级建模再到多模态 RGB-X 跟踪。SiamRPN、SeqTrack 和 FlexTrack 分别体现了这几条路线。真实场景里RGB、深度、热红外、事件相机都可能缺失或失真所以理想跟踪器必须能在不同模态间稳健退化。何时发生再往上是视频时间定位。论文图 6 举的例子是给一句自然语言模型要找出对应动作在视频中的起止时间。这要求模型不只是“看见动作”还要把语言、视觉和时间边界对齐。VTimeLLM 和 TimeChat 是较典型的代表3. 最后走向统一一个模型处理动态世界论文第 4 节讨论统一视频模型。这里的“统一”不是多做几个任务而是把视频问答、定位、生成、编辑和推理放进同一个框架。Video-LLaVA 、LLaVA-OneVision 和 Qwen2-VL 是典型代表。论文图 8 总结了统一理解与生成的三种路线组装式系统LLM 调用外部视频专家模型灵活但不端到端。自回归统一模型把文本、图像、视频都变成 token用同一个 next-token 目标训练形式简洁但视频 token 太长。如Video-LaVIT、Emu3、VILA-U。混合模型共享框架中引入扩散或 flow matching提高生成质量和时间一致性但训练更复杂。这条路线的本质是让模型从“回答视频问题”走向“理解并模拟动态世界”。4. 为什么终点是世界模型论文结论部分指出视频理解正在靠近世界模型它应该能理解当前观察预测未来状态在不确定环境中支持规划和决策。这里还有一个关键词记忆。长视频不能靠无限扩展上下文解决。模型必须选择性记住关键状态丢掉冗余帧并在后续推理中调用这些记忆。论文中也给出了围绕长视频记忆与流式推理的代表如 LongVA 、LongVU 和 StreamingCoT。这意味着记忆、流式推理和状态更新会成为视频大模型、具身智能、多模态 Agent 的核心设计。我们把这篇综述中各类代表工作的论文地址和代码地址整理成了一份清单。想沿着“几何理解-语义理解-统一视频模型”这条路线继续深挖的朋友可以评论获取。