AI在线 AI在线

视频时序定位

NeurIPS 2025|火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!

在人工智能与多媒体技术深度融合的当下,视频时序定位(Video Temporal Grounding) 成为视频理解领域的核心任务之一,其目标是根据自然语言查询,在长段视频流中精准定位出与之匹配的时序片段。 这一能力是智能视频剪辑、内容检索、人机交互、事件分析等众多场景落地的关键基础。 例如,快速定位球赛进球瞬间、影视剧名场面、游戏高光镜头、响应“回放主角微笑片段” 、异常事件查看等需求,均依赖于高效精准的时序定位技术。
10/22/2025 10:16:02 AM
多媒体实验室
  • 1