AI在线 AI在线

苹果携手复旦大学推 StreamBridge 端侧视频大语言模型框架,AI 可实时响应视频流

苹果公司联合复旦大学,推出 StreamBridge 端侧视频大语言模型(Video-LLMs)框架,助力 AI 理解直播流视频。

科技媒体 marktechpost 今天(5 月 13 日)发布博文,报道称苹果公司联合复旦大学,推出 StreamBridge 端侧视频大语言模型(Video-LLMs)框架,助力 AI 理解直播流视频。

直播流视频理解的挑战与需求

传统视频大语言模型擅长处理静态视频,但无法适应机器人技术和自动驾驶等需要实时感知的场景,在这些场景下,要求模型能快速理解直播视频流内容,并做出反应。

现有的模型面临两大难题:一是多轮实时理解,即在处理最新视频片段时需保留历史视觉和对话上下文;二是主动响应,要求模型像人类一样主动监控视频流,并在无明确指令的情况下及时输出反馈。

StreamBridge 框架与创新技术

为解决上述问题,苹果公司与复旦大学的研究者开发了 StreamBridge 框架。该框架通过内存缓冲区和轮次衰减压缩策略,支持长上下文交互。

苹果携手复旦大学推 StreamBridge 端侧视频大语言模型框架,AI 可实时响应视频流

该框架还引入了一个轻量化的独立激活模型,无缝集成现有视频大语言模型,实现主动响应功能。研究团队还推出了 Stream-IT 数据集,包含约 60 万个样本,融合了视频与文本序列,支持多样化的指令格式,旨在提升流式视频理解能力。

StreamBridge 在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上进行了测试。结果显示,Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分别提升至 71.30 和 77.04,超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型。

Oryx-1.5 也取得了显著进步,而 LLaVA-OV 性能略有下降。Stream-IT 数据集的微调进一步提升了所有模型的表现,证明了 StreamBridge 在流式视频理解领域的强大潜力。

AI在线附上参考地址

  • StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

相关资讯

多个团队发力 AI 论文反识别检测,复旦等高校严管论文 AI 使用

据央视财经报道,目前国内有多个团队正在从不同方向发力,进行 AI 论文反识别的检测研究。专家表示,随着 AI 技术的迭代和更新,反识别技术也要加速更新,才能持续对学术造假起到震慑作用。
2/26/2025 10:10:16 PM
浩渺

上海应用技术大学汪小帆:建议出台高校 AI 规范使用指南,严禁 AI 代写作业论文

据澎湃新闻报道,2025 年全国两会期间,全国政协委员、上海应用技术大学校长汪小帆对制定高校人工智能工具规范使用指南提出相关建议。
3/9/2025 7:45:56 AM
浩渺

AI不止是技术:小红书联手复旦培养“人文+AI”复合型人才

小红书与复旦大学哲学学院近日达成合作,正式启动“AI人文人才训练营”,致力于在AI后训练阶段引入哲学与人文思维,共同培养具备跨学科素养的“AI 人文”复合型人才。 该训练营由小红书 hi lab(人文智能实验室)与复旦哲学学院联合发起,邀请哲学教师与AI技术专家共同担任导师与评审。 学生将以跨学科小组形式参与项目共创,通过对社会议题、人际关系、艺术审美、生活哲思等主题的探讨,与算法工程师协同设计更具人文关怀的AI模型。
5/27/2025 6:00:50 PM
AI在线
  • 1