ICML25

ICML25 视频问答中以语言为中心的结构化推理

一、前言由于现有的多模态大语言模型（MLLM）在推理过程中存在无法控制和不透明的问题，视频问答（VideoQA）在实现高级认知推理方面仍然具有挑战性。为了解决这一问题，哔哩哔哩Index团队联合上海交通大学提出了一种新颖的以语言为中心的树状推理（LTR）框架，旨在增强模型的推理能力，该论文已经被 ICML2025 收录，是继 ICLR2025 的工作（ICLR25 重新思考长尾识别中的分类器再训练：标签过平滑可以实现平衡）之后Index团队在AI三大顶会（ICLR/ICML/NeurIPS）的第二项收录。该框架通过递归地将原始问题划分为逻辑上可处理的子问题，并逐步解决这些子问题，从而提升现有MLLM的推理能力和可解释性。

8/11/2025 2:25:00 AM

资讯热榜

OpenAI更新ChatGPT规则：10月29日起禁止医疗、法律与财务建议 Reddit CEO直言：AI聊天机器人并未带来流量红利，搜索仍是核心引擎 eBay携手ChatGPT开启智能电商新时代，购物体验将全面升级！从AI到泰勒·斯威夫特——源于生活的案例与启示 OpenAI 开放 Sora2视频工具，面向美国、加拿大、日本和韩国用户 OpenAI年收入已远超130亿美元，上市计划仍遥遥无期看完刘润年度演讲，教你做好AI时代的能力迁徙！库克:苹果将在人工智能领域寻求更多收购与合作机会

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 Meta AI新词微软智能用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果 Claude 腾讯 Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人 AI视频研究大语言模型具身智能生成百度 Sora 工具 GPU 华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景深度学习架构生成式AI DeepMind 编程亚马逊视觉 Transformer AI模型预测特斯拉 MCP