NeurIPS 2025 Spotlight
NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳
本工作由纽约大学 NYU SAI Lab 的硕士生王宇彤与博士生王海宇合作完成。 本文的通讯作者为张赛骞,他是纽约大学(New York University)计算机科学系助理教授、SAI Lab 负责人,其研究方向涵盖多模态大模型(Vision-Language Models)压缩与加速、低比特量化、高效推理以及可信智能系统。 在多模态智能浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接视觉理解与语言生成的核心引擎。
11/15/2025 9:16:00 PM
机器之心
NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤:推测解码加速器AdaSPEC来了
本文共同第一作者为加州大学伯克利分校的博士生胡越舟与清华大学的本科生郭佳鑫,通讯作者为佐治亚理工学院的副教授赵拓。 推测解码(Speculative Decoding, SD)通过使用一个较小的草稿模型(draft model)生成候选预测,再由更大的目标模型(target model)进行验证,从而显著加速大语言模型(LLM)的推理过程。 SD 的加速效果在很大程度上取决于两者之间的对齐程度。
11/6/2025 11:52:00 AM
机器之心
NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言
作者张书海是华南理工大学博士四年级学生,主要研究方向为 AI 生成检测、对抗防御、模型加速等,在人工智能国际顶级会议 NeurIPS、ICML、ICLR、CVPR 和 IJCAI、ICCV 以及领域权威期刊 IEEE TIP、TCSVT 和 Neural Networks 发表论文共 15 篇。 随着生成式 AI(如 Sora)的发展,合成视频几乎可以以假乱真,带来了深度伪造与虚假信息传播的风险。 现有检测方法多依赖表层伪影或数据驱动学习,难以在高质量生成视频中保持较好的泛化能力。
11/5/2025 2:51:00 PM
机器之心
NeurIPS 2025 Spotlight | 让检索、推理真正「合体」的小而强模型,AceSearcher来了
如何让一个并不巨大的开源大模型,在面对需要多步检索与复杂逻辑整合的问题时,依然像 “冷静的研究员” 那样先拆解、再查证、后归纳,最后给出可核实的结论? 近期,来自埃默里大学,佐治亚理工大学,罗格斯大学,纽约州立大学奥尔巴尼分校,得克萨斯大学西南医学中心的研究团队发布 AceSearcher 模型,一个让同一语言模型在推理时兼任 “问题分解者(Decomposer)” 与 “答案求解者(Solver)” 的合作式自博弈框架:它以两阶段训练(SFT→RFT)为骨架,把 “会拆题、会找料、会整合” 的完整能力链拧成了一根绳。 更重要的是,这不是单纯的 “又一个新模型”,而是一个更优的框架:它把公开的推理数据集引入到检索增强的训练流程中,让模型真正学会如何把推理与检索结合起来,显著提升了复杂检索任务的效果。
10/24/2025 1:34:00 PM
机器之心
NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则
本文第一作者为四川大学博士研究生刘泓麟,邮箱为[email protected],通讯作者为四川大学李云帆博士后与四川大学彭玺教授。 一张图片包含的信息是多维的。 例如下面的图 1,我们至少可以得到三个层面的信息:主体是大象,数量有两头,环境是热带稀树草原(savanna)。
10/15/2025 11:11:00 AM
机器之心
NeurIPS 2025 Spotlight | GeoSVR:稀疏体素的新潜力——超越3DGS系列的高精度三维表面重建
在计算机视觉与图形学中,表面重建是一个长期未解的难题:给定一组多视角图像,能否重建出高精度、几何清晰、细节丰富的 3D 模型? 近年来,NeRF、SDF 与 3D Gaussian Splatting 等方法大放异彩,让 AI 能从图像中恢复出三维世界。 但随着相关技术路线的发展与完善,瓶颈问题也随之浮现:初始化依赖:3DGS 高效,但强烈依赖高精度和覆盖度的点云初始化,点云缺陷会直接传递为几何误差与细节缺失。
10/13/2025 12:59:00 PM
机器之心
NeurIPS 2025 Spotlight | PhysX-3D:面向真实物理世界的3D资产生成范式
本论文第一作者曹子昂,南洋理工大学博士二年级,研究方向是计算机视觉、3D AIGC 和具身智能。 主要合作者为来自南洋理工大学陈昭熹和来自上海人工智能实验室的潘亮,通讯作者为南洋理工大学刘子纬教授。 论文链接::ht 代码: 生成正从纯虚拟走向物理真实,现有的 3D 生成方法主要侧重于几何结构与纹理信息,而忽略了基于物理属性的建模。
10/11/2025 4:26:00 PM
机器之心
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。 FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。 该方法在不改动原有 MLLM 架构的前提下,通过 “词表扩展 自回归视觉生成” 激活图像生成能力,并以 “由易到难” 的渐进式视觉 CoT 注入物理先验。
9/30/2025 7:03:00 PM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
AI新词
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
具身智能
生成式
神经网络
机器学习
3D
人形机器人
RAG
AI视频
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
生成式AI
场景
DeepMind
深度学习
特斯拉
AI模型
架构
MCP
Transformer
亚马逊
编程
视觉
预测