工程
深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知
操铄:中国科学技术大学与上海人工智能实验室联合培养博士生,专注多模态图像理解与生成。 主导研发了 ArtiMuse、UniPercept 等成果,多篇工作发表于 ECCV、ICCV 等国际顶级会议。 李佳阳:北京大学硕士生,专注多模态图像理解及融合。
从过拟合到通用!ViMoGen开启3D人体动作生成新纪元
随着 AIGC(Artificial Intelligence Generated Content) 的爆发,我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。 然而,3D 人体动作生成(3D MoGen)领域却稍显滞后。 现有的模型在标准数据集上表现良好,但在泛化能力上仍存在明显瓶颈。
重塑虚实边界:智元机器人发布首个大语言模型驱动的开源仿真平台Genie Sim 3.0
当仿真环境的真实性逼近物理世界,当场景构建的效率以“自然对话”和“分钟”来衡量,具身智能的研发范式将发生根本性改变。 智元机器人在CES国际消费电子展首日正式发布首个大语言模型驱动的开源仿真平台——Genie Sim 3.0。 基于NVIDIA Isaac Sim ,Genie Sim 3.0 融合三维重建与视觉生成,打造数字孪生级的高保真环境;首创大语言模型驱动,让万级场景的生成只需几分钟;同步开源包含真实机器人作业场景的上万小时仿真数据集;并构建了覆盖10万 场景的多维度智能评估体系,为模型能力绘制全景画像。
多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案
在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。 然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。 形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。
大模型最难的AI Infra,用Vibe Coding搞定
Andrej Karpathy 大神力荐的 Vibe Coding,正在成为开发者的新宠。 这种「只需聊一聊,AI 可以把功能写出来」的体验,极大提升了简单任务的开放效率。 然而,当我们目光转向实际的系统,特别是 AI Infra 这种复杂系统时,Vibe Coding 就会常常会陷入「水土不服」的困境。
注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案
Transformer 已经改变了世界,但也并非完美,依然还是有竞争者,比如线性递归(Linear Recurrences)或状态空间模型(SSM)。 这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。 然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往并不如人意,会受限于内存带宽和全局同步带来的高昂通信成本。
别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?
2025 年,随着李飞飞等学者将 “空间智能”(Spatial Intelligence)推向聚光灯下,这一领域迅速成为了大模型竞逐的新高地。 通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA,似乎 AI 在训练中已经更好地读懂了三维空间。 然而,这背后存在着隐忧:由于带有准确 3D 标注数据的稀缺,模型训练所用数据(如 ScanNet 、ARKitScenes)往往与测试基准高度同源。
检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡
在检索增强生成中,扩大生成模型规模往往能提升准确率,但也会显著抬高推理成本与部署门槛。 CMU 团队在固定提示模板、上下文组织方式与证据预算,并保持检索与解码设置不变的前提下,系统比较了生成模型规模与检索语料规模的联合效应,发现扩充检索语料能够稳定增强 RAG,并在多项开放域问答基准上让小中型模型在更大语料下达到甚至超过更大模型在较小语料下的表现,同时在更高语料规模处呈现清晰的边际收益递减。 更进一步,研究不仅刻画了随语料扩容而变化的性能增益,也揭示了若干相对稳定的不变规律。
空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没
空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 “通用型智能助手” 的关键基础。 但现有的空间智能评测基准往往有两类问题:一类高度依赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。 要真正走入现实世界,模型不仅需要看得见,更要看得懂空间: 它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理,并基于这些信息做出合理决策,与环境产生有效交互。
AAAI 2026 Oral|InfiGUI-G1模型来了,刷新GUI Grounding SOTA
随着多模态大语言模型(MLLM)的飞速发展,能够像人类一样通过视觉输入操作图形用户界面(GUI)的智能体(Agent)正逐渐成为现实。 然而,在通往通用计算机控制的道路上,如何让模型精准地将自然语言指令对应到屏幕上的具体元素 —— 即 GUI Grounding 任务,依然是一大难题。 现有的方法,特别是基于验证奖励的强化学习(RLVR),虽然在提升 “指得准”(空间对齐)方面表现出色,却往往在 “指得对”(语义对齐)上遭遇瓶颈。
500万人在线围观,Claude Code创建者的13条独家实战秘籍爆火
2026 新年第三天,Claude Code 创建者、负责人 Boris Cherny 开展「线上教学」,亲自示范他自己使用这个 AI 编程工具的工作流。 他表示,自己的配置可能出乎意料地「素」(即简单)! Claude Code 开箱即用非常出色,所以他个人并没有做太多自定义。
ControlNet作者张吕敏最新论文:长视频也能实现超短上下文
大部分的高质量视频生成模型,都只能生成上限约15秒的视频。 清晰度提高之后,生成的视频时长还会再一次缩短。 这就让尝试AI视频创意的创作者们非常苦恼了。
LeCun在Meta还有论文:JEPA物理规划的「终极指南」
长期以来,AI 领域一直怀揣着一个宏大的梦想:创造出能够像人类一样直观理解物理世界,并在从未见过的任务和环境中游刃有余的智能体。 传统的强化学习方法往往比较笨拙,需要通过无数次的试错和海量的样本才能学到一点皮毛,这在奖励信号稀疏的现实环境中简直是灾难。 为了打破这一僵局,研究者们提出了「世界模型」这一概念,即让智能体在脑海中构建一个物理模拟器,通过预测未来状态来进行演练。
微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍
腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 倍以上,同时保持甚至提升生成质量。 引言自回归(AR)生成是当前大语言模型的主流解码范式,但其逐 token 生成的特性限制了推理效率。 扩散语言模型(Diffusion LLMs)通过并行恢复多个 mask token 提供了一种替代方案,然而在实践中,现有扩散模型往往难以在推理速度上超越经过高度优化的 AR 推理引擎(如 vLLM)。
陶哲轩:AI让数学进入「工业化」时代,数学家也可以是「包工头」
很多人提到数学研究,脑子里浮现的还是那个画面:一个人,一块白板,来回踱步,等灵感突然降临。 但当今世界最伟大的数学家之一、菲尔兹奖得主陶哲轩却告诉我们:这种「手工业时代」的数学研究模式正处于崩溃边缘,一场由 AI 和形式化证明语言(如 Lean)引领的「工业革命」已经悄然开启。 这一洞察来自陶哲轩最近的一次访谈:视频标题:Terry Tao on the future of mathematics视频链接:,陶哲轩指出,数学研究中存在大量的重复性劳动,如查阅文献、调整他人论文中的参数以及繁琐的计算。
自回归也能做强视觉模型?NEPA开启「下一嵌入预测」时代,谢赛宁参与
众所周知,LeCun 不喜自回归,并且还提出了一种名为联合嵌入预测架构(JEPA)的新方向,并且该方向也一直在有新成果涌现。 然而,自回归模型的成功也是有目共睹的,尤其是在语言领域。 那么,生成式预训练在自然语言上的成功能否在视觉领域重现呢?
让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images” 范式已在图像理解和推理任务上取得了革命性突破 —— 模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。 现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间序列的自主导航与深度理解能力,导致模型在处理长视频或复杂逻辑时显得捉襟见肘。
Meta重磅:让智能体摆脱人类知识的瓶颈,通往自主AI的SSR级研究
众所周知,「超级智能」是 Meta 持续不变的宏大愿景。 为了尽早达到构建超级智能的目标,扎克伯格在这一年里可谓是大刀阔斧,搞得 Meta 研究部门鸡飞狗跳。 前 Meta FAIR 领军人物 Yann LeCun 锐评:「通往超级智能… 在我看来完全是胡扯,这条路根本行不通。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉