工程
LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL
LeCun 的联合嵌入预测架构(JEPA)迎来了新进展。 近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。 据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。
人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制
仅凭一段普通视频,能否像专业导演一样,在后期随意改变相机轨迹,同时精细调整变焦、光圈散景、曝光度甚至图像色温? 现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。 为此,华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。
布局控制+身份一致:浙大提出ContextGen,实现布局锚定多实例生成新SOTA
随着扩散模型(Diffusion Models)的迭代演进,图像生成已经日臻成熟。 然而,在 多实例图像生成(Multi-Instance Image Generation, MIG) 这一有着大量用户场景的关键领域,现有的方法仍面临核心瓶颈:如何同时实现对多个对象的空间布局控制(Layout Control)以及身份特征的良好保持(Identity Preservation)。 主流方法往往无法做到两全其美:依赖文本和布局引导(Layout-to-Image)的模型往往难以实现高度的实例定制化,且实例遗漏、属性泄露的问题时有发生;而主流的主体驱动(Subject-driven)方法在主体数量增加时,面临着严重的身份混淆和细节丢失的问题。
Anthropic公布新技术:不靠删数据,参数隔离移除AI危险
近年来,大语言模型的能力突飞猛进,但随之而来的却是愈发棘手的双重用途风险(dual-use risks)。 当模型在海量公开互联网数据中学习时,它不仅掌握语言与推理能力,也不可避免地接触到 CBRN(化学、生物、放射、核)危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。 为此,研究者通常会在后训练加入拒答机制等安全措施,希望阻断这些能力的滥用。
Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍
混合专家(MoE)模型已成为在不显著增加计算成本的情况下,实现语言模型规模化扩展的事实标准架构。 近期 MoE 模型展现出明显的高专家粒度(更小的专家中间层维度)和高稀疏性(在专家总数增加的情况下保持激活专家数不变)的趋势,这提升了单位 FLOPs 的模型质量。 这一趋势在近期的开源模型中表现尤为明显,例如 DeepSeek V3、Kimi K2 以及 Qwen3 MoE 等,它们均采用了更细粒度的专家设计(更小的中间层维度)和更高的稀疏度,在保持激活参数量不变的同时大幅增加了总参数量。
大模型「越想越错」?人大&腾讯团队用信息论揭示:什么时候该想、什么时候别想
本文的第一作者雍希贤是来中国人民大学的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。 通讯作者为中国人民大学的周骁副教授以及腾讯天衍实验室的吴贤。 当前,大模型的「推理能力」几乎成为行业最热词。
基于真实数据和物理仿真,国防科大开源具身在线装箱基准RoboBPP
在现代工业物流与机器人自动化中,三维装箱问题(3D-BPP)的物理可行性与具身可执行性是决定算法能否真正落地的关键因素。 随着工业自动化水平不断提高,「在线装箱」问题正受到越来越多关注。 然而现有研究在问题设定、测试数据、评估指标等方面差异巨大,且不少先进算法尚未开源,导致研究社区缺乏一个能够公平、系统评估算法性能与真实可用性的统一基准体系。
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人
在计算机图形学、三维视觉、虚拟人、XR 领域,SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一,每年只接收全球最顶尖研究团队的成果稿件,代表着学术与工业界的最高研究水平与最前沿技术趋势。 我们是淘宝技术 - Meta 技术团队,在 3D、XR、3D 真人数字人和三维重建等方向拥有深厚的技术积累和业务沉淀,我们自研了专业的多视角拍摄影棚,在今年 CVPR 2025 会议上作为 Highlight Paper 发表了 TaoAvatar ,并在淘宝未来旗舰店中实现了业内首个 3D 真人导购体验,下面视频展示了杭州西溪园区 C 区淘宝未来旗舰店的精彩瞬间,欢迎大家到来访园区进行体验。
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵
视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难以兼顾高层规划与精细操控。 针对这一问题,北京大学、香港中文大学与至简动力团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。 论文题目:ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation论文链接:: π0 等端到端模型在处理复杂长程任务时仍面临的推理与执行割裂问题,ManualVLA 摒弃了将「高层次规划」与「动作生成」拆分的传统分层级联方案,构建了全新通用基础模型 Mixture-of-Transformers (MoT) 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同。
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型
本文第一作者郝一鸣,香港中文大学(深圳)GAP-Lab 在读博士生。 本文共同第一作者为许牧天,于香港中文大学(深圳)取得博士学位。 导师韩晓光教授,为本文通讯作者。
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音
继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新动作。 深夜,Meta 放出音频分割模型 SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。
经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%
如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。 然而,现有的 RL 驱动的深度思考大模型系统常常面临准确率与效率的「跷跷板」困境:频繁调用搜索工具提升准确性,却带来计算开销和效率低下。 具体而言,高频调用外部搜索工具虽能补充实时信息、提升推理准确率,但使得推理延迟大幅升高,等待时间可达几十秒至几分钟。
VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建
如何让针对静态场景训练的 3D 基础模型(3D Foundation Models)在不增加训练成本的前提下,具备处理动态 4D 场景的能力? 来自香港科技大学(广州)与地平线 (Horizon Robotics) 的研究团队提出了 VGGT4D。 该工作通过深入分析 Visual Geometry Transformer (VGGT) 的内部机制,发现并利用了隐藏在注意力层中的运动线索。
浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M
本文的作者分别来自浙江大学和字节跳动。 第一作者何昊阳是来自浙江大学的博士生,研究方向聚焦于视频生成与编辑。 通讯作者为浙江大学谢磊教授。
PPO-Clip的「盲点」被补齐了?快手提出熵比裁剪方法,从局部约束到全局稳定的关键一跃
本研究由快手科技语言大模型团队完成,核心作者苏振鹏,潘雷宇等。 快手语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向,积累务实的探索 AGI 的能力边界,并不断推进 AI 领域新技术和新产品的发展。 此前,该团队已开源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在数学和代码的基准测试上达到了同参数级别模型的 SOTA 效果。
所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈
LLM 智能体很赞,正在成为一种解决复杂难题的强大范式。 不过,这种成功目前更多还停留在「经验主义」的工程实践层面 —— 我们知道它好用,但往往不知道它在宏观上为何如此运作。 那么,我们是否能找到一个理论框架,像物理学描述自然界那样,去理解和统一智能体的宏观动力学(macroscopic dynamics)?
临床PK完胜ChatGPT-5!国内团队造出首个OCT影像AI系统
通用大模型(LLM)的狂飙突进,终于在医疗垂直领域的「最后一公里」撞上了硬墙。 虽然 ChatGPT 在 USMLE(美国执业医师资格考试)中表现优异,但在面对需要「火眼金睛」和「毫厘必争」的心脏手术台上,通用大模型的表现究竟如何? 近日,一项由空军军医大学唐都医院李妍教授团队牵头,与深圳清华大学研究院朱锐团队联合完成的 COMPARE 研究在 arXivs 上发表预印版。
56倍加速生成式策略:西交大提出EfficientFlow,迈向高效具身智能
本文共同第一作者为西安交通大学硕士生常建磊和博士生梅若风。 柯炜为西安交通大学副教授。 论文通讯作者为西安交通大学教授许翔宇,其研究方向涵盖三维视觉、生成式 AI 与具身智能(个人主页:)。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉