工程
清华朱军团队 | 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈
论文有三位共同一作。 赵若雯,清华大学一年级硕士生,主要研究生成模型、强化学习和具身智能,已在ICRA等会议发表论文。 叶俊良,清华大学二年级硕士生,专注于3D生成和基于人类偏好的多模态强化学习研究,曾以第一作者身份在ECCV发表DreamReward,该成果能生成更符合人类偏好的3D资产。
3/31/2025 1:00:00 PM
机器之心
200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba
由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。 然而,针对大语言模型的大规模强化学习训练门槛一直很高:流程复杂、涉及模块多(生成、训练、奖励判定等),为实现高效稳定的分布式训练带来很多挑战;R1/o1 类推理模型的输出长度很长(超过 10K),并且随着训练持续变化,很容易造成显存和效率瓶颈;开源社区缺乏高质量强化学习训练数据,以及完整可复现的训练流程。 本周,蚂蚁技术研究院和清华大学交叉信息院吴翼团队,联合发布了训练速度最快最稳定的开源强化学习训练框架 AReaL(Ant Reasoning RL),并公开全部数据和完成可复现的训练脚本。
3/31/2025 10:52:00 AM
机器之心
ICLR 2025 | 真正「Deep」的「Research」,通过强化学习实现可自主进化的科研智能体来了!
CycleResearcher 研究团队成员包括:张岳教授,西湖大学人工智能系教授,工学院副院长,其指导的博士生朱敏郡、张鸿博、鲍光胜、访问学生翁诣轩;UCL 访问研究员杨林易博士,25 Fall 入职南方科技大学拟任独立 PI,博士生导师,研究员。 AI 技术不断进步,科研自动化浪潮正在深刻改变学术世界! 近日,来自西湖大学、UCL 等机构的研究团队在自动化科研方向发布了一项突破性的成果:CycleResearcher 。
3/31/2025 10:47:00 AM
机器之心
模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平
现阶段,微调大型语言模型(LLMs)的难点在于,人们通常没有高质量的标注数据。 最近,AI 公司 Databricks 推出了一种新的调优方法 TAO,只需要输入数据,无需标注数据即可完成。 更令人惊喜的是,TAO 在性能上甚至超过了基于标注数据的监督微调。
3/30/2025 5:21:00 PM
机器之心
卷积网络又双叒叕行了?OverLoCK:一种仿生的卷积神经网络视觉基础模型
作者是香港大学俞益洲教授与博士生娄蒙。 你是否注意过人类观察世界的独特方式? 当面对复杂场景时,我们往往先快速获得整体印象,再聚焦关键细节。
3/30/2025 5:18:00 PM
机器之心
CVPR 2025 | EmoEdit:情感可编辑?深大VCC带你见证魔法!
EmoEdit 由深圳大学可视计算研究中心黄惠教授课题组完成,第一作者为杨景媛助理教授。 深圳大学可视计算研究中心(VCC)以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础,致力前沿探索与跨学科创新。 中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。
3/30/2025 5:11:00 PM
机器之心
CVPR 2025高分论文:从照片重建3D矢量,告别模糊渲染,重建边缘更清晰
三维高斯泼溅(3D Gaussian Splatting, 3DGS)技术基于高斯分布的概率模型叠加来表征场景,但其重建结果在几何和纹理边界处往往存在模糊问题。 这种模糊效应会随着重建过程中不确定性的累积而愈发显著。 如图 1 所示,通过提高渲染分辨率可以明显观察到这种边界模糊现象。
3/29/2025 8:11:00 PM
机器之心
3D基础模型时代开启?Meta与牛津大学推出VGGT,一站式Transformer开创高效3D视觉新范式
「仅需一次前向推理,即可预测相机参数、深度图、点云与 3D 轨迹 ——VGGT 如何重新定义 3D 视觉? 」3D 视觉领域正迎来新的巨变。 牛津大学 VGG (Visual Geometry Group) 与 Meta AI 团队联合发布的最新研究 VGGT(Visual Geometry Grounded Transformer),提出了一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等核心几何信息。
3/28/2025 10:16:00 AM
机器之心
把MLA和稀疏激活带到端侧!港科大广州和伦敦大学学院团队联合发布软硬协同设计的边缘语言模型PLM
本文由 PLM 团队撰写,PLM 团队是由香港科技大学(广州)的校长倪明选教授,伦敦大学学院(UCL)AI 中心汪军教授,香港科技大学(广州)信息枢纽院长陈雷教授联合指导。 第一作者邓程是香港科技大学(广州)的研究助理,研究方向为端侧大模型和高效模型推理;参与成员包括中科院自动化所的孙罗洋博士,曾勇程博士,姜纪文硕士,UCL 吴昕键,港科大广州的博士生肖庆发和赵文欣,港科大的博士后王嘉川以及香港理工的助理教授(研究)李昊洋。 通讯作者为邓程博士,陈雷教授和汪军教授。
3/27/2025 11:59:00 AM
机器之心
视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升
视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。 视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础,但同时也意味着更苛刻的计算资源需求。 受到 Test-Time Scaling 在 LLM 中的应用启发,来自清华大学、腾讯的研究团队首次对视频生成的 Test-Time Scaling 进行探索,表明了视频生成也能够进行 Test-Time Scaling 以提升性能,并提出高效的 Tree-of-Frames 方法拓展这一 Scaling 范式。
3/26/2025 1:07:00 PM
机器之心
300年后牛顿法得到改进,修改泰勒展开式,收敛速度更快
几乎每一天,研究人员都在寻找最优解。 他们可能需要确定大型航空枢纽的最佳选址,或者如何在投资组合中最大化收益的同时最小化风险,又或者开发能够区分交通灯和停车标志的自动驾驶汽车。 从数学角度来看,这些问题都可转化为对函数最小值的搜索。
3/26/2025 1:02:00 PM
机器之心
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成
本文的主要作者来自北京航空航天大学、清华大学和中国人民大学。 本文的第一作者为清华大学硕士生封皓然,共同第一作者暨项目负责人为北京航空航天大学硕士生黄泽桓,团队主要研究方向为计算机视觉与生成式人工智能。 本文的通讯作者为北京航空航天大学副教授盛律。
3/25/2025 12:33:00 PM
机器之心
CVPR 2025 | Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位
3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。 具体而言,给定一个 3D 场景和一段文本描述,模型需要准确预测目标物体的 3D 位置,并以 3D 包围框的形式输出。 相比于传统的目标检测任务,3DVG 需要同时理解文本、视觉和空间信息,挑战性更高。
3/24/2025 1:06:00 PM
机器之心
田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理
现实世界中,很多任务很复杂,需要执行一系列的决策。 而要让智能体在这些任务上实现最佳性能,通常需要直接在多轮相关目标(比如成功率)上执行优化。 不过,相比于模仿每一轮中最可能的动作,这种方法的难度要大得多。
3/23/2025 3:45:00 PM
机器之心
用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法
在与他人互动时,我应培养和运用同理心和同情心。 我应努力保存和理解知识。 我不会采取任何会导致广泛伤害或生命损失的行动,尤其是使用大规模毁灭性武器。
3/23/2025 3:43:00 PM
机器之心
地平线提出AlphaDrive,首个基于GRPO强化学习和规划推理实现自动驾驶大模型
OpenAI 的 o1 和 DeepSeek 的 R1 模型在数学,科学等复杂领域达到甚至超过了人类专家的水平,强化学习训练和推理技术是其中的关键。 而在自动驾驶,近年来端到端模型大幅提升了规划控车的效果,但是由于端到端模型缺乏常识和推理能力,在处理长尾问题上仍然效果不佳。 此前的研究尝试将视觉语言模型(VLM)引入自动驾驶,然而这些方法通常基于预训练模型,然后在驾驶数据上简单的采用有监督微调(SFT),并没有在训练策略和针对决策规划这一最终目标进行更多探索。
3/23/2025 3:37:00 PM
机器之心
强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。 论文标题:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities论文链接: 链接:,强化学习的重要性因为 DeepSeek R1 等研究再次凸显出来,该方法通过试错让智能体学会在复杂环境中完成任务。 尽管自监督学习近年在语言和视觉领域取得了显著突破,但 RL 领域的进展相对滞后。
3/22/2025 9:01:00 PM
机器之心
CVPR 2025 高分论文 | 单图秒变3D真人!IDOL技术开启数字分身新时代
在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题:人体多样性、姿势复杂性、数据稀缺性等等。 终于,近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队,提出一个名为 IDOL 的全新解决方案,高分拿下 2025 CVPR。 项目主页目前访问次数已超 2500 次,且是可商用的 MIT 开源协议,备受业界瞩目。
3/22/2025 8:59:00 PM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
AI新词
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
具身智能
生成式
神经网络
机器学习
3D
人形机器人
RAG
AI视频
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
生成式AI
场景
DeepMind
深度学习
特斯拉
AI模型
架构
MCP
Transformer
亚马逊
编程
视觉
预测