训练
我为马斯克扮演机器人!擎天柱背后竟是最贵「演员团」
万圣节当天,特斯拉擎天柱(Optimus)亮相纽约时代广场,为现场观众分发糖果。 在特斯拉餐厅里,它还为马斯克卖苦力,亲自为顾客递上了一份爆米花。 这些光鲜演示的背后,是由一支血肉之躯组成的「数据大军」在默默支撑。
11/4/2025 8:39:35 AM
断网后才发现脑子空空?132页论文实证:「脑腐」或成AI头号内伤
所有人都在加速拥抱AI,却几乎没人追问:它把我们的大脑变成什么? X用户Alex Prompter,刚啃完了一篇132页的研究,结论足以让任何创作者、营销人、创业者后背发凉。 独立研究人员、高级项目经理Rénald Gesnot,从认知、社会、伦理与哲学等多维视角审视AI如何重塑人的思维。
11/3/2025 9:05:00 AM
字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!
用鼠标和键盘打游戏的智能体,这就来了! 它不仅能在《我的世界》中和普通玩家一较高下。 还能玩《神庙逃亡》、《星露谷》,甚至可以在未见过的3D网页游戏中实现零样本迁移。
10/31/2025 8:51:00 AM
阿里新研究:统一了VLA和世界模型
如果说视觉让AI看见世界,动作让AI改变世界,那么——WorldVLA正在让AI理解世界。 顾名思义,WorldVLA是一个将视觉语言动作模型(VLA)与世界模型相融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出。 在该框架下,世界模型通过结合对动作与图像的理解来预测未来图像,旨在学习环境的潜在物理规律,以提升动作生成的准确性;动作模型则基于图像观测生成后续动作,不仅有助于视觉理解,还反向促进世界模型的视觉生成能力。
10/30/2025 8:53:34 AM
MetaAI解锁Transformer潜意识,仅额外3%计算开销,性能提升最高55%
Meta FAIR部门的研究员François Fleuret发布了一篇名为《The Free Transformer》的论文,提出了一种对现有解码器Transformer模型的精妙扩展。 这项技术的核心,是让模型在生成每个字之前,能先在内部形成一个类似计划或草稿的隐性决策,而不是像过去那样,只能边写边想。 实验证明,这种先计划,后执行的模式,在编程、数学和推理等任务上带来了显著的性能提升。
10/29/2025 4:20:57 PM
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。 然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:训练复杂性:VAE旨在将高维图像压缩至低维隐空间,并能从中重建图像。 但其训练过程需要在压缩率和重建质量之间取得精妙平衡,本身就极具挑战。
10/29/2025 4:06:10 PM
推理时扰动高熵词,增强LLM性能
本文第一作者杨震,香港科技大学(广州)博士生,研究方向是多模态理解与生成等。 本文通讯作者陈颖聪,香港科技大学(广州)助理教授,主要研究课题包括生成模型、具身智能等。 随着对大语言模型的研究越来越深入,关于测试时间扩展 (test-time scaling) 的相关研究正迅速崭露头角。
10/29/2025 9:25:34 AM
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。 在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。
10/28/2025 9:09:51 AM
相机参数秒变图片!新模型打通理解生成壁垒,支持任意视角图像创作
能看懂相机参数,并且生成相应视角图片的多模态模型来了。 来自S-Lab、新加坡南洋理工大学、商汤科技、美国密歇根大学、德国马普所的研究员提出了Puffin统一多模态模型。 它能整合理解相机参数(如角度、视野)与按相机参数生成对应视角图片的能力。
10/28/2025 8:30:00 AM
均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事
当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。 从数学解题到代码生成,RLVR本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑——但现实是,以GRPO为代表的主流方法正陷入「均值优化陷阱」。 这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。
10/24/2025 1:04:00 PM
倒计时18个月!微软AI CEO爆料:类人意识AI或将降临
AI可能产生意识吗? 如果可能,大概会在什么时间? 微软AI CEO Mustafa Suleyman认为有可能诞生「看似有意识的AI」,而且最快可能在18个月内出现:未来5年很有可能,18个月内也有一定可能性。
10/24/2025 10:13:37 AM
Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识
Transformer可以说整个LLM的基石,但这个基石要松动了! 8年了! 持续了8年的Transformer底层架构似乎要被Meta打破了。
10/24/2025 10:10:22 AM
田渊栋被裁后新offer排到法国!原来Llama 4.5训完后被卸磨杀驴了
硅谷真是干啥都迅猛啊! 裁员也是……量子位刚刚从Meta一线获悉,田渊栋前脚刚发了推文说自己被裁,后脚就被解除了公司内部各种权限——嘿,亚历山大王的刀,就是这么快。 这也是这次裁员中最具争议的地方,“在Meta工作已超过十年的田渊栋和他的组员,整组被一锅端了”,这是为什么?
10/24/2025 9:31:42 AM
无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」
长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。 然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE Diffusion」的范式在训练与推理效率上也存在显著瓶颈。 清华大学智能视觉团队和快手可灵团队联合推出《Latent Diffusion Model without Variational Autoencoder》与近期爆火的谢赛宁团队 RAE 工作不谋而合,但在总体设计思路与研究重点上有所差异。
10/23/2025 4:56:40 PM
OpenAI秘密项目曝出!百名投行精英密训AI,华尔街最贵苦力要失业了?
AI先是找上程序员,现在轮到银行分析师了。 下一个华尔街的培训基地可能是一个提示库! 刚刚,OpenAI内部一个秘密项目曝出!
10/23/2025 9:26:41 AM
AGI前夜重磅:RL突破模型「认知上限」,真·学习发生了!
在AI研究圈,一个核心争论是:强化学习(RL)是否能够赋予模型超越其基础模型(base model)的推理能力。 怀疑派观点:早在四月份,清华的黄高团队[arXiv:2504.13837]指出,尽管经过 RLVR 训练的模型在较小的采样值 (k)(例如 (k=1))时能优于其基础模型,但当采样数较大时,基础模型往往能取得相同或更好的 pass@k 表现。 他们通过覆盖率(coverage)和困惑度(perplexity)分析推断,模型的推理能力最终受限于基础模型的支持范围。
10/22/2025 8:56:05 AM
宇树最新机器人发布:1米8大高个,能跳舞会功夫,就是颜值一言难尽
宇树第四款人形机器人,Unitree H2转着圈圈来了! 这款新品身高180厘米,体重70公斤,比同身高的H1机器人重了足足23公斤。 宽肩窄腰,意味着电池和控制板都必须塞进它小小的胸膛。
10/21/2025 8:43:00 AM
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」
本文一作曹嘉航,香港大学在读博士生,前北京人形机器人创新中心实习生;共同一作黄翊泽,上海交通大学在读本科生;通讯导师 Andrew F. Luo,香港大学助理教授。 在机器人学习领域,提升基于生成式模型的控制策略(Policy)的性能通常意味着投入巨额成本进行额外的数据采集和模型训练,这极大地限制了机器人能力的快速迭代与升级。
10/20/2025 9:07:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
AI新词
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
腾讯
Claude
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
研究
AI视频
大语言模型
生成
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
场景
深度学习
架构
生成式AI
DeepMind
编程
视觉
Transformer
预测
亚马逊
AI模型
MCP
伟达