AI在线 AI在线

数据

大模型训练新突破!“不对称”训练让AI学会自我反思,推理零开销

首次实现“训练-推理不对称”,字节团队提出全新的语言模型训练方法:Post-Completion Learning (PCL)。 在训练时让模型对自己的输出结果进行反思和评估,推理时却仅输出答案,将反思能力完全内化。 与目前主流的训练方式相比,这一创新方法不仅实现了模型能力的显著提升,更重要的是推理时完全零额外开销。
8/14/2025 9:00:00 AM

GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

别急着用GPT-5编程了,可能它能力没有你想象中那么强。 有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。 什么意思呢?
8/13/2025 8:50:00 AM

Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。 基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。 然而,随着模型参数的迅速膨胀,如何高效部署和推理成了新的挑战。
8/12/2025 8:55:00 AM

让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板

刚刚,全球最强开源医疗模型发布,来自中国。 百川开源最新医疗推理大模型Baichuan-M2-32B,在OpenAI发布的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。 不仅以小博大,而且领先除GPT5以外所有的开源闭源前沿模型。
8/11/2025 6:01:12 PM

从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?

本文由上海交通大学,上海人工智能实验室、北京航空航天大学、中山大学和商汤科技联合完成。 主要作者包括上海交通大学与上海人工智能实验室联培博士生康恒锐、温子辰,上海人工智能实验室实习生文思为等。 通讯作者为中山大学副教授李唯嘉和上海人工智能实验室青年科学家何聪辉。
8/11/2025 5:58:00 PM

代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenAI

最强开源深度研究模型来了。 MiroMind ODR(Open Deep Research),来自代季峰加盟陈天桥的技术首秀。 首先,它做到了性能最强,GAIA测试结果更是达到了82.4分,超过了一众开源闭源模型,其中包括Manus、OpenAI的DeepResearch。
8/11/2025 8:43:00 AM

震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头

昨晚十点,谷歌 DeepMind 重磅宣布其 Genie 世界模型系列正式来到了第 3 代。 「Genie 3 是我们突破性的世界模型,可以通过单个文本提示词创建交互式、可玩的环境。 从照片般逼真的风景到奇幻的境界,可能性无穷无尽。
8/6/2025 1:44:49 PM

哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!

Cluely创始人Roy Lee宣称,哥伦比亚大学几乎每位学生都使用AI工具作弊。 对此网友表示,「我上大学时,从未使用过AI。 那时候我们用的是脑子!
8/4/2025 9:08:00 AM

抗干扰能力提升近40% !无需对抗训练,北航上海AI Lab新蒸馏方法提升模型鲁棒性 | ICML 2025

在人工智能模型规模持续扩大的今天,数据集蒸馏(Dataset Distillation,DD)方法能够通过使用更少的数据,达到接近完整数据的训练效果,提升模型训练效率,降低训练成本。 但是,通过数据集蒸馏训练的模型,要在安全性要求比较高的任务中(如医疗诊断、自动驾驶),实现不受干扰并保持性能效果,还有一定难度。 来自北京航空航天大学、上海人工智能实验室和英国利物浦大学的研究团队,提出了名为ROME的新方法,这是首次将信息瓶颈理论引入数据集蒸馏任务。
7/29/2025 9:10:00 AM

CEO卷走24亿,二号员工血亏99%!30亿Windsurf梦碎内幕曝光

Prem Qu Nair可能刚刚度过了一生中最跌宕起伏的时光。 他是原Windsurf的2号员工。 为了继续探索软件工程的未来,他从谷歌DeepMind离职,加入了AI初创Cognition。
7/28/2025 9:09:00 AM

Hinton上海演讲:大模型跟人类智能很像,警惕养虎为患

深度学习之父、诺奖得主Hinton在中国的首次公开演讲,实录来了! 演讲主题是《数字智能是否会取代生物智能》。 主要观点如下:人类有可能就是大语言模型,人类也会和大语言模型一样有幻觉。
7/27/2025 6:08:51 PM

训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平

机器人能通过普通视频来学会实际物理操作了! 来看效果,对于所有没见过的物品,它能精准识别并按照指令完成动作。 比如清理桌面垃圾,或者是从零食筐里找到人类想要的糖果。
7/25/2025 3:22:20 PM

亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式

如何让机器人从看懂世界,到理解意图,再到做出动作,是具身智能领域当下最受关注的技术重点。 但真机数据的匮乏,正在使对应的视觉-语言-动作(VLA)模型面临发展瓶颈。 尽管业界已投入大量资源构建数据平台(如马斯克主导的“数据工厂”项目),现有真机数据规模仍较模型规模定律所需的上亿级训练样本相差三个数量级。
7/25/2025 9:31:49 AM

首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交等

近期,来自清华大学、上海交通大学、北京华控智加科技有限公司和华北电力大学的研究者联合发布首个多模态工业信号基座模型 FISHER,采用搭积木的方法对异质工业信号进行统一建模。 目前技术报告和权重均已开源,欢迎使用! 论文链接: 仓库:,越来越多的工业设备被安装上传感器以监控工作状态。
7/24/2025 11:38:40 AM

AI越训练,越会「满嘴跑火车」!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

你有没有觉得,AI有时候像在「满嘴跑火车」? GPT滔滔不绝抛出一堆看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么? 最近,一项重磅研究《Machine Bullshit》火了。
7/24/2025 10:43:46 AM

碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

今天凌晨1点,阿里巴巴开源了Qwen3系列新版本Qwen3-235B-A22B-2507。 比较意外的是,阿里已经停用了混合思考模型,新版Qwen3是一个非思维推理,又回到了指令微调模型,但性能非常强劲。 根据阿里公布的数据显示,新版Qwen3在知识、推理、代码、对齐、智能体、多语言测试6大类几十种测试基准中,全部大幅度超过了DeepSeek开源的新版V3-0324模型。
7/22/2025 10:43:25 AM

数百个虚拟人在线逃生!天大等发布:首个实时在线多智能体模拟方法

人群疏散模拟对于提高公共安全至关重要,也是构建逼真虚拟动态环境所需要的技术,其发展面临着复杂人类行为建模难的挑战。 现有的疏散模拟方法常以2D点表示人群,关注人群位置和轨迹,但忽略了复杂人类行为,如碰撞、交互、摔倒等,以及三维环境、个体行为能力的影响,导致模拟结果不真实。 而现有的三维运动生成方法和角色控制方法也无法同时保证实时性、合理性、个性化、动态感知、以及适用于任意场景和地形,如表1所示。
7/21/2025 11:51:58 AM

一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖

深度学习界的传奇论文,终于等来了它的“封神”时刻! 刚刚,ICML 2025会议上,2015年发表的Batch Normalization(批次归一化,简称BatchNorm)论文荣获时间检验奖。 这篇如今引用量超过6万次的开创性工作,是深度学习发展史上一个里程碑式的突破,极大地推动了深层神经网络的训练和应用。
7/16/2025 9:15:17 AM