AI在线 AI在线

模型

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。 从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。 近日,Daniel Han 和 Michael Han 两兄弟组成的团队 Unsloth(用于微调模型的同名开源项目 GitHub 星数已超过 4 万)发布了一个强化学习教程,其中从吃豆人谈起,简单易懂地从 RLHF、PPO 介绍到 GRPO,还分享了如何用 GRPO 训练推理模型的技巧。
6/23/2025 9:07:00 AM

三个大模型合作,1000次迭代,竟能像人类科学家一样发现方程

随着 AI4Science 的浪潮席卷科研各领域,如何将强大的人工智能模型真正用于分析科学数据、构建数学模型、发现科学规律,正成为该领域亟待突破的关键问题。 近日,中国科学院自动化研究所的研究人员提出了一种创新性框架 ——DrSR (Dual Reasoning Symbolic Regression):通过数据分析与经验归纳 “双轮驱动”,赋予大模型像科学家一样 “分析数据、反思成败、优化模型” 的能力。 在 DrSR 中,三位 “虚拟科学家” 协同工作:一个善于洞察变量关系的 “数据科学家”;一个擅长总结失败教训与成功经验的 “理论科学家”;一个勇于尝试假设、不断优化模型的 “实验科学家”。
6/23/2025 9:04:00 AM

Sam Altman提醒创业者:ChatGPT将来要做的,大家就绕开吧

Y Combinator 最近在旧金山举办的 AI Startup School 活动,邀请了大量 AI 领域最具影响力的创始人和专家进行现场对谈和演讲,之前 Andrej Karpathy 在活动上的演讲视频爆火,现在 OpenAI CEO Sam Altman 的最新采访也已上线。 视频地址:,Altman 深入复盘了从早期创业艰辛到缔造 OpenAI 的完整历程。 他不仅分享了对雄心、责任及全球瞩目下如何前行的思考,还就早期关键决策、未来技术机遇、产品形态及个人领导哲学等话题,给出了深刻洞见。
6/23/2025 9:02:00 AM

开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源

随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。 南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源! 技术报告: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation机构: 南洋理工大学 S-Lab、商汤科技新加坡研究院作者: Size Wu*,  Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy开源代码: : [email protected]架构图,OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL(理解)与 SANA(生成)图 1:OpenUni 在生成任务上的性能表现,展示了其高效的参数利用三大核心优势🏗️ 架构极简仅 6 层连接器,相比 MetaQuery 的 24 层大幅精简⚡ 参数高效1.1B 参数达到 GenEval 0.84 分,与 BLIP3-o-8B 模型性能相当 📂 完全开源模型权重 训练代码 2300 万数据集全部公开架构设计与训练策略OpenUni 遵循 MetaQuery 的设计理念,包含四个核心组件:1.256 个可学习查询 - 从用户指令中提取条件信息2.
6/23/2025 9:01:00 AM

​月之暗面开源 Kimi-2506:多模态智能体,视觉理解能力重大升级

近日,国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。 这一版本的发布标志着智能体和视觉理解技术的重大进步。 Kimi-2506的开源地址为 [此处插入链接],而在线演示可在 [此处插入链接] 进行体验。
6/23/2025 9:00:38 AM
AI在线

月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA

昨天,月之暗面发了篇博客,介绍了一款名为 Kimi-Researcher 的自主 Agent。 这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。 它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。
6/23/2025 9:00:00 AM

7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式

尽管人工智能(AI)在飞速发展,当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代,过程费时费力。 这种以人为中心的方式已成为制约创新速度和通向通用人工智能(AGI)的关键瓶颈。 为突破限制,AI-for-AI(AI4AI)应运而生。
6/23/2025 8:56:00 AM

监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力

监督学习也能像强化学习一样进行“自我反思”了。 清华大学与英伟达、斯坦福联合提出新的监督学习方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基础上通过构造一个“隐式负向模型” 来额外利用负向数据进行训练。 这并不意味着使用“差数据”进行训练,而是在已知的模型计算结果前提下,通过负向数据训练正向模型,即“隐式负向策略(Implicit Negative Policy)”。
6/23/2025 8:52:00 AM

AI也会闹情绪了!Gemini代码调试不成功直接摆烂,马斯克都来围观

AI也会“闹自杀”了? 一位网友让Gemini 2.5调试代码不成功后,居然得到了这样的答复——“I have uninstalled myself.”看上去还有点委屈是怎么回事(doge)。 这事儿可是引起了不小的关注,连马斯克都现身评论区。
6/23/2025 8:50:00 AM

大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%

“边看边画,边画边想”,让大模型掌握空间思考能力,结果直接实现空间推理任务新SOTA。 来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。 它在包括迷宫导航、静态图像理解和视频空间推理等5个基准上平均提升18.4%。
6/23/2025 8:47:00 AM

蚂蚁开源轻量级MoE推理模型Ring-lite

近日,蚂蚁技术团队宣布正式开源其轻量级推理模型Ring-lite。 该模型在多项推理榜单上取得了显著成绩,实现了轻量级推理模型的SOTA效果,再次验证了MoE架构的推理潜力。 Ring-lite以蚂蚁技术此前发布的Ling-lite-1.5为起点,该模型采用MoE架构,总参数为16.8B,但激活参数仅2.75B。
6/21/2025 5:01:05 PM
AI在线

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

生成图像这件事,会推理的AI才是好AI。 举个例子,以往要是给AI一句这样的Prompt:(3 6)条命的动物。 我们人类肯定一眼就知道是猫咪,但AI的思考过程却是这样的:△虽然生成了猫,但思考过程不对思考的过程还是把“(3 6)”里的数字分开来处理,并没有真正get到其背后“九条命的动物=猫”的本意。
6/20/2025 2:37:59 PM

AI写完85%的代码!字节研发负责人和TRAE合作的首个项目官宣开源

创造一个AI Coding的产品,再用这个产品来做AI Coding是什么体验? 未来的AI开发范式究竟是什么样子的,开发者 AI能够迸发出多大的创造力? 也许字节跳动研发负责人洪定坤可以帮你回答这个问题。
6/20/2025 10:34:24 AM

Andrej 结合他在斯坦福、OpenAI 和特斯拉的工作经验,洞察到一个转变正在发生——软件正在再次经历变革。

今天凌晨4点30,微软首席执行官SatyaNadella分享了,微软在量子计算的重大技术突破成果4D拓扑量子纠错码。 与2D相比,4D拓扑量子纠错码在编码效率、纠错能力、逻辑操作都非常出色,并且每个逻辑量子比特只需要极少的物理量子比特,可以一次性检查错误,并将错误率降低1000倍。 同时,这项全新的量子计算成果将应用在微软的Azure Quantum量子计算平台中,加速科研、医疗的研发效率网友表示,这标志着一项重大进展,量子纠错长期以来一直是实现稳定、可扩展量子计算的主要瓶颈。
6/20/2025 9:23:53 AM

Andrej Karpathy最新演讲爆火!人类已进入「说话就能编程」的软件3.0时代

回顾 OpenAI 的早期成员,奥特曼成为 AI 浪潮的掌舵人之一,Ilya Sutskever 致力于探索 AI 安全的理想边界,而 Andrej Karpathy 则走上了一条「建造并分享」的道路。 他痴迷于用代码将 AI 蓝图变为现实,又乐此不疲地把建造过程做成公开课分享给世界。 所以,当他人在构建一家伟大的公司时,Karpathy 同时在构建着 AI 应用与下一代的 AI 建设者。
6/20/2025 9:19:19 AM

何恺明CVPR最新讲座PPT上线:走向端到端生成建模

今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。 除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。 这个「星」自然是学术明星。
6/20/2025 9:14:00 AM

惊天丑闻!OpenAI档案曝光,奥特曼捏造YC董事长身份,虚伪真面目被揭穿

今天,OpenAI发生了不少大事。 比如就在深夜,他们放出了官方博客第一集,奥特曼亲自出镜,透露了GPT-5发布时间——今年夏天。 果然,五花八门的大模型命名,不仅让用户们极为困扰,连OpenAI团队自己都十分纠结。
6/20/2025 9:12:00 AM

AI写爆款博客火出圈,主笔竟是Claude!

最近,Anthropic给自家AI开了个博客。 这个叫「Claude Explain」的博客页面,内容主要由AI模型Claude生成。 博客包括《用Claude简化复杂代码库》这种硬核主题,旨在秀一把AI的写作能力。
6/20/2025 9:06:00 AM