模型

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

在大模型竞赛白热化的当下，「强化学习后训练」已成为突破LLM性能天花板的核心路径。爆火出圈的OpenAI o1、DeepSeek-R1等模型，背后都是依靠RL后训练点石成金。相较于预训练阶段的「广撒网」式知识获取，RL 后训练通过驱动模型与外部环境进行动态交互，直接塑造了LLM在复杂任务中的推理效能。

6/6/2025 8:55:00 AM

《圣经》成书时间或被改写！AI竟发现《死海古卷》早于所罗门时代

就在刚刚，科学家用AI重新定义了《死海古卷》历史时间线！许多卷轴其实比原先认为年代还要早很多，两卷《死海古卷》竟是《但以理书》的最早片段！研究还显示，《传道书》很可能由无名作者在公元前三世纪完成，而非传统所称的所罗门王！

6/6/2025 1:25:00 AM 新智元

OpenAI久违发了篇「正经」论文：线性布局实现高效张量计算

OpenAI 发论文的频率是越来越低了。如果你看到了一份来自 OpenAI 的新 PDF 文件，那多半也是新模型的系统卡或相关增补文件或基准测试，很少有新的研究论文。至于原因嘛，让该公司自家的 ChatGPT 来说吧：「截至目前，OpenAI 在 2025 年在 arXiv 上公开发布的论文数量相对较少，可能反映了其对研究成果公开策略的谨慎态度，可能出于商业保密或安全考虑。

6/5/2025 11:49:59 AM

ACL 2025 | 基于Token预算感知的大模型高效推理技术

本位作者分别来自南京大学，罗格斯大学和马萨诸塞大学阿默斯特分校。第一作者韩廷旭与共同第一作者王震霆是分别来自南京大学和罗格斯大学的博士生，研究方向聚焦于大模型推理以及安全负责任的生成式人工智能。通讯作者为南京大学房春荣教授。

6/5/2025 11:49:21 AM

OpenAI深夜宣布ChatGPT支持MCP、会议记录，万物互联时代来了！

今天凌晨1点，OpenAI开始技术直播对ChatGPT进行了重大更新，包括向macOS用户推出ChatGPT会议记录模式，可以转录任何会议、头脑风暴或语音笔记，并快速提取要点然后转化为新的内容。另外一个重要功能就是ChatGPT正式支持MCP协议，例如，直接连接Github、SharePoint、Gmail、Dropbox、Box、Outlook等常用工具，实现跨平台数据整合、搜索和推理。简单来说，OpenAI希望把ChatGPT打造成智能协作平台，在一个地方就把所有事情都做了。

6/5/2025 9:21:10 AM

奥特曼：假如给我一千倍算力，我会这样做

完美的人工智能是“一个拥有超人推理能力、1万亿个上下文标记并可以使用你能想到的所有工具的微型模型”。这是奥特曼在最新的访谈中对下一代模型的展望。他表示，理想中的AGI不需要包含知识——只需要思考、搜索、模拟和解决任何问题的能力。

6/5/2025 9:09:00 AM

陶哲轩再爆：一个月三破18年未解难题！AlphaEvolve彻底改写数学研究规则

数学界再次见证奇迹！一项沉睡了18年的难题，在一个月内竟被AI与人类联手三度突破！每一次都将我们对可能性的认知推向新高。

6/5/2025 9:06:00 AM

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

在具备强大的通用性能之后，当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」，比如数学问题、分析物理现象或是构建编程逻辑。要想达到更高的性能，除了海量文本的预训练之外，往往还需要进一步的后训练。主流后训练方法是采用强化学习（RL），特别是结合可验证奖励的强化学习（RLVR）。

6/5/2025 9:05:00 AM

爆火AI编程Windsurf突遭Claude全面断供，开发者大量退订！直接打脸OpenAI

即将抱上OpenAI这条大腿的Windsurf，高兴早了！刚刚，AI编程工具Windsurf的联创兼CEO Varun Mohan发文称，Anthropic几乎没有提前通知，就大幅减少了Windsurf对Claude 3.5和3.7 Sonnet模型的服务配额。由于事先毫无预警，Windsurf只能紧急启用第三方推理服务来维持Claude模型的使用，但短期内用户体验势必受到影响。

6/5/2025 8:58:00 AM

开启 AI 自主进化时代，普林斯顿Alita颠覆传统通用智能体，GAIA榜单引来终章

智能体技术日益发展，但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流，这极大限制了其创造力、可扩展性与泛化能力。近期，普林斯顿大学 AI Lab 推出了 Alita——一个秉持「极简即是极致复杂」哲学的通用智能体，通过「最小化预定义」与「最大化自我进化」的设计范式，让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。论文标题：ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION论文链接：：：目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩，一举超越 OpenAI Deep Research 和 Manus 等知名智能体，成为通用智能体新标杆。

6/5/2025 8:46:00 AM

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

来自清华大学交叉信息院和蚂蚁技术研究院的联合团队，正式开源全异步强化学习训练系统 —— AReaL-boba² (AReaL v0.3)。作为 AReaL 里程碑版本 AReaL-boba 的重磅升级，AReaL-boba² (正式全名：A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念，再次加量：除了更全的功能和更详细的文档说明，更以全异步 RL 为核心，发布 SOTA 代码模型，全面奔向 Agentic RL：🚀 效率再突破：全面实现异步 RL 训练，完全解耦模型生成与训练，效果不变的前提下训练速度对比上一版本最高提升 2.77 倍，GPU 资源利用率大幅优化。 📚 上手零门槛：新增详细教程 (Step-by-Step Tutorials) 和深度文档 (Comprehensive Documentation)，覆盖安装、核心概念、算法 / 模型定制化到问题排查，新手友好，老手高效。

6/5/2025 8:40:00 AM

英伟达发布 Llama Nemotron Nano VL AI：高效精准，攻克复杂文档解析难题

Llama Nemotron Nano VL 融合了 CRadioV2-H 视觉编码器和 Llama 3.1 8B 指令微调语言模型，能同时处理多页文档中的视觉和文本元素，支持最长 16K 的上下文长度，覆盖图像和文本序列。

6/5/2025 8:01:43 AM 故渊

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，有时甚至会让模型「同质化」加重，失去多样性。

6/4/2025 1:56:06 PM

冲击自回归，扩散模型正在改写下一代通用模型范式

上个月 21 号，Google I/O 2025 开发者大会可说是吸睛无数，各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中，Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来，这是一个采用了扩散模型的 AI 模型，而这个模型却并非我们通常看到的扩散式视觉生成模型，而是一个地地道道的语言模型！

6/4/2025 1:55:03 PM

Meta新突破！跨模态生成告别噪声：流匹配实现任意模态无缝流转

本文第一作者为刘启昊，约翰霍普金斯大学计算机科学博士四年级学生，师从 Alan Yuille 教授，研究方向涉及模型鲁棒性、生成模型与 3D 视觉。通讯作者为 Mannat Singh，Meta GenAI 研究员，近期的研究主要涉及视频生成领域创新工作，包括 Emu Video、MovieGen 等项目。在人工智能领域，跨模态生成（如文本到图像、图像到文本）一直是技术发展的前沿方向。

6/4/2025 1:53:57 PM

GPT-4o连验证码都解不了？SOTA模型成功率仅40%

当前最强多模态Agent连验证码都解不了？ MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA（人机验证）问题”的开放式研究平台——Open CaptchaWorld。该平台专门用于测试Agent解验证码的能力。

6/4/2025 1:53:22 PM

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

单张显卡，就能处理万帧视频输入，并且编码2048帧视频仅需12秒！国产开源模型又上大分，这次是在长视频理解领域：智源研究院联合上海交通大学等机构，正式发布新一代超长视频理解模型Video-XL-2。长视频理解是多模态大模型关键能力之一。

6/4/2025 1:51:43 PM

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

模型

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

《圣经》成书时间或被改写！AI竟发现《死海古卷》早于所罗门时代

OpenAI久违发了篇「正经」论文：线性布局实现高效张量计算

ACL 2025 | 基于Token预算感知的大模型高效推理技术

OpenAI深夜宣布ChatGPT支持MCP、会议记录，万物互联时代来了！

奥特曼：假如给我一千倍算力，我会这样做

陶哲轩再爆：一个月三破18年未解难题！AlphaEvolve彻底改写数学研究规则

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

爆火AI编程Windsurf突遭Claude全面断供，开发者大量退订！直接打脸OpenAI

开启 AI 自主进化时代，普林斯顿Alita颠覆传统通用智能体，GAIA榜单引来终章

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

英伟达发布 Llama Nemotron Nano VL AI：高效精准，攻克复杂文档解析难题

最新发现！每参数3.6比特，语言模型最多能记住这么多

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

冲击自回归，扩散模型正在改写下一代通用模型范式

Meta新突破！跨模态生成告别噪声：流匹配实现任意模态无缝流转

GPT-4o连验证码都解不了？SOTA模型成功率仅40%

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2