模型

月之暗面「调教」出最强Agent，在「人类最后一场考试」拿下最新 SOTA

昨天，月之暗面发了篇博客，介绍了一款名为 Kimi-Researcher 的自主 Agent。这款 Agent 擅长多轮搜索和推理，平均每项任务执行 23 个推理步骤，访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建，并完全通过端到端智能体强化学习进行训练，也是国内少有的基于自研模型打造的 Agent。

6/23/2025 9:00:00 AM

7B智能体仅凭9个任务训练即超越R1！上交大打造AI-for-AI新范式

尽管人工智能（AI）在飞速发展，当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代，过程费时费力。这种以人为中心的方式已成为制约创新速度和通向通用人工智能（AGI）的关键瓶颈。为突破限制，AI-for-AI（AI4AI）应运而生。

6/23/2025 8:56:00 AM

监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

监督学习也能像强化学习一样进行“自我反思”了。清华大学与英伟达、斯坦福联合提出新的监督学习方案——NFT（Negative-aware FineTuning），在RFT（Rejection FineTuning）算法基础上通过构造一个“隐式负向模型” 来额外利用负向数据进行训练。这并不意味着使用“差数据”进行训练，而是在已知的模型计算结果前提下，通过负向数据训练正向模型，即“隐式负向策略（Implicit Negative Policy）”。

6/23/2025 8:52:00 AM

AI也会闹情绪了！Gemini代码调试不成功直接摆烂，马斯克都来围观

AI也会“闹自杀”了？一位网友让Gemini 2.5调试代码不成功后，居然得到了这样的答复——“I have uninstalled myself.”看上去还有点委屈是怎么回事（doge）。这事儿可是引起了不小的关注，连马斯克都现身评论区。

6/23/2025 8:50:00 AM

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

“边看边画，边画边想”，让大模型掌握空间思考能力，结果直接实现空间推理任务新SOTA。来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在包括迷宫导航、静态图像理解和视频空间推理等5个基准上平均提升18.4%。

6/23/2025 8:47:00 AM

蚂蚁开源轻量级MoE推理模型Ring-lite

近日，蚂蚁技术团队宣布正式开源其轻量级推理模型Ring-lite。该模型在多项推理榜单上取得了显著成绩，实现了轻量级推理模型的SOTA效果，再次验证了MoE架构的推理潜力。 Ring-lite以蚂蚁技术此前发布的Ling-lite-1.5为起点，该模型采用MoE架构，总参数为16.8B，但激活参数仅2.75B。

6/21/2025 5:01:05 PM AI在线

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

生成图像这件事，会推理的AI才是好AI。举个例子，以往要是给AI一句这样的Prompt：（3 6）条命的动物。我们人类肯定一眼就知道是猫咪，但AI的思考过程却是这样的：△虽然生成了猫，但思考过程不对思考的过程还是把“（3 6）”里的数字分开来处理，并没有真正get到其背后“九条命的动物=猫”的本意。

6/20/2025 2:37:59 PM

AI写完85%的代码！字节研发负责人和TRAE合作的首个项目官宣开源

创造一个AI Coding的产品，再用这个产品来做AI Coding是什么体验？未来的AI开发范式究竟是什么样子的，开发者 AI能够迸发出多大的创造力？也许字节跳动研发负责人洪定坤可以帮你回答这个问题。

6/20/2025 10:34:24 AM

Andrej 结合他在斯坦福、OpenAI 和特斯拉的工作经验，洞察到一个转变正在发生——软件正在再次经历变革。

今天凌晨4点30，微软首席执行官SatyaNadella分享了，微软在量子计算的重大技术突破成果4D拓扑量子纠错码。与2D相比，4D拓扑量子纠错码在编码效率、纠错能力、逻辑操作都非常出色，并且每个逻辑量子比特只需要极少的物理量子比特，可以一次性检查错误，并将错误率降低1000倍。同时，这项全新的量子计算成果将应用在微软的Azure Quantum量子计算平台中，加速科研、医疗的研发效率网友表示，这标志着一项重大进展，量子纠错长期以来一直是实现稳定、可扩展量子计算的主要瓶颈。

6/20/2025 9:23:53 AM

Andrej Karpathy最新演讲爆火！人类已进入「说话就能编程」的软件3.0时代

回顾 OpenAI 的早期成员，奥特曼成为 AI 浪潮的掌舵人之一，Ilya Sutskever 致力于探索 AI 安全的理想边界，而 Andrej Karpathy 则走上了一条「建造并分享」的道路。他痴迷于用代码将 AI 蓝图变为现实，又乐此不疲地把建造过程做成公开课分享给世界。所以，当他人在构建一家伟大的公司时，Karpathy 同时在构建着 AI 应用与下一代的 AI 建设者。

6/20/2025 9:19:19 AM

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。除了交流论文、互加好友，很多参会者还参加了个非常有意思的项目 —— 追星。这个「星」自然是学术明星。

6/20/2025 9:14:00 AM

惊天丑闻！OpenAI档案曝光，奥特曼捏造YC董事长身份，虚伪真面目被揭穿

今天，OpenAI发生了不少大事。比如就在深夜，他们放出了官方博客第一集，奥特曼亲自出镜，透露了GPT-5发布时间——今年夏天。果然，五花八门的大模型命名，不仅让用户们极为困扰，连OpenAI团队自己都十分纠结。

6/20/2025 9:12:00 AM

AI写爆款博客火出圈，主笔竟是Claude！

最近，Anthropic给自家AI开了个博客。这个叫「Claude Explain」的博客页面，内容主要由AI模型Claude生成。博客包括《用Claude简化复杂代码库》这种硬核主题，旨在秀一把AI的写作能力。

6/20/2025 9:06:00 AM

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。如今，这股 RL 的浪潮也涌向了图像生成领域。当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时，一个核心问题浮出水面：DPO 和 GRPO 在这个新战场上表现如何？

6/20/2025 9:06:00 AM

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

6/20/2025 9:03:00 AM

美团提出首个语音交互GUI智能体，端到端语音训练能力优于传统文本训练

只需要动动嘴就可以驱动GUI代理？由美团和浙江大学联合推出的GUIRoboTron-Speech——让用户解放双手，直接对计算机“发号施令”。这是首个能够直接利用语音指令和设备屏幕截图进行端到端（End-to-End）决策的自主GUI智能体，旨在为用户提供更直接、高效且无障碍的交互体验。

6/20/2025 9:00:00 AM

单应计算加速数十倍、计算量减少95%！基于几何的SKS和ACA矩阵分解被提出

本文由东华大学蔡棽副教授、上海交通大学严骏驰教授和中国科学院自动化所申抒含研究员共同指导并撰写，四名学生作者为东华大学视觉与几何感知实验室的吴展豪、郭凌希、王佳纯、张斯禹。一、论文简介东华大学、上海交通大学、中科院自动化所的研究团队最新提出：两种基于几何的单应矩阵分解，极大地减少了四点求解单应的计算量（相比目前通用的求解稀疏线性方程组方法减少 95% 以上），可在二维码扫描等典型视觉应用中显著减少计算消耗，并有望应用于其他射影几何、计算机视觉和图形学问题中。论文已被 IEEE T-PAMI 期刊接收。

6/20/2025 8:55:00 AM

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

这不是段子，而是正在发生的现象。大语言模型解决不等式证明问题时，可以给出正确答案，但大多数时候是靠猜。推理过程经不起推敲，逻辑完全崩溃。

6/20/2025 8:54:00 AM

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

模型

月之暗面「调教」出最强Agent，在「人类最后一场考试」拿下最新 SOTA

7B智能体仅凭9个任务训练即超越R1！上交大打造AI-for-AI新范式

监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

AI也会闹情绪了！Gemini代码调试不成功直接摆烂，马斯克都来围观

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

蚂蚁开源轻量级MoE推理模型Ring-lite

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

AI写完85%的代码！字节研发负责人和TRAE合作的首个项目官宣开源

Andrej 结合他在斯坦福、OpenAI 和特斯拉的工作经验，洞察到一个转变正在发生——软件正在再次经历变革。

Andrej Karpathy最新演讲爆火！人类已进入「说话就能编程」的软件3.0时代

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

惊天丑闻！OpenAI档案曝光，奥特曼捏造YC董事长身份，虚伪真面目被揭穿

AI写爆款博客火出圈，主笔竟是Claude！

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

美团提出首个语音交互GUI智能体，端到端语音训练能力优于传统文本训练

单应计算加速数十倍、计算量减少95%！基于几何的SKS和ACA矩阵分解被提出

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜ 斯坦福&伯克利&MIT

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT