模型

已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

字节对MoE模型训练成本再砍一刀，成本可节省40%！刚刚，豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。 COMET已应用于字节的万卡训练集群，在真实的生产环境中，累计帮助节省了数百万GPU小时。

3/11/2025 9:20:00 AM 量子位

LeCun最新访谈对DeepSeek一顿猛夸，还谈了AI发展需理解物理世界

3/11/2025 9:15:00 AM 量子位

Manus被破解了？曝出系统提示词和背后大模型，CTO也回复了

最近几天，一个叫「Manus」的通用 AI Agent 产品刷屏网络。它能完成复杂的文件处理、数据分析、代码编写等多种任务。刚上线不久，大家纷纷在线求购邀请码，都想亲自上手一试这个突然火起来的智能体。

3/11/2025 8:42:04 AM 机器之心

通俗讲解DeepSeek中的GRPO：强化学习里的神奇算法

在人工智能快速发展的时代，强化学习是其中的关键技术，它让机器能够像人一样，在不断尝试中学习怎么做是最好的。今天要讲的 GRPO（Group Relative Policy Optimization），也就是群体相对策略优化算法，是强化学习里非常厉害的存在。接下来，就带大家走进deepseek（Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升） GRPO 的奇妙世界，看看它到底是怎么回事。

3/11/2025 1:00:00 AM 大模型之路

具身智能新时代！VLA迎来最强基础模型Magma：UI导航、机器人操作全能

现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作，无法像人类一样与物理世界产生交互。视觉-语言-行动（VLA，Vision-Language-Action）模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体，能够在物理和数字环境中生成有意义的「具身行动」（embodied actions）以完成特定任务。图片由于二维数字世界和三维物理世界之间存在差异，现有的VLA模型通常对任务进行简化，导致多模态理解能力偏弱，在跨任务和跨领域的泛化能力上不够通用。

3/10/2025 1:31:28 PM

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

开源微调神器Unsloth带着黑科技又来了：上次更新把GRPO需要的内存见到了7GB，这次只需要5GB的VRAM，就能训练自己的推理模型Qwen2.5（1.5B），比上次要少2GB。这次彻底把推理模型训练显存打下来了！这次把GRPO训练推理模型的上下文变长10倍，同时需要的显存少了90%。

3/10/2025 1:11:26 PM 新智元

准博士生把导师履历论文输入ChatGPT，制成「AI评委」！顺利通过资格考试

美国学生发现了ChatGPT的创意新用途！ 2024年8月，渴望成为University of Colorado生物医学博士生的Adriana Ivich，面临着博士资格考试的挑战。在这场考试中，她不仅要详细阐述自己的研究计划，还得接受评审委员会的闭门「拷问」。

3/10/2025 9:55:00 AM 新智元

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

一个只有15亿参数的小模型，竟然能在相同token预算下挑战GPT-4o的性能！最近，CMU团队推出了「长度控制策略优化」（LCPO），它让AI的推理过程不再是「一刀切」，而是像个聪明管家，能根据任务需求灵活调整「思考」长度。无论是啃下复杂的数学难题，还是快速解答简单问题，这个名叫L1的模型都游刃有余。

3/10/2025 9:38:00 AM 新智元

Ilya错了？Scaling另有他用，ViT大佬力挺谷歌1000亿数据新发现

预训练Scaling Law到尽头了？ ViT大佬翟晓华（Xiaohua Zhai）并不这样认为，至少在多模态模型上并非如此。他公布了最新的关于多模态Scaling的最新见解，而训练数据达到了1000亿的规模！

3/10/2025 9:30:00 AM 新智元

精度效率双冠王！时序预测新范式TimeDistill：跨架构知识蒸馏，全面超越SOTA

如何在保证预测精度的同时降低计算成本，是时序预测应用面临的核心挑战。传统的时序预测模型（如基于Transformer或CNN的复杂结构）虽在精度上表现卓越，但计算开销往往难以满足实际部署需求。而轻量级MLP（多层感知器）虽然具备较高的推理速度，却常因建模能力不足，导致预测精度较低。

3/10/2025 9:22:00 AM 新智元

AI玩手机越玩越6！西湖大学发布新智能体：会自我进化的AppAgentX

人工智能正迎来前所未有的变革，其中，大语言模型（LLM）的崛起推动了智能系统从信息处理向自主交互迈进。以DeepSeek为代表的LLM，凭借强大的语言理解与推理能力，在文本创作、编程辅助、复杂任务规划等领域展现出卓越表现。然而，LLM的潜力远不止于文本生成，它们正在塑造一种全新的智能体形态——GUI代理（GUI Agents）。

3/10/2025 9:15:00 AM 量子位

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

GRPO训练又有新的工具链可以用，这次来自于ModelScope魔搭社区。随着DeepSeek-R1的成功出圈，其使用的GRPO算法受到了业界的广泛关注。 GRPO训练是来自于PPO算法的一种改进，旨在利用采样原理对value model进行简化，以增大训练的稳定性和可维护性。

3/10/2025 9:10:00 AM 量子位

让SFT重新伟大！CMU等华人学者提出全新「批判式微调」，媲美复刻版DeepSeek

模仿是传统语言模型训练的主要方式。 LLM在解决现实世界问题方面之所以表现出前所未有的性能，其中一项核心技术是监督微调（SFT）。在SFT的过程中，模型被要求模仿人类标注或合成的高质量回复，以增强通用指令遵循能力。

3/10/2025 9:00:00 AM 新智元

DeepSeek占比升至9.6%，稳居全球第二！「全球生成式AI行业趋势」发布

3/10/2025 8:55:00 AM 新智元

狂揽1.3亿美金！AlphaGo大神组队Gemini大牛，用RL打造超级智能，英伟达抢投

正如Ilya所说，AI的下一步，就是「超级智能」。近日，由DeepMind近12年老将、做出AlphaGo/AlphaZero/MuZero等项目的超级天才Ioannis Antonoglou，和Gemini强化学习的核心负责人Misha Laskin，联合成立的初创Reflection AI终于浮出了水面。 Reflection AI的目标十分明确——构建超级智能自主系统！

3/10/2025 8:38:00 AM 新智元

ICLR 2025 Spotlight |「免费」多模态信息助力3D小样本分割

该文章的第一作者安照崇，目前在哥本哈根大学攻读博士学位，导师为 Serge Belongie。他硕士毕业于苏黎世联邦理工学院（ETH Zurich），在硕士期间，他跟随导师 Luc Van Gool 进行了多个研究项目。他的主要研究方向包括场景理解、小样本学习以及多模态学习。

3/10/2025 8:25:00 AM 机器之心

Anthropic预测26年AI智力堪比诺奖得主！美国AI行动计划发布在即，五角大楼紧急布局

截止到2026-2027年，AI智力水平将达到诺奖级得主。 Anthropic最新长文，再次宣告，人类离超级智能体近在咫尺。报告地址：，CEO Dario Amodei在「Machines of Loving Grace」一文中，曾大胆预测——2026年底-2027年初，人类将见证强大AI系统诞生。

3/10/2025 7:30:00 AM 新智元

7B的DeepSeek蒸馏Qwen数学超o1！在测试时间强化学习，MIT积分题大赛考93分

见识过32B的QwQ追平671的DeepSeek R1后——刚刚，7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事？图片新方法LADDER，通过递归问题分解实现AI模型的自我改进，同时不需要人工标注数据。使Deepseek-R1蒸馏的Qwen2.5 7B模型在麻省理工学院积分大赛（MIT Integration Bee）上达到90分超越o1。

3/10/2025 1:00:00 AM

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉