AI在线 AI在线

训练

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

朋友会离开你,兄弟会背叛你。 但数学不会,数学不会就是不会。 相信学不好高等数学的人,对上面这个梗深有感悟。
3/11/2025 1:42:19 PM
新智元

稚晖君机器人“葡萄缝针”神技再现江湖,这次是人形的!骑自行车惊呆众人:又抽象又硬核

刚刚! 鸽了两年之后,稚晖君罕见更新视频——上线号称史上最复杂项目灵犀X2,能够像人一样灵动地骑自行车。 评论区早已经是听取哇声一片。
3/11/2025 1:19:26 PM
量子位

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗? 近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。 并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。
3/11/2025 1:07:58 PM
机器之心

已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源

字节对MoE模型训练成本再砍一刀,成本可节省40%! 刚刚,豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。 COMET已应用于字节的万卡训练集群,在真实的生产环境中,累计帮助节省了数百万GPU小时。
3/11/2025 9:20:00 AM
量子位

LeCun最新访谈对DeepSeek一顿猛夸,还谈了AI发展需理解物理世界

LeCun最新访谈,对DeepSeek一顿猛夸。 他表示,DeepSeek是一项很出色的成果,它的开源不只是成果创造者受益,全世界都能从中受益。 不过LeCun也指出,金融市场对DeepSeek出现的反应,说什么“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这种说法是错误的。
3/11/2025 9:15:00 AM
量子位

精度效率双冠王!时序预测新范式TimeDistill:跨架构知识蒸馏,全面超越SOTA

如何在保证预测精度的同时降低计算成本,是时序预测应用面临的核心挑战。 传统的时序预测模型(如基于Transformer或CNN的复杂结构)虽在精度上表现卓越,但计算开销往往难以满足实际部署需求。 而轻量级MLP(多层感知器)虽然具备较高的推理速度,却常因建模能力不足,导致预测精度较低。
3/10/2025 9:22:00 AM
新智元

DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路

GRPO训练又有新的工具链可以用,这次来自于ModelScope魔搭社区。 随着DeepSeek-R1的成功出圈,其使用的GRPO算法受到了业界的广泛关注。 GRPO训练是来自于PPO算法的一种改进,旨在利用采样原理对value model进行简化,以增大训练的稳定性和可维护性。
3/10/2025 9:10:00 AM
量子位

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

模仿是传统语言模型训练的主要方式。 LLM在解决现实世界问题方面之所以表现出前所未有的性能,其中一项核心技术是监督微调(SFT)。 在SFT的过程中,模型被要求模仿人类标注或合成的高质量回复,以增强通用指令遵循能力。
3/10/2025 9:00:00 AM
新智元

自己训练模型才能掌握未来?一股脑押注应用层或许值得警惕

「所有投资者都在押注应用层…… 对训练能力存在强烈的负面偏见…… 我担心这是一场冒险赌注和市场误判。 」这是一篇标题为「The Model is the Product(模型即产品)」的文章的主要观点。 文章指出,当前很多企业都以集成商的形式在提供 AI 服务,也就是调用 OpenAI、Anthropic 等大公司模型的 API。
3/8/2025 3:31:00 PM
机器之心

Light-R1-32B:低成本高性能的数学解题新星闪耀登场

2025年3月6日,一款名为 **Light-R1-32B** 的全新语言模型正式亮相。 这款基于 **Qwen2.5-32B-Instruct** 模型打造的数学解题利器,经过特别训练,以其卓越的数学解题能力、低廉的训练成本以及可复现性,成为人工智能领域的一大亮点。 开发团队xAI表示,Light-R1-32B不仅在性能上超越同类模型,还为学术研究和实际应用提供了极具价值的参考。
3/7/2025 10:00:29 AM
AI在线

360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

2025 年 3 月 4 日,360 智脑开源了 Light-R1-32B 模型,以及全部训练数据、代码。 仅需 12 台 H800 上 6 小时即可训练完成,从没有长思维链的 Qwen2.5-32B-Instruct 出发,仅使用 7 万条数学数据训练,得到 Light-R1-32B,在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分,在数学评测上开源首次实现从零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。 一周前,360 智脑联合北大开源了 TinyR1-32B-Preview,从 DeepSeek-R1-Distill-Qwen-32B 训练,在数学、科学和代码上取得了接近 DeepSeek-R1 满血版的优异效果。
3/6/2025 10:00:00 AM
机器之心

AI屠戮白领,大学文凭变「废纸」!美高中重开体力课,年薪40万不是梦

OpenAI首个NextGenAI联盟正式成立! 联盟汇聚了15家领先研究机构,包括Caltech、MIT、哈佛等顶尖学府,创始阵容堪称豪华。 其中,研究资助、计算资金和API访问权限都将由OpenAI负责提供,全力支持学生、教育工作者和研究人员探索AI前沿应用。
3/6/2025 9:30:00 AM
新智元

为DeepSeek MoE模型带来「免费午餐」加速,专家链可大幅提升LLM的信息处理能力

我们都知道,DeepSeek-R1 的训练过程使用了一种名为专家混合模型(Mixture-of-Experts, MoE)的技术,而当前的 MoE 技术依然还有显著的优化空间。 近日,美国西北大学计算机科学博士生王子涵(Zihan Wang)等人在这个方向上取得了突破,提出了一种名为专家链(CoE)的技术。 实验表明,CoE 在性能、扩展策略、资源效率和专家使用效率等多个方面都显著超越先前的 MoE 模型。
3/5/2025 9:50:00 AM
机器之心

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

用户已经习惯于将大模型如ChatGPT、Llama-3-chat等当作聊天对象,然而在用户和聊天助手的会话中,有的用户提示(例如一些命令或请求)不能在一轮会话中结束,需要大语言模型和用户进行多轮会话。 这种跨越多轮的会话目前仍然存在一些问题:大语言模型的回答容易出错,不能帮助用户达到目标,且随着会话轮数增加出错概率会增大。 对同一个命令或问题,大语言模型比较难以根据实际需求产生不同流程的响应,在需要大语言模型与环境交互时,目前比较流行的做法是使用函数调用或工具调用,但不够优雅和高效,而且由于上下文窗口的限制,能支持的工具调用数量有限。
3/5/2025 4:00:00 AM
新智元

智谱发布首个能生成汉字的开源文生图模型CogView4

2025年3月4日,北京智谱华章科技有限公司宣布推出首个支持生成汉字的开源文生图模型——CogView4。 该模型在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的SOTA(State of the Art),并遵循Apache2.0协议,是首个支持该协议的图像生成模型。 CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,并能生成任意分辨率的图像。
3/4/2025 1:39:00 PM
AI在线

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

LLM评估基准的「黄金标准」,正在失效? 一大早,AI大神Karpathy发出质疑,「目前存在一种评估危机,我真的不知道现在该看哪些指标了」。 诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准,各有自己的优劣之处。
3/4/2025 8:40:00 AM
新智元

LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

对物理的直观理解是人类认知的基础:期望物体的行为,具有可预测性,也就是说,物体不会突然出现或消失,穿过障碍物,或随意改变形状或颜色。 这种对物理的直观理解,还在更多物种中得到证实,包括猴子、鲸鱼、乌鸦等。 相关研究人员猜测:人类天生或婴幼儿时期就具备一套进化形成的、古老的系统,专门用于表示和推理世界的基本属性,比如物体、空间、数字、几何形状等。
3/3/2025 9:22:00 AM
新智元

字节视频生成新突破!Phantom搞定多人物/主体一致性

视频生成模型当中已经不缺强者了,但保持多主体一致性依然是一项重大挑战。 字节智能创作团队专门针对这个问题,推出了主体一致性视频生成模型Phantom(“幻影”)。 Phantom在主体一致性保持方面取得了突破性进展,不仅支持多主体,还能同时保持主体的完整性。
3/3/2025 8:32:00 AM
量子位