AI在线 AI在线

模型

360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

2025 年 3 月 4 日,360 智脑开源了 Light-R1-32B 模型,以及全部训练数据、代码。 仅需 12 台 H800 上 6 小时即可训练完成,从没有长思维链的 Qwen2.5-32B-Instruct 出发,仅使用 7 万条数学数据训练,得到 Light-R1-32B,在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分,在数学评测上开源首次实现从零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。 一周前,360 智脑联合北大开源了 TinyR1-32B-Preview,从 DeepSeek-R1-Distill-Qwen-32B 训练,在数学、科学和代码上取得了接近 DeepSeek-R1 满血版的优异效果。
3/6/2025 10:00:00 AM
机器之心

重磅!阿里深夜推出全新推理模型,仅1/20参数媲美DeepSeek R1

就在刚刚,阿里Qwen 团队 正式发布了他们最新的研究成果 —— QwQ-32B 大语言模型! 这款模型不仅名字萌萌哒 (QwQ),实力更是不容小觑! 😎相信关注大模型领域的朋友们都知道,模型参数量的大小往往与性能成正比。
3/6/2025 9:55:49 AM
AI寒武纪

AI屠戮白领,大学文凭变「废纸」!美高中重开体力课,年薪40万不是梦

OpenAI首个NextGenAI联盟正式成立! 联盟汇聚了15家领先研究机构,包括Caltech、MIT、哈佛等顶尖学府,创始阵容堪称豪华。 其中,研究资助、计算资金和API访问权限都将由OpenAI负责提供,全力支持学生、教育工作者和研究人员探索AI前沿应用。
3/6/2025 9:30:00 AM
新智元

​阿里新开源推理大模型QwQ-32B,性能媲美DeepSeek-R1、显存需求更小

阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型(LLM)家族成员——QwQ-32B。 这款拥有320亿参数的推理模型,旨在通过强化学习(RL)提升在复杂问题解决任务上的性能。 据介绍,QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。
3/6/2025 9:17:00 AM
AI在线

一头大象难倒ChatGPT,Grok 3完美通关

ChatGPT新Bug引热议:无法画出“有0头大象的房间”。 要么会出现真实画风的大象,要么会出现玩具象,很多网友重复了很多次都是通用的结果。 假如后续追问“那图里右边灰色的东西是什么?
3/6/2025 9:10:00 AM
量子位

PyTorch灵魂人物出走,被Ilya奥特曼抢破头!放弃大厂offer,却选择了ChatGPT之母

PyTorch大牛Horace He突然官宣,加盟Thinking Machines。 「在Meta,离职时发布一张工牌照片是一种传统。 遗憾的是,我找不到我的正式工牌了,所以只能用临时工牌代替」毕业后,在Meta的PyTorch工作4年后,Horace He终于决定换一种职业,探索一些新的事物。
3/6/2025 9:00:00 AM
新智元

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」! 这一成就,再次让AI社区轰动。 博客地址::,能成功扩展到多模态推理领域吗?
3/6/2025 1:00:00 AM
新智元

为什么Qwen能自我改进推理,Llama却不行?斯坦福找到了原理

虽然 Qwen「天生」就会检查自己的答案并修正错误。 但找到原理之后,我们也能让 Llama 学会自我改进。 给到额外的计算资源和「思考」时间,为什么有的模型能好好利用,把性能提升一大截,而有的模型就不行?
3/5/2025 2:54:00 PM
机器之心

开源框架BioChatter助力生物医学研究,降低LLM使用门槛

近年来,大型语言模型(LLMs)在各个领域的应用日益广泛,从内容创作到编程辅助,再到搜索引擎优化,无不展现出其强大的能力。 然而,在生物医学研究中,这些模型的应用仍面临着透明度、可重复性和定制化等方面的挑战。 针对这一问题,海德堡大学与欧洲生物信息研究所(EMBL-EBI)联合提出了一个开源 Python 框架 ——BioChatter,旨在帮助生物医学研究人员更轻松地使用 LLMs。
3/5/2025 2:32:00 PM
AI在线

OpenAI开价385万年薪扩增机器人团队!招募基础模型人才,北大校友是创始成员

年薪最高53万美元,OpenAI机器人团队,叒叒叒招人了! 最新消息,OpenAI正在招募机器人底层技术模型开发人员,年薪29.5-53万美元(约合人民币214-385万)。 将这一消息广而告之的,是重启后的OpenAI机器人团队创始成员、卡内基梅隆大学华人博士林星宇。
3/5/2025 11:26:33 AM
量子位

硅基流动:下线部分未备案模型,用户请注意迁移

近日,硅基流动在其更新公告中宣布,为了进一步优化资源配置,提供更先进、优质、合规的技术服务,将于2025年3月6日对部分模型进行下线处理。 此次下线的模型主要为未经审查的国外模型,特别是生图模型,仅保留KColor。 请用户注意,如果之前接入了公告中提及的模型,务必在3月6日前完成迁移。
3/5/2025 10:00:25 AM
AI在线

为DeepSeek MoE模型带来「免费午餐」加速,专家链可大幅提升LLM的信息处理能力

我们都知道,DeepSeek-R1 的训练过程使用了一种名为专家混合模型(Mixture-of-Experts, MoE)的技术,而当前的 MoE 技术依然还有显著的优化空间。 近日,美国西北大学计算机科学博士生王子涵(Zihan Wang)等人在这个方向上取得了突破,提出了一种名为专家链(CoE)的技术。 实验表明,CoE 在性能、扩展策略、资源效率和专家使用效率等多个方面都显著超越先前的 MoE 模型。
3/5/2025 9:50:00 AM
机器之心

普特南数赛公布,MIT创5连冠神话!3位00后华人称霸TOP 5

普特南数学竞赛,结果出炉! MIT再次成为全世界的焦点,连续5年夺冠,5位本科生科横扫榜单TOP 5。 其中,有三位00后华人学生。
3/5/2025 9:40:00 AM
新智元

亚马逊研发新型推理人工智能模型,欲与OpenAI和Anthropic展开竞争

近日,有消息透露,亚马逊正在积极开发一种集成先进推理能力的人工智能模型。 这一新产品计划将在今年6月份以 Nova 品牌推出,Nova 是亚马逊去年年底发布的一系列生成式人工智能模型的一部分。 项目的相关人士表示,该模型旨在采用 “混合推理” 方法,能够在同一个系统中提供快速的回答以及更复杂的推理过程。
3/5/2025 9:23:00 AM
AI在线

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

基础模型竞争又紧张刺激起来了! GPT-4.5刚登顶竞技场且全任务分类第一名,6小时后总榜就被马斯克的新版Grok-3反超。 两者都是获得3000 票数,总分1412:1411只差一分。
3/5/2025 8:50:00 AM
量子位

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天? ? ?
3/5/2025 8:40:00 AM
量子位

实测字节免费AI编程,还让不让Cursor活了

国内首个原生AI IDE(集成开发环境),来自字节,实测在此:哪怕一点代码都不懂,只要能说出自己的需求,就能靠AI开发出一个功能完备的应用。 例如如果你想做一个Flappy Bird游戏,那就用中文跟它说一声就行:生成一个网页版 Flappy Bird游戏并运行。 不难看出啊,整个过程真真儿的就是一气呵成。
3/5/2025 8:30:00 AM
量子位

GPT-4.5崛起仅六小时便失宠,xAI Grok-3 逆袭夺冠

OpenAI 的 GPT-4.5模型在刚刚发布后的六小时内,成功登顶人工智能竞技场,并成为全任务分类的第一名。 然而,这一荣耀并未持续太久,马斯克的 xAI Grok-3模型迅速逆袭,反超成为总榜第一名。 根据投票数据显示,GPT-4.5与 Grok-3各自获得超过3000票,最终总分为1412对1411,仅差一分。
3/4/2025 2:24:00 PM
AI在线