模型
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
DeepSeek啥都开源了,就是没有开源训练代码和数据。 现在,开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。 国内大模型六小强之一的阶跃星辰联与清华联合发布Open Reasoner Zero(ORZ),由AI大拿沈向洋、阶跃星辰创始人/CEO姜大昕、ResNet作者张祥雨等一众大佬亲自署名。
2/24/2025 8:40:00 AM
量子位
模型训练之数据集操作:矩阵变换
对神经网络技术有所了解的人应该都知道,要想训练一个高性能的神经网络模型,除了神经网络本身的设计之外,还一个非常重要的前提就是数据集的质量问题;因此,打造一个高质量的数据集就是一个必不可少的过程。 但具体怎么才能开发一个合格的数据集,这时就离不开对数据集的各种操作;而由于在神经网络中,数据的主要载体是多维数组,也就是矩阵;因此一般情况下,数据集的数据格式也会以矩阵的形式存在。 而学会对矩阵的操作就是一个必不可少的技能之一;下面我们就以MINST数据集为例,来简单介绍一下对数据集的操作过程。
2/24/2025 8:40:00 AM
AI探索时代
DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT
OpenAI o1和DeepSeek-R1靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢? 为此,来自港中文MMLab的研究者们提出了MME-CoT。 这是一个全面且专门用于评估LMMs中视觉推理能力的Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。
2/24/2025 8:30:00 AM
量子位
谷歌Fellow级大佬出走!17年老将吴永辉加盟字节,亲自操刀大模型研发
谷歌17年老将,正式加入字节跳动。 据报道,吴永辉博士已确认离职谷歌,加盟字节负责AI基础研究领域的工作。 他将在字节担任大模型团队Seed基础研究负责人,专注于大模型基础研究搜索、AI for Science科研工作,直接向CEO梁汝波汇报。
2/24/2025 8:15:00 AM
新智元
AI+C#落地指南:用SemanticKernel+本地模型开发智能应用
在人工智能快速发展的当下,将AI技术与传统编程语言相结合,成为了推动创新应用的重要途径。 C#作为一种广泛应用于企业级开发的编程语言,与微软的AI生态整合,尤其是借助SemanticKernel和本地模型,为开发者打开了全新的智能应用开发大门。 本文将深入探讨如何利用这些工具实现AI C#的落地,并通过开源项目示例,让你快速上手。
2/24/2025 2:00:00 AM
conan
DeepSeek R-1 能否解答这五道“刁钻”AI 问题?
每当有新的语言模型公开发布时,我总会忍不住拿它来做一些看似简单、实则暗藏难点的小测试。 我把这当作给模型做“压力测试”,用来检验它们在逻辑推理上到底行不行。 DeepSeek R-1 刚发布不久,就因为它是开源、且推理能力强大而备受关注。
2/24/2025 12:00:00 AM
dev
谷歌超硬核教科书来了!Jeff Dean带货揭Gemini训练秘籍:在TPU上scaling
由于深度学习的「黑箱」本性,从业者自我调侃道:如果说深度神经网络是现代版的「炼金术」,我们在古代就是「炼金术士」。 2018年5月3日, Science发表新闻,标题直指「炼金术」,强调加强AI的科学基础但这次的谷歌的团队,却有不一样的看法:在许多方面,深度学习仍然带有一定的「炼金术」色彩,但理解和优化模型性能并不一定如此——即使是在大规模环境下! 近日,谷歌DeepMind科学家Jacob Austint在X上, 发布了基于JAX和TPU的大模型Scaling教科书《How to Sacle Your Model》。
2/21/2025 1:45:00 PM
新智元
「卖铲子」也疯狂!美国「DeepSeek概念」AI初创,估值达33亿美元
放眼全球,最大的投资风口非AI莫属了。 昨日,美国明星初创Together AI宣布,已完成3.05亿美元B轮融资,总估值达到33亿美元。 Together AI表示,这项投资将加速他们在构建基于开源模型的现代AI应用,以及利用他们即将大规模部署的英伟达Blackwell GPU训练定制模型方面的领先地位,也能巩固他们作为首选AI云供应商的地位。
2/21/2025 1:40:00 PM
新智元
大模型扩展新维度:Scaling Down、Scaling Out
本文由悉尼大学计算机学院王云柯,李言蹊和徐畅副教授完成。 王云柯是悉尼大学博士后,李言蹊是悉尼大学三年级博士生,徐畅副教授是澳洲ARC Future Fellow,其团队长期从事机器学习算法、生成模型等方向的研究。 近年来, Scaling Up 指导下的 AI 基础模型取得了多项突破。
2/21/2025 1:20:00 PM
机器之心
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA
世界模型(World Model)作为近年来机器学习和强化学习的研究热点,通过建立智能体对其所处环境的一种内部表征和模拟,能够加强智能体对于世界的理解,进而更好地进行规划和决策。 在强化学习领域中,世界模型通常被建模为一个神经网络,通过历史状态和动作,预测未来可能出现的状态。 其中,Dreamer 算法在多种模拟环境的成功表现让我们看到了世界模型优秀的表征和泛化能力。
2/21/2025 1:00:00 PM
机器之心
阿里重回伟大!吴泳铭财报讲话全文曝光:开发者会天然选择阿里云,发布旗舰推理模型!未来三年,阿里对基础设施投资将超过去十年总和!
出品 | 51CTO技术栈(微信号:blog51cto)编辑 | 伊风昨晚,阿里2025财年Q3财报新鲜出炉,同比增长8%,可以说成绩相当亮眼! 淘天增收继续加快,阿里云增速重回加速状态,多项核心业务增速达到年内最佳。 财报显示:阿里第三季度营收增速创逾一年以来最快,资本开支大增,核心业务加速增长,淘天收入增长加快,阿里云收入重回双位数增长(13%),增幅创约两年以来最大,AI相关产品收入连续六季度保持三位数增长。
2/21/2025 12:40:19 PM
伊风
出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了
DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。 PPO 与 GRPO 的对比,来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》相较于 PPO,GRPO 去掉了价值模型,而是通过分组分数来估计基线,从而可极大减少训练资源。 DeepSeek-R1 技术报告中写到:「具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架来提高模型的推理性能。
2/21/2025 12:24:14 PM
机器之心
前OpenAI CTO 成立思维机器实验室
前OpenAI首席技术官Mira Murati宣布成立新的思维机器实验室(Thinking Machines Lab)。 主要有三个方向:帮助人们调整AI系统以满足他们的具体需求;开发坚实的基础以构建更强大的AI系统;培养开放科学的文化,帮助整个领域理解和改进这些系统。 以下是Thinking Machines Lab的官网介绍:思维机器实验室(Thinking Machines Lab)是一家人工智能研究与产品公司。
2/21/2025 11:00:00 AM
AIGC开放社区
两万字长文深度解密DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈?
刚刚过去的春节,DeepSeek-R1 推理大模型引爆了国内外 AI 社区,并火出了圈。 最近,各个行业又掀起了接入 DeepSeek 的狂潮,大家唯恐落后于人。 北大 AI 对齐团队对包括 DeepSeek-R1、Kimi-K1.5在内的一些强推理模型进行了 2 万字的技术解读,也是此前 o1 解读(北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式)的续作。
2/21/2025 10:34:49 AM
机器之心
谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用
去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。 该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。 2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。
2/21/2025 10:00:35 AM
Omar Sanseviero
再次颠覆学界想象,何恺明发表新作:扩散模型不一定需要噪声条件
一直以来,研究者普遍认为,去噪扩散模型要想成功运行,噪声条件是必不可少的。 而大神何恺明的一项最新研究,对这个观点提出了「质疑」。 「受图像盲去噪研究的启发,我们研究了各种基于去噪的生成模型在没有噪声调节的情况下的表现。
2/21/2025 9:40:00 AM
机器之心
谷歌豪华阵容打造AI科学家,用测试时间计算加速科学发现,CEO皮猜也来站台了
CEO皮猜亲自站台,谷歌的最新研究狠狠火了——为科学家群体推出“科研搭子”AI co-scientist,一个能够利用高级推理综合大量文献、生成新颖假设,并提出详细研究计划的多智能体AI系统。 划重点,该系统将与OpenAI o1/DeepSeek-R1相似的测试时间计算用来加速科学发现。 据皮猜介绍,这个系统已经在肝脏纤维化治疗、抗菌耐药性和药物再利用等重要研究领域取得了初步成果。
2/21/2025 9:20:00 AM
量子位
微软Muse秒生游戏登Nature,10亿级画面练出最强AI!千亿游戏市场重洗牌
同一天,微软放出两个核弹,首个拓扑量子芯片,还有首个世界与人类行动模型。 AI离数秒生成游戏视频的未来,又近了一步。 今天,微软团队首次引入了「世界与人类行动模型」(WHAM),并冠以希腊艺术女神「缪斯」(Muse)之名。
2/21/2025 8:44:06 AM
新智元
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用