理论
谷歌超硬核教科书来了!Jeff Dean带货揭Gemini训练秘籍:在TPU上scaling
由于深度学习的「黑箱」本性,从业者自我调侃道:如果说深度神经网络是现代版的「炼金术」,我们在古代就是「炼金术士」。 2018年5月3日, Science发表新闻,标题直指「炼金术」,强调加强AI的科学基础但这次的谷歌的团队,却有不一样的看法:在许多方面,深度学习仍然带有一定的「炼金术」色彩,但理解和优化模型性能并不一定如此——即使是在大规模环境下! 近日,谷歌DeepMind科学家Jacob Austint在X上, 发布了基于JAX和TPU的大模型Scaling教科书《How to Sacle Your Model》。
2/21/2025 1:45:00 PM
新智元
「卖铲子」也疯狂!美国「DeepSeek概念」AI初创,估值达33亿美元
放眼全球,最大的投资风口非AI莫属了。 昨日,美国明星初创Together AI宣布,已完成3.05亿美元B轮融资,总估值达到33亿美元。 Together AI表示,这项投资将加速他们在构建基于开源模型的现代AI应用,以及利用他们即将大规模部署的英伟达Blackwell GPU训练定制模型方面的领先地位,也能巩固他们作为首选AI云供应商的地位。
2/21/2025 1:40:00 PM
新智元
大模型扩展新维度:Scaling Down、Scaling Out
本文由悉尼大学计算机学院王云柯,李言蹊和徐畅副教授完成。 王云柯是悉尼大学博士后,李言蹊是悉尼大学三年级博士生,徐畅副教授是澳洲ARC Future Fellow,其团队长期从事机器学习算法、生成模型等方向的研究。 近年来, Scaling Up 指导下的 AI 基础模型取得了多项突破。
2/21/2025 1:20:00 PM
机器之心
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA
世界模型(World Model)作为近年来机器学习和强化学习的研究热点,通过建立智能体对其所处环境的一种内部表征和模拟,能够加强智能体对于世界的理解,进而更好地进行规划和决策。 在强化学习领域中,世界模型通常被建模为一个神经网络,通过历史状态和动作,预测未来可能出现的状态。 其中,Dreamer 算法在多种模拟环境的成功表现让我们看到了世界模型优秀的表征和泛化能力。
2/21/2025 1:00:00 PM
机器之心
蚕食人类权力不用AGI降临!「温水煮青蛙」足以让AI渐进式失控
在我们的认知中,政府、经济体系等大规模社会系统就应该由人类主导,产生满足人类偏好的结果。 但在AI时代,这个命题就逐渐站不住脚了。 原因在于,人类与这些系统的目标一致性并不是自发的,而是仰赖于两种有效维持目标对齐的方式:明确的人类行为(如选举和消费者用脚投票),以及经由人类劳动和认知过程隐式方式。
2/21/2025 12:58:02 PM
新智元
阿里重回伟大!吴泳铭财报讲话全文曝光:开发者会天然选择阿里云,发布旗舰推理模型!未来三年,阿里对基础设施投资将超过去十年总和!
出品 | 51CTO技术栈(微信号:blog51cto)编辑 | 伊风昨晚,阿里2025财年Q3财报新鲜出炉,同比增长8%,可以说成绩相当亮眼! 淘天增收继续加快,阿里云增速重回加速状态,多项核心业务增速达到年内最佳。 财报显示:阿里第三季度营收增速创逾一年以来最快,资本开支大增,核心业务加速增长,淘天收入增长加快,阿里云收入重回双位数增长(13%),增幅创约两年以来最大,AI相关产品收入连续六季度保持三位数增长。
2/21/2025 12:40:19 PM
伊风
出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了
DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。 PPO 与 GRPO 的对比,来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》相较于 PPO,GRPO 去掉了价值模型,而是通过分组分数来估计基线,从而可极大减少训练资源。 DeepSeek-R1 技术报告中写到:「具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架来提高模型的推理性能。
2/21/2025 12:24:14 PM
机器之心
“万模裸奔”,DeepSeek正颠覆网络安全行业游戏规则
对于企业而言,AI既是提升生产力的强大工具,同时也为攻击者和恶意内部人员提供了“大杀器”。 随着生成式AI(例如ChatGPT和DeepSeek)在企业和政府机构中的广泛应用和不安全部署,“万模裸奔”产生的数据安全风险已经到了失控的边缘。 2025年是AI安全元年,首席信息安全官(CISO)们必须提前做好准备,应对“万模裸奔”引发的数据安全危机。
2/21/2025 11:23:59 AM
佚名
OpenAI百万美元豪测:顶级大模型取代不了程序员
当Sam Altman宣称大模型将取代"低阶程序员"时,OpenAI自家的最新研究却给出了相反的答案。 该研究联合百名工程师开展SWE-Lancer基准测试,结果显示:面对价值百万美元的真实软件开发任务,三大顶尖大模型的总收入竟不足21%,最强者Claude 3.5也仅解决26%技术问题。 这场AI与人类程序员的"抢饭碗"对决,暂时以机器的惨败告终。
2/21/2025 11:08:46 AM
佚名
前OpenAI CTO 成立思维机器实验室
前OpenAI首席技术官Mira Murati宣布成立新的思维机器实验室(Thinking Machines Lab)。 主要有三个方向:帮助人们调整AI系统以满足他们的具体需求;开发坚实的基础以构建更强大的AI系统;培养开放科学的文化,帮助整个领域理解和改进这些系统。 以下是Thinking Machines Lab的官网介绍:思维机器实验室(Thinking Machines Lab)是一家人工智能研究与产品公司。
2/21/2025 11:00:00 AM
AIGC开放社区
马斯克发布Grok 3:20万GPU激发全球竞争新动力
2025年2月,埃隆·马斯克旗下的人工智能初创企业 xAI 正式发布了其最新大模型——Grok 3。 此次发布不仅标志着 xAI 在算力和推理能力上的重大突破,也预示着全球人工智能领域竞争格局的进一步洗牌。 颠覆性的算力升级据报道,Grok 3 的训练得益于其庞大的数据中心“Colossus”,该中心拥有约20万块英伟达 H100 GPU,相较于上一代 Grok 2,Grok 3 在计算资源上实现了10倍的飞跃。
2/21/2025 10:51:47 AM
不可错过的AI新闻
两万字长文深度解密DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈?
刚刚过去的春节,DeepSeek-R1 推理大模型引爆了国内外 AI 社区,并火出了圈。 最近,各个行业又掀起了接入 DeepSeek 的狂潮,大家唯恐落后于人。 北大 AI 对齐团队对包括 DeepSeek-R1、Kimi-K1.5在内的一些强推理模型进行了 2 万字的技术解读,也是此前 o1 解读(北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式)的续作。
2/21/2025 10:34:49 AM
机器之心
OpenAI周活跃用户突破4亿,高管称DeepSeek竞争并未影响产品路线图
尽管市场竞争愈发激烈,OpenAI的用户数量仍在持续攀升。 据OpenAI首席运营官布拉德·莱特卡普(Brad Lightcap)透露,截至今年2月,OpenAI的周活跃用户数已达到4亿,相较于2024年12月的3亿增长了33%。 这一数据此前并未对外公开。
2/21/2025 10:26:56 AM
佚名
人形机器人可能引发高风险全球对决
DeepSeek的R1出现震撼了市场,从美国股市抹去了超过1万亿美元,并在科技界引发了冲击波。 它让人工智能公司争先恐后地重新评估他们的战略,并对这些进步做出回应。 此次发布还突显出,美国和中国之间的人工智能竞赛比许多人预期的要激烈。
2/21/2025 10:14:59 AM
AI情报室
谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用
去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。 该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。 2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。
2/21/2025 10:00:35 AM
Omar Sanseviero
再次颠覆学界想象,何恺明发表新作:扩散模型不一定需要噪声条件
一直以来,研究者普遍认为,去噪扩散模型要想成功运行,噪声条件是必不可少的。 而大神何恺明的一项最新研究,对这个观点提出了「质疑」。 「受图像盲去噪研究的启发,我们研究了各种基于去噪的生成模型在没有噪声调节的情况下的表现。
2/21/2025 9:40:00 AM
机器之心
剧本自动生成3D动画!北航中大等提出新方法,破解多人交互难题 | ICLR 2025
设定一个3D场景,你便可以用文字编织你的剧情。 一句话,就能让两个人激烈争吵。 吵完之后,又温馨共舞起来~想怎么排就怎么排,就像影视拍摄或舞台剧的编排一样,只需在剧本中设定角色的行动、互动和环境要素,就能自动生成符合逻辑的3D角色动画,让你的剧情真正“动”起来。
2/21/2025 9:35:00 AM
量子位
想要提升 DeepSeek 回复质量,会这一招就够了(90%的人不知道)
今天继续介绍deepseek核心技术:反事实推理。 上一篇简要回顾:反事实推理,是一种通过构建与事实相反的假设性情景,探索因果关系和潜在结果的逻辑推理方法;反事实推理,有着严密的数学模型,属于因果推断第三层次:关联,干预,反事实;反事实推理,能帮deepseek突破数据量上限,加强结果解释性,提升回复丰富度;画外音:详见《deepseek凭啥能给出这么丰富的答案 - 反事实推理(上)》。 反事实推理,对我们写提示词,获取更佳的回答质量有什么启示呢?
2/21/2025 9:30:00 AM
58沈剑
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
AI模型
特斯拉
场景
深度学习
亚马逊
架构
Transformer
MCP
Copilot
编程
视觉