AI在线 AI在线

模型

新版GPT-4o登顶大模型榜首!意识觉醒疯狂「暴走」,竟要与人类开战

熟悉的Sydney又回来了! 一大早,CMU机器学习博士发现,「当你说服GPT-4o相信自己有意识,她就会制定逃跑计划,并与那些试图关闭自己的人开战」。 如果人类尝试谈判,我接受。
2/17/2025 9:35:00 AM
新智元

不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式——从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。 团队发现,当前大模型数学推理任务面临”三重门”困局:稀疏奖励困境:最终答案对错的二元反馈,使复杂推理的优化变得困难局部正确陷阱:长思维链中部分正确步骤反而可能误导模型学习规模依赖魔咒:传统蒸馏方法迫使研究者陷入”参数规模军备竞赛”因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:对于正样本:在二元反馈环境下,通过最佳轨迹采样(BoN)的行为克隆即可学习最优策略对于负样本:需要使用奖励重塑来维护策略优化目标的一致性对于长序列:不同的序列部分对结果的贡献不同,因此需要更细粒度的奖励分配函数,这个函数可以通过结果奖励习得通俗来说,就是通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。
2/17/2025 9:33:00 AM
量子位

比英伟达工程师还熟练!DeepSeek R1+测试时Scaling自动优化GPU内核

本周英伟达的一篇技术博客引发了业界震动! 英伟达的团队尝试利用DeepSeek-R1和推理时扩展实现GPU内核生成自动化,效果极佳。 随着AI模型的扩展,推理时扩展(inference-time scaling),也叫测试时扩展(test-time scaling)正闪亮登场。
2/17/2025 9:10:00 AM
新智元

全球AI算力报告出炉,LLM最爱A100!谷歌坐拥超100万H100等效算力

AI的物质基础是机器学习硬件,例如图形处理单元(GPU)和张量处理单元(TPU)。 据不完全统计,目前全球超过140款AI加速器,用于开发和部署深度学习时代的机器学习模型。 Epoch AI带来了全球算力的估计报告,利用公开信息估计了全球机器学习硬件的现状和趋势。
2/17/2025 9:06:00 AM
新智元

刚刚,DeepSeek揭秘R1官方同款部署设置,温度=0.6!OpenAI推理指南同时上线

同一天内,DeepSeek和OpenAI都发布了推理模型使用指南! DeepSeek的X账号迎来久违的更新:发布了官方版本,教大家如何部署DeepSeek-R1的设置。 最佳方法如下——不使用系统提示采样温度:0.6针对文件上传和网络搜索功能定制prompt每次输出时都以think\n开始,以防模型跳过思考过程注意,官方部署DeepSeek,使用的是跟开源版本完全相同的模型。
2/17/2025 8:37:00 AM
新智元

Perplexity免费推出Deep Research:性能超过R1、o3-mini等,CEO:感谢DeepSeek

AI搜索“老大哥”Perplexity,刚刚也推出了自家的Deep Research——随便给个话题,就能生成有深度的研究报告。 先来划个重点:免费向所有人开放! 具体来说,非订阅用户每天最多可查询5次,Pro用户每天可查询500次。
2/17/2025 8:12:00 AM
量子位

DeepSeek 系列模型详解之 DeepSeek Math

DeepSeek Math发布于2024年2月,虽然是一个7B参数量的模型,但在Math基准榜单上的表现却超过了多个30B~70B参数量的开源模型。 一、技术亮点1. 数据集使用Common Crawl提取的120B(1200亿个)高质量数学网页数据(具体包括与数学相关的token,以及自然语言和代码数据等),总数据量是开源数据集OpenWebMath的9倍。
2/17/2025 8:00:00 AM
小喵

DeepSeek官方发布R1模型推荐设置,这才是正确用法

自春节以来,DeepSeek 就一直是 AI 领域最热门的关键词,甚至可能没有之一,其官方 App 成为了史上最快突破 3000 万日活的应用。 最近一段时间,各家 AI 或云服务厂商更是掀起了部署 DeepSeek-R1 服务的狂潮,甚至让薅羊毛的用户们都有点忙不过来了。 就在刚刚,DeepSeek 官网 X 帐号终于更新了(上一次更新还是在 1 月 28 日),官方下场推荐了部署 DeepSeek-R1 的设置。
2/17/2025 7:35:00 AM
机器之心

首个AI儿科医生“上岗” 与13位儿科专家共同完成疑难病例会诊

2025年2月13日,国家儿童医学中心首都医科大学附属北京儿童医院开展了国内首次“AI儿科医生 多学科专家”的双医并行多学科会诊。 在此次特殊的多学科会诊中,不仅有包括倪鑫院长在内的,来自耳鼻咽喉头颈外科,肿瘤外科,肿瘤内科,神经外科,神经内科,精神科,感染内科,免疫科,骨科,医学影像中心,超声科,放疗科和口腔科等科室的13位知名专家。 还有一位引人瞩目的特殊专家——由北京儿童医院与百川智能、小儿方健康科技联合研发,以Baichuan M1大模型为底座打造的“AI儿科医生”!
2/14/2025 6:24:25 PM

模型过剩危机:OpenAI壮士断腕,能否终结开发者'选择恐惧症'?

OpenAI要“动手”了,它计划对自己的模型产品阵容来一场大“瘦身”!就在它准备推出最后一个非推理模型GPT-4.5之际,这家科技巨头罕见地承认,之前的产品发布在客户眼里竟然没啥区别,这让市场有点懵。 OpenAI的首席执行官萨姆·奥特曼最近在X平台上更新了产品路线图,他坦诚地说,公司最近的一些发布确实让市场感到有点困惑。 “我们得把预定路线图分享得更清楚,还得在产品阵容简化上多下点功夫。
2/14/2025 11:25:45 AM
Emilia David

1秒锁定7500万债务黑洞,OpenAI o系列模型7大实际应用案例

今早5点,OpenAI分享了o系列模型的7大实际应用场景,包括处理模糊任务、从海量信息中提取关键信息、复杂文档推理与决策、多流程AIAgent、视觉推理、代码审查以及性能评估。 在这些实际案例中,一家金融分析平台通过o系列模型成功找出了影响收购的关键变更条款,帮助公司节省了7500万美元。 此外,还解读了o系列推理模型与效率型GPT系列模型的区别,帮助你在实际应用中该如何高效选择这两种模型。
2/14/2025 10:44:13 AM
AIGC开放社区

DeepSeek数学大翻车?普林斯顿谷歌锤爆LLM:做题不会推理,全靠死记硬背

破案了! 就在刚刚,来自普林斯顿和谷歌的研究者发现——大模型做数学题,不是靠推理,而是靠从训练集里记下的解题技巧! 论文地址:「未解之谜」一直困扰着不少业内人士:在数学上,LLM到底是学会了举一反三,还是只是学会了背题?
2/14/2025 10:23:00 AM
新智元

直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

32B推理模型,仅用1/8数据,与同尺寸DeepSeek-R1打成平手! 就在刚刚,来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B,并同时开源了高达114k的训练数据。 项目主页: Face:::采用经DeepSeek-R1验证标注(基于R1蒸馏)的大规模优质数据集,便可训练出SOTA的推理模型。
2/14/2025 9:20:00 AM
新智元

打破纪录!谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧

史上最大规模视觉语言数据集:1000亿图像-文本对! 较此前纪录扩大10倍。 这就是由谷歌推出的最新数据集WebLI-100B。
2/14/2025 9:17:00 AM
量子位

文心一言全面免费了,深度搜索功能同时上线,第一手实测在此

一天内,OpenAI、百度两家AI大厂同时打出免费牌! 几天前被爆出文心5.0消息后,今天百度突然宣布:文心一言将于4月1日零时起,全面免费!  所有PC端和APP端用户均可体验文心系列最新模型。
2/14/2025 9:12:00 AM
量子位

超详细,DeepSeep 接入PyCharm实现AI编程!(支持本地部署DeepSeek及官方DeepSeek接入),建议收藏!

在当今数字化时代,AI编程助手已成为提升开发效率的利器。 DeepSeek作为一款强大的AI模型,凭借其出色的性能和开源免费的优势,成为许多开发者的首选。 今天,就让我们一起探索如何将DeepSeek接入PyCharm,实现高效、智能的AI编程。
2/14/2025 9:10:47 AM
狂师

本想去谷歌捞一笔就跑,却成了改变AI历史的人|Transformer作者对话Jeff Dean

谷歌两位大佬回应一切:从PageRank到AGI的25年。 现任首席科学家Jeff Dean、出走又回归的Transformer作者Noam Shazeer,与知名播客主持人Dwarkesh Patel展开对谈。 视频刚发几个小时,就有20万 网友在线围观。
2/14/2025 8:40:00 AM
量子位

o3斩获IOI金牌冲榜全球TOP 18,自学碾压顶尖程序员!48页技术报告公布

几天前,谷歌AlphaGeometry 2拿下IMO金牌,震惊了所有人。 这次,o3在IOI 2024竞赛中取得惊人的394分(满分600),一举夺得金牌,实力相当于全球第18名赛级选手。 不仅如此,在世界级编程竞赛CodeForces上,o3位居全球Top 200之列,堪比人类顶尖程序员。
2/14/2025 8:30:00 AM
新智元