理论
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式——从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。 团队发现,当前大模型数学推理任务面临”三重门”困局:稀疏奖励困境:最终答案对错的二元反馈,使复杂推理的优化变得困难局部正确陷阱:长思维链中部分正确步骤反而可能误导模型学习规模依赖魔咒:传统蒸馏方法迫使研究者陷入”参数规模军备竞赛”因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:对于正样本:在二元反馈环境下,通过最佳轨迹采样(BoN)的行为克隆即可学习最优策略对于负样本:需要使用奖励重塑来维护策略优化目标的一致性对于长序列:不同的序列部分对结果的贡献不同,因此需要更细粒度的奖励分配函数,这个函数可以通过结果奖励习得通俗来说,就是通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。
2/17/2025 9:33:00 AM
量子位
百度宣布下一代文心大模型开源,此前宣布文心一言4月起免费
百度官方今天宣布,其下一代文心大模型4.5系列将于未来几个月内推出,并计划于2025年6月30日正式开源。 这一消息标志着百度在人工智能领域的又一重大举措。 文心一言4月1日起全面免费百度在2月13日宣布,文心一言将于2025年4月1日0时起全面免费,所有PC端和APP端用户均可免费体验文心系列的最新模型。
2/17/2025 9:10:00 AM
比英伟达工程师还熟练!DeepSeek R1+测试时Scaling自动优化GPU内核
本周英伟达的一篇技术博客引发了业界震动! 英伟达的团队尝试利用DeepSeek-R1和推理时扩展实现GPU内核生成自动化,效果极佳。 随着AI模型的扩展,推理时扩展(inference-time scaling),也叫测试时扩展(test-time scaling)正闪亮登场。
2/17/2025 9:10:00 AM
新智元
全球AI算力报告出炉,LLM最爱A100!谷歌坐拥超100万H100等效算力
AI的物质基础是机器学习硬件,例如图形处理单元(GPU)和张量处理单元(TPU)。 据不完全统计,目前全球超过140款AI加速器,用于开发和部署深度学习时代的机器学习模型。 Epoch AI带来了全球算力的估计报告,利用公开信息估计了全球机器学习硬件的现状和趋势。
2/17/2025 9:06:00 AM
新智元
DeepSeek系列:什么是DeepSeek,它又能做些什么呢?
在这个人工智能飞速发展的时代,大家可能已经听说过ChatGPT、文心一言、豆包AI、通义千问这些AI工具,但今天我们要聊的是一个同样厉害的中国AI——DeepSeek(深度求索)。 它就像一个超级聪明的“大脑”,不仅能和你聊天,还能帮你写代码、分析数据,甚至解决专业问题。 那么,DeepSeek到底是什么?
2/17/2025 9:03:26 AM
郝光明
DeepSeek 关键技术详解
作者:leaf在今年的春节期间,DeepSeek火出了圈。 凭借DeepSeek-V3与DeepSeek-R1的创新技术和卓越表现,DeepSeek迅速成为了行业内外的焦点。 不管是技术专家还是普通用户,都对DeepSeek赞不绝口。
2/17/2025 9:00:00 AM
腾讯技术工程
百度官宣:全面接入DeepSeek!7亿用户光速进入AI搜索时代
中国互联网行业,再次迎来标志性事件——All in DeepSeek! 继微信之后,百度官宣:百度搜索全面接入DeepSeek。 中国互联网第一大搜索巨头,居然也选择「打不过就加入」了?
2/17/2025 8:51:15 AM
新智元
马斯克炮轰OpenAI:从“开放”到“封闭+贪婪”
在近日的迪拜世界政府峰会上,马斯克对OpenAI的最新发展提出了严厉批评,指责其背离了最初的开源和开放理念,逐渐走向封闭和贪婪。 这一言论引发了广泛关注,也让人们对AI行业的未来发展方向产生了新的思考。 OpenAI的转变:从“Open”到“Closed”马斯克指出,OpenAI最初的设计是一个兼具盈利和非营利性质的“双层架构”组织,这种模式在一定程度上取得了成功。
2/17/2025 8:50:00 AM
小菲
刚刚,DeepSeek揭秘R1官方同款部署设置,温度=0.6!OpenAI推理指南同时上线
同一天内,DeepSeek和OpenAI都发布了推理模型使用指南! DeepSeek的X账号迎来久违的更新:发布了官方版本,教大家如何部署DeepSeek-R1的设置。 最佳方法如下——不使用系统提示采样温度:0.6针对文件上传和网络搜索功能定制prompt每次输出时都以think\n开始,以防模型跳过思考过程注意,官方部署DeepSeek,使用的是跟开源版本完全相同的模型。
2/17/2025 8:37:00 AM
新智元
还在忙NSFC申报?试试DeepSeek R1结合牛津的推理Agent用变分推理生成国家自然科学基金申请书
又到了一年一度的国家自然科学基金申报季,众多科研工作者正在为申报书的撰写绞尽脑汁。 如何在有限的时间内,产出一份既专业严谨又富有创新性的申报材料,成为了许多研究者面临的挑战。 本文介绍了一种基于DeepSeek R1大模型与牛津大学最新推理Agent框架相结合的智能辅助方案。
2/17/2025 8:35:06 AM
AI修猫Prompt
腾讯元宝、微信 + DeepSeek = 下一代搜索革命?
DeepSeek 想必大家都知道了,春节期间爆火,日活 1500 万。 七天下载量破亿,日下载全球第一! DeepSeek 在上个月发布了 R1 版本,在美国 AIME 2024 测试中 R1 拿下 79.8 分,超过了 OpenAI 的 o1 模型的 79.2 分;在 MATH-500,R1 为 97.3 分,同样超过了 o1 的 96.4 分;性能对齐 OpenAI-o1 正式版DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
2/17/2025 8:32:21 AM
码哥字节
职场生存战:AI时代淘汰的40种职业与未来必备的五大黄金技能
不久前,杭州某电商公司发生了一场没有硝烟的裁员:AI客服系统上线首日,30位资深客服集体收到转岗通知。 这个标志性事件像一记惊雷,炸醒了无数职场人,AI已经悄然改写职场规则。 一、AI浪潮下的职业版图重构消失的岗位倒计时麦肯锡最新研究显示,到2030年全球将有4亿个工作岗位被AI取代。
2/17/2025 8:30:00 AM
cres
Perplexity免费推出Deep Research:性能超过R1、o3-mini等,CEO:感谢DeepSeek
AI搜索“老大哥”Perplexity,刚刚也推出了自家的Deep Research——随便给个话题,就能生成有深度的研究报告。 先来划个重点:免费向所有人开放! 具体来说,非订阅用户每天最多可查询5次,Pro用户每天可查询500次。
2/17/2025 8:12:00 AM
量子位
如何将机器学习模型部署到生产环境?
译者 | 布加迪审校 | 重楼开发机器学习模型只完成了一半工作。 除非部署到生产环境、提供业务价值,否则模型仍然毫无用处。 知道如何部署自己的模型已成为任何数据科学家的一项基本技能,许多雇主已经要求我们能做到这一点。
2/17/2025 8:00:00 AM
布加迪
DeepSeek 系列模型详解之 DeepSeek Math
DeepSeek Math发布于2024年2月,虽然是一个7B参数量的模型,但在Math基准榜单上的表现却超过了多个30B~70B参数量的开源模型。 一、技术亮点1. 数据集使用Common Crawl提取的120B(1200亿个)高质量数学网页数据(具体包括与数学相关的token,以及自然语言和代码数据等),总数据量是开源数据集OpenWebMath的9倍。
2/17/2025 8:00:00 AM
小喵
「硅基大脑」来了,UCSF华人实验室打造!神经科学未来不是碳基?
AI起源于人类利用「电脑」模拟「大脑」,希望计算机和人类一样可以处理各种任务。 或许,计算机还没有产生和人类一样的「智慧」。 但不妨设想一下「硅基大脑」—— 高级的AI模型,它能够破译人类的思维,让「哑巴」重新说话,也许有朝一日,甚至能预测大脑的「一举一动」。
2/17/2025 8:00:00 AM
新智元
GPT-4价格已被砍成1/150 !OpenAI副总裁回应DeepSeek的竞争,揭秘内部员工花式使用自家产品,有很多工程难题
编辑 | 言征2天前,就在马斯克宣布要以 974 亿美元收购 OpenAI 后,OpenAI 工程副总裁斯里尼瓦斯·纳拉亚南( Srinivas Narayanan) 接受了华尔街日报的一次线下对话,这次对话同样也是出于一场中美 AI 博弈的新语境下:DeepSeek R1低成本训练出可以对标 Open AI o1的强推理模型,甚至登顶了应用排行榜,美国现在已经封禁了DeepSeek应用的下载。 主持人当然没有放过斯里尼瓦斯,问了他这个非常敏感的问题。 那么 OpenAI 内部究竟是如何看待 DeepSeek 的?
2/17/2025 8:00:00 AM
言征
DeepSeek官方发布R1模型推荐设置,这才是正确用法
自春节以来,DeepSeek 就一直是 AI 领域最热门的关键词,甚至可能没有之一,其官方 App 成为了史上最快突破 3000 万日活的应用。 最近一段时间,各家 AI 或云服务厂商更是掀起了部署 DeepSeek-R1 服务的狂潮,甚至让薅羊毛的用户们都有点忙不过来了。 就在刚刚,DeepSeek 官网 X 帐号终于更新了(上一次更新还是在 1 月 28 日),官方下场推荐了部署 DeepSeek-R1 的设置。
2/17/2025 7:35:00 AM
机器之心
资讯热榜
量大管饱!我整理了10个好用到爆的即梦4.0进阶玩法
全球高校 “猎杀” AI作业!学生如何应对 “人类化” 挑战?
AI 数据版权新纪元:Real Simple Licensing 协议引发行业关注
ChatGPT能随便连MCP了!对话就能开发票、帮退款…奥特曼的野心毕露:将OpenAI打造成全能型平台!开发者:太危险了不敢用
OpenAI进军韩国市场,携手三星与SK海力士共建AI未来!
为什么 LangChain ReAct 机制值得关注 ?
幻觉成了AI的“癌症”,连OpenAI也治不了
数十亿人将用上免费AGI!OpenAI奥特曼高调断言:全球经济将迎来极度通缩!效率强如DeepSeek,全球AI也需百吉瓦能源!
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
AI新词
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
华为
大语言模型
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
编程
DeepMind
亚马逊
特斯拉
AI模型