AI在线 AI在线

模型

LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升

OpenAI o1发布后,为提升LLM的推理能力,研究者尝试了多种方法。 比如用强大的教师模型进行知识蒸馏、采用蒙特卡洛树搜索(MCTS),以及基于奖励模型的引导搜索。 近日,来自MIT、新加坡科技设计大学、哈佛大学等机构的华人研究者探索了全新的方向:让LLM拥有自回归搜索能力。
2/10/2025 1:00:00 PM
新智元

诺奖得主DeepMind CEO放话:DeepSeek是中国最好AI模型,但没任何科学进步

就在今天,谷歌DeepMind的首席执行官Demis Hassabis对DeepSeek进行了一番「捧杀」——「它可能是中国最好的工作,但没有展示任何新的科学进展。 」Hassabis首先称DeepSeek的模型是「一项令人印象深刻的工作」,然后便一改口风说道:「从技术角度来看,这并不是一个重大变革」,同时还特别强调「炒作有点夸大了」。 「尽管炒作很多,但实际上并没有新的科学突破,它使用的都是已知的AI技术。
2/10/2025 12:30:00 PM
新智元

马克龙豪掷1090亿开欧洲「星际之门」,Mistral狂飙登顶法国APP榜首!

就在刚刚,Le Chat登顶法国免费APP榜首! 在效率榜中,ChatGPT屈居第二,DeepSeek仅排第三在美国效率榜排名35(ChatGPT第一,DeepSeek第二)欧洲开发者们一片欢腾:恭喜Mistral AI,让欧洲的AI竞赛中终于(在欧洲)有了一席之地。 之前,不管是OpenAI还是DeepSeek,都光芒太盛。
2/10/2025 12:00:25 PM
新智元

关于自动驾驶,尤其是端到端自动驾驶:到底有哪些可能的量产技术路线?

0.1 什么是端到端? 首先定义端到端,当然有很多说法。 我觉得,起码说相对于分阶段而言,规划不只是根据感知和预测的结果,而是其隐特征。
2/10/2025 10:35:00 AM
南木

刚刚,Sam Altman深夜发文,AI Agent将重塑世界经济

今天凌晨5点,OpenAI联合创始人兼首席执行官Sam. Altman在其个人博客,发布了一篇深度文章《Three Observations》。 主要对AI世界提出了3点观察,AI模型的智能水平大致等于用于训练和运行它的资源的对数;使用特定水平AI的成本大约每12个月下降10倍,而更低的价格会带来更多的使用;线性增长的智能所创造的社会经济价值是超指数增长。
2/10/2025 9:35:06 AM
AIGC开放社区

SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

DeepSeek-R1慢思考、长推理的表现,展现了训练步骤增加,会导致长CoT的涌现。 它通过模拟人类思维逐步推导答案,提升了AI大模型的推理能力和可解释性。 但长CoT的触发条件是什么?
2/10/2025 9:35:00 AM
量子位

OpenAI内部模型曝光!编程能力跻身全球Top50程序员,年底不再有人类对手

除了o1/o3,OpenAI另一个尚未公开的内部推理模型曝光了。 爆料者正是CEO奥特曼本人。 据他透露,与全球顶尖程序员相比,当前这一内部模型的编程能力已达Top50,甚至今年年底将排名第一。
2/10/2025 9:20:00 AM
量子位

谷歌AlphaGeometry2攻克IMO几何难题,已超越金牌得主平均水准

OpenAI 与 DeepSeek 卷得不可开交的时候,谷歌 DeepMind 的数学推理模型又偷偷惊艳了所有人。 在最新的一篇论文中,谷歌 DeepMind 介绍了全新进化的 AlphaGeometry 2,该系统在解决奥林匹克几何问题方面已经超过了金牌得主的平均水准。 论文标题:Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2论文链接:(IMO)是一项面向全球高中生的著名数学竞赛。
2/10/2025 9:10:00 AM
机器之心

无需引导采样,清华大学提出视觉模型训练新范式

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/9/2025 2:30:00 PM
机器之心

浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025

大模型智能体正在迅速发展,能力已不再局限于 API 调用。 诸如OpenAI的Operator和Anthropic的Computer Use等,能够像人类一样直接与界面交互,执行复杂操作。 在处理这类复杂任务的过程中,大模型智能体将问题分解为可执行的工作流(Workflow)是关键的一步。
2/8/2025 2:10:00 PM
量子位

DeepSeek下棋靠忽悠赢了ChatGPT,网友:孙子兵法都用上了

家人们,要笑不活了。 DeepSeek跟ChatGPT下了一把国际象棋,然后……通过忽悠的方式,竟让ChatGPT直接认输! DeepSeek在这场对决中有多离谱呢?
2/8/2025 1:40:00 PM
量子位

超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程

大模型也学会了「空间想象力」? 还可以自己解释自己? 在大语言模型(LLMs)和多模态大语言模型(MLLMs)中,思维链(CoT)在复杂推理方面非常有效。
2/8/2025 1:30:00 PM
新智元

山姆·奥特曼揭秘:Deepseek R1性价比之选!

在当今的人工智能领域,大模型之间的竞争日益激烈。 Deepseek 推出的 R1 模型引起了广泛关注。 山姆·奥特曼评价道:“Deepseek 的 R1 是一个令人印象深刻的模型,尤其是在他们能够以这个价格提供的东西方面。
2/8/2025 11:31:17 AM
AGI

零样本 | ZAPS:零样本扩散采样,3倍加速逆问题重建,重塑高效影像修复新范式

一、 一眼概览ZAPS(Zero-Shot Approximate Posterior Sampling)是一种针对扩散模型(Diffusion Models, DMs)在逆问题(Inverse Problems)中的高效采样方法。 它利用零样本学习(Zero-Shot Learning)进行自适应超参数优化,使得扩散采样步骤固定,同时提高重建质量并减少推理时间。 二、核心问题当前的扩散模型在解决逆问题(如去模糊、修复、超分辨率)时,存在以下挑战:需要大量的采样步骤,导致推理速度慢;现有的噪声调度策略(Noise Schedule)在逆问题场景下难以直接适用;传统方法使用手动调整的对数似然权重(Log-Likelihood Weights),不够鲁棒,容易导致次优解。
2/8/2025 11:12:34 AM
萍哥学AI

图解系列|DeepSeek-R1的出众推理能力因何而来?

图片DeepSeek-R1 代表了人工智能发展的又一重要里程碑。 对于机器学习领域的研究人员与开发者群体而言,这次发布之所以备受关注,主要有以下两点:首先,这是一款开源权重的模型,并且提供了更小的、经过蒸馏的版本;其次,它公布并深入探讨了训练方法,该方法能够复现类似于 OpenAI O1 的推理模型。 本文将带您了解这一模型的构建过程。
2/8/2025 9:44:11 AM
追求卓越的

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元

历史分水岭:DeepSeek GitHub星数超越OpenAI!大佬揭秘仅用450美元训推理模型

就在刚刚,历史性的一刻出现了。 DeepSeek项目在GitHub平台上的Star数,已经超越了OpenAI。 热度最高的DeepSeek-V3,Star数如今已达7.7万。
2/8/2025 9:15:00 AM
新智元

免费功能卷翻付费版ChatGPT,欧洲AI新贵叫板OpenAI

“欧洲OpenAI”Mistral AI有新动作了! Le Chat(法语“猫”)全新升级,官方自称它是“您生活和工作的终极AI助手”。 从今天开始,Le Chat上线移动端,iOS和Android都支持,不久也将对企业私有基础设施开放。
2/8/2025 8:50:00 AM
量子位