AI在线 AI在线

模型

Grok-3意外「走光」,不是推理模型!马斯克:xAI新模型比DeepSeek更好

当OpenAI和谷歌密集发布新AI模型时,马斯克的xAI怎么还没动静? 就在最近,马斯克公开表示称,xAI的新模型很快就要发布了,而且是比DeepSeek更好的那种! 根据公开消息,网友汇总了马斯克、Greg Yang等关于xAI下一代新模型Grok-3的消息。
2/11/2025 9:20:00 AM
新智元

清华姚班校友等揭Transformer致命缺陷,OpenAI科学家紧急回应:学术界节奏太慢

谁能想到,一篇于2023年发表的LLM论文,竟然在一年半之后又「火」了。 聊天机器人开始面临根本性的限制论文中,来自Ai2、华盛顿大学等机构研究人员称,Transformer在组合能力上存在限制。 以基本的乘法为例,让「GPT-4」计算两个三位数的乘积,最初的正确率仅有59%。
2/11/2025 9:15:00 AM
新智元

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

随着大语⾔模型(LLMs)在各类任务中展现出令人瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。 传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于训练过程中的模型参数更新,但在⾯对不断变化的数据和需求时,缺乏⾜够的灵活性来适应这些变化。 为了突破这⼀瓶颈,上海人工智能实验室、香港中文大学等联合提出了推理时偏好优化(TPO)方法,通过在推理阶段与奖励模型交互,借助可解释的文本反馈,迭代优化模型输出,实现了即时的模型对⻬,⽽⽆需重新训练。
2/10/2025 2:05:00 PM
量子位

如何优化测试时计算?解决「元强化学习」问题

优化大模型的测试时计算是提升模型部署效率和节省计算资源的关键一环。 前段时间,黄仁勋在 CES 2025 的演讲中把测试时 Scaling 形容为大模型发展的三条曲线之一。 如何优化测试时计算成为业界关注的重要课题。
2/10/2025 1:50:00 PM
机器之心

Nature:离 “量子互联网” 又近一步!牛津大学证实分布式量子计算可行性

量子通信技术又迎来了新进展! 牛津大学研究人员在Nature上发表的最新研究,在两米的距离上实现了确定性的量子门传送,保真度达86%。 研究人员表示,这项研究给各种物理平台的大规模量子计算提供了可行的途径,并为量子互联网打下了基础。
2/10/2025 1:40:00 PM
量子位

LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升

OpenAI o1发布后,为提升LLM的推理能力,研究者尝试了多种方法。 比如用强大的教师模型进行知识蒸馏、采用蒙特卡洛树搜索(MCTS),以及基于奖励模型的引导搜索。 近日,来自MIT、新加坡科技设计大学、哈佛大学等机构的华人研究者探索了全新的方向:让LLM拥有自回归搜索能力。
2/10/2025 1:00:00 PM
新智元

诺奖得主DeepMind CEO放话:DeepSeek是中国最好AI模型,但没任何科学进步

就在今天,谷歌DeepMind的首席执行官Demis Hassabis对DeepSeek进行了一番「捧杀」——「它可能是中国最好的工作,但没有展示任何新的科学进展。 」Hassabis首先称DeepSeek的模型是「一项令人印象深刻的工作」,然后便一改口风说道:「从技术角度来看,这并不是一个重大变革」,同时还特别强调「炒作有点夸大了」。 「尽管炒作很多,但实际上并没有新的科学突破,它使用的都是已知的AI技术。
2/10/2025 12:30:00 PM
新智元

马克龙豪掷1090亿开欧洲「星际之门」,Mistral狂飙登顶法国APP榜首!

就在刚刚,Le Chat登顶法国免费APP榜首! 在效率榜中,ChatGPT屈居第二,DeepSeek仅排第三在美国效率榜排名35(ChatGPT第一,DeepSeek第二)欧洲开发者们一片欢腾:恭喜Mistral AI,让欧洲的AI竞赛中终于(在欧洲)有了一席之地。 之前,不管是OpenAI还是DeepSeek,都光芒太盛。
2/10/2025 12:00:25 PM
新智元

关于自动驾驶,尤其是端到端自动驾驶:到底有哪些可能的量产技术路线?

0.1 什么是端到端? 首先定义端到端,当然有很多说法。 我觉得,起码说相对于分阶段而言,规划不只是根据感知和预测的结果,而是其隐特征。
2/10/2025 10:35:00 AM
南木

刚刚,Sam Altman深夜发文,AI Agent将重塑世界经济

今天凌晨5点,OpenAI联合创始人兼首席执行官Sam. Altman在其个人博客,发布了一篇深度文章《Three Observations》。 主要对AI世界提出了3点观察,AI模型的智能水平大致等于用于训练和运行它的资源的对数;使用特定水平AI的成本大约每12个月下降10倍,而更低的价格会带来更多的使用;线性增长的智能所创造的社会经济价值是超指数增长。
2/10/2025 9:35:06 AM
AIGC开放社区

SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

DeepSeek-R1慢思考、长推理的表现,展现了训练步骤增加,会导致长CoT的涌现。 它通过模拟人类思维逐步推导答案,提升了AI大模型的推理能力和可解释性。 但长CoT的触发条件是什么?
2/10/2025 9:35:00 AM
量子位

OpenAI内部模型曝光!编程能力跻身全球Top50程序员,年底不再有人类对手

除了o1/o3,OpenAI另一个尚未公开的内部推理模型曝光了。 爆料者正是CEO奥特曼本人。 据他透露,与全球顶尖程序员相比,当前这一内部模型的编程能力已达Top50,甚至今年年底将排名第一。
2/10/2025 9:20:00 AM
量子位

谷歌AlphaGeometry2攻克IMO几何难题,已超越金牌得主平均水准

OpenAI 与 DeepSeek 卷得不可开交的时候,谷歌 DeepMind 的数学推理模型又偷偷惊艳了所有人。 在最新的一篇论文中,谷歌 DeepMind 介绍了全新进化的 AlphaGeometry 2,该系统在解决奥林匹克几何问题方面已经超过了金牌得主的平均水准。 论文标题:Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2论文链接:(IMO)是一项面向全球高中生的著名数学竞赛。
2/10/2025 9:10:00 AM
机器之心

无需引导采样,清华大学提出视觉模型训练新范式

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/9/2025 2:30:00 PM
机器之心

浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025

大模型智能体正在迅速发展,能力已不再局限于 API 调用。 诸如OpenAI的Operator和Anthropic的Computer Use等,能够像人类一样直接与界面交互,执行复杂操作。 在处理这类复杂任务的过程中,大模型智能体将问题分解为可执行的工作流(Workflow)是关键的一步。
2/8/2025 2:10:00 PM
量子位

DeepSeek下棋靠忽悠赢了ChatGPT,网友:孙子兵法都用上了

家人们,要笑不活了。 DeepSeek跟ChatGPT下了一把国际象棋,然后……通过忽悠的方式,竟让ChatGPT直接认输! DeepSeek在这场对决中有多离谱呢?
2/8/2025 1:40:00 PM
量子位

超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程

大模型也学会了「空间想象力」? 还可以自己解释自己? 在大语言模型(LLMs)和多模态大语言模型(MLLMs)中,思维链(CoT)在复杂推理方面非常有效。
2/8/2025 1:30:00 PM
新智元

山姆·奥特曼揭秘:Deepseek R1性价比之选!

在当今的人工智能领域,大模型之间的竞争日益激烈。 Deepseek 推出的 R1 模型引起了广泛关注。 山姆·奥特曼评价道:“Deepseek 的 R1 是一个令人印象深刻的模型,尤其是在他们能够以这个价格提供的东西方面。
2/8/2025 11:31:17 AM
AGI