AI在线 AI在线

LLM

统一视角下的HPT:动态融合SFT与RL,释放LLM后训练新潜能

大家好,我是肆〇柒。 今天探索一篇来自清华大学、上海AI实验室与微信AI团队的前沿研究。 这篇论文提出了一种名为HPT的创新算法,它像一位“智能教练”,能根据模型的实时表现,动态决定是该用监督学习“补基础”,还是用强化学习“练推理”,从而解决后训练中SFT与RL难以调和的矛盾,让模型性能实现质的飞跃。
9/16/2025 10:09:00 AM
肆零柒

试试这个AI邪修方法,让你刷推特时间节省80%

前言不知道你有没有这样的痛点,每次刷推特总是浪费很多时间在上面,但是如果不刷呢又感觉错过了很多重要的信息。 以前欧阳坐班的时候是利用通勤路上刷推特,现在远程办公了,每次打开推特经常1-2个小时就过去了,效率很低。 我的痛点每次刷推特总是浪费很多时间:经常从一个帖子跳到另外一个帖子,然后再跳到其他帖子作者主页,接着看他的更多的帖子。
9/16/2025 8:45:04 AM
前端欧阳

推理的深度边界:神经网络如何在有限参数下实现多步推理?

大家好,我是肆〇柒。 今天要和大家分享的这项突破性研究来自MBZUAI(穆罕默德·本·扎耶德人工智能大学)、莫斯科物理技术学院神经网络与深度学习实验室、莫斯科人工智能研究院以及伦敦数学科学研究所的联合团队。 这项研究通过精心设计的1dCA基准,首次清晰地区分了模型的规则抽象能力和多步状态传播能力,为我们理解神经网络的"思考"机制提供了新视角。
9/15/2025 4:00:00 AM
肆零柒

从单体到LLM:拆解DevOps进化的三大范式

科技史一再证明,我们常低估未来的发展速度。 正如第一台重达30吨的计算机ENIAC,或“640K内存足够”的论断,都无法预见如今远超其亿万倍算力的设备已普及到个人。 今天,我们可能正处在新的“ENIAC时刻”。
9/12/2025 4:13:12 PM
韩荣

牛津&SH AI lab万字综述:Agentic RL——下一代企业级AI智能体的终极路线图

大家好,我是肆〇柒。 今天我们一起看一篇综述,这是来自牛津大学、上海人工智能实验室、新加坡国立大学等全球顶尖机构联合发布的前沿综述——《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。 这篇论文系统性地梳理了如何通过强化学习,将大语言模型从被动的文本生成器,重塑为主动的、能解决复杂现实问题的决策智能体。
9/12/2025 3:47:50 PM
肆零柒

狠人研究公开!ChatGPT底层记忆系统终于被逆向了!没有RAG!用户设备信息、使用习惯统统存下来,用户知识记忆是新的研究热点!

编辑 | 云昭ChatGPT 的记忆系统为什么做得如此有魔性? 现在终于有人研究出来了! 前天,小编刷到了一篇狠人逆向研究 ChatGPT 底层记忆架构的文章,非常精彩。
9/12/2025 1:32:48 PM
云昭

成立7个月首发声!百亿美金独角兽万字雄文:攻克LLM推理非确定性难题

Thinking  Machines Lab终于放大招了! 刚刚,联合创始人、OpenAI前副总裁Lilian Weng透露:Thinking Machines的第一代旗舰产品名为「Connection Machine」(联结机)。 事情是这样的:今天,Thinking Machines开辟了研究博客专栏「Connectionism」(联结主义),发表了第一篇博客文章「Defeating Nondeterminism in LLM Inference」(击败LLM推理中的非确定性)。
9/11/2025 1:31:41 PM
新智元

人工智能寒冬即将来临

规模给了我们工具,而不是思想。 这就是残酷的事实。 语言模型规模越来越大,并不能让我们更接近通用智能。
9/11/2025 10:35:28 AM
晓晓

AI 工程师必备:八大 LLM 开发核心技能

很多人以为使用大语言模型(LLM)只是“写提示词(prompting)”。 但如果目标是打造生产级(production-grade)的 AI 系统,仅仅依赖提示词远远不够。 图片    真正的 LLM 开发需要系统性的工程能力:模型如何设计、部署、优化与运维。
9/8/2025 2:32:00 AM
新叔

通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持

在大模型的发展历程中,提升参数规模已被多次证明是提升模型智能的最有效手段之一。 然而,随着模型参数量的增加,GPU内存容量和互联带宽已成为限制未来更大规模模型训练和部署的主要瓶颈。 在有限的硬件资源下,如何更有效地训练和推理更大规模的模型,已成为一个备受关注且具有显著经济价值的课题。
9/5/2025 9:15:00 AM

奥数金牌只是序章!OpenAI谷歌彻底打脸预言家,AI巨浪势不可挡

2022年,预言家放言:到2025年,押注90%的概率AI拿不下国际奥数IMO金牌。 然而仅仅两年,OpenAI与谷歌DeepMind双双击碎了悲观预言:LLM不仅提前「封神」摘金,还打破了对AI能力边界的想象。 从语言生成到逻辑推理,从通用能力到专业领域竞技,生成式AI正以惊人的速度越过每一道人类设下的「智力高墙」。
9/4/2025 9:07:26 AM

大语言模型为何难以突破科学瓶颈——每位快消行业的高管必须了解的真相

我们正处在一个时代,GenAI能够在几分钟内起草复杂的法律协议,在几秒钟内设计出合理的营销活动,并可按需在数十种语言之间自由切换。 从早期的机器学习模型到如今的GPT-4、Claude、Gemini等大型语言模型(LLM),能力的跃升堪称惊人。 因此,企业高管提出一个合理的疑问:如果AI能写出一篇令人信服的研究论文,或者模拟一场技术对话,为什么不能开展科学实验?在某些圈子里,甚至流传着一种说法:科学家可能很快会像旅行社代理人或电影放映员一样,被“颠覆”到无关紧要。
9/4/2025 7:00:00 AM
Kumar

AI能否像人类一样“按步骤”推理?一项数学证明的答案

在过去几年里,大语言模型(LLM)与深度学习的浪潮席卷了几乎所有计算领域。 从医学诊断到金融建模,从化学分子设计到物理模拟,这些模型在推理任务上的表现一次次刷新了人们的认知。 它们不仅能处理复杂的自然语言,还能跨越模态边界,将图像、语音、代码等信息融会贯通,展现出惊人的“多才多艺”。
9/4/2025 1:45:00 AM
FleakenS

14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1

现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)。 通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。
9/2/2025 10:20:10 AM

从“知识断片”到“零样本推理”:AutoBnB-RAG如何赋能多智能体AI安全协作

大家好,我是肆〇柒。 今天要和大家分享的这项研究来自佐治亚理工学院(Georgia Institute of Technology)的工作,AutoBnB-RAG非常巧妙,为解决大型语言模型在网络安全决策中的“知识断片”问题,提供了一个既符合人类专家直觉又极具工程智慧的方案——让AI团队在“卡壳”时才去“查资料”。 这个研究为我们在多智能体中应用 agentic RAG 带来一些启发。
9/2/2025 2:00:00 AM
肆零柒

GPT-5冷酷操盘,狼人杀一战封神!七大LLM狂飙演技,人类玩家看完沉默

一群模型去玩狼人杀,谁能夺下冠军? 这不,GPT-5、Gemini 2.5 Pro、Qwen3-235B-Instruct、GPT-OSS-120B等七大顶尖模型组队,同擂台开战。 一共210场血战,最终,GPT-5以96.7%的胜率独占榜首。
9/1/2025 9:03:00 AM

LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了

LLM 似乎可以扮演任何角色。 使用提示词,你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过:LLM 是否存在某种身份认同? 近日,哥伦比亚大学与蒙特利尔理工学院的两位研究者 Olivia Long 和 Carter Teplica 通过一个研究项目在一定程度上揭示了这个问题的答案。
8/31/2025 6:08:00 PM
机器之心

Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

强化学习时代,什么最重要? Karpathy给出了答案,环境! 只有环境,才能让LLM真正进行交互、执行动作、观察结果。
8/29/2025 5:09:30 PM
新智元