AI在线 AI在线

推理

推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型

OpenAI在最新的开源模型gpt-oss上采用的MXFP4数据类型,直接让推理成本暴降75%! 更惊人的是,MXFP4在把内存占用降为同规模BF16模型的四分之一的同时,还把生成token的速度提升了整整4倍。 换句话说,这一操作直接把1200亿参数的大模型塞进80GB显存的显卡,哪怕是只有16GB显存的显卡也能跑200亿参数的版本。
8/11/2025 6:00:38 PM

史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了! 上海创智学院、上海交通大学(GAIR Lab)发布MegaScience。 该数据集包含约125万条问答对及其参考答案,广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域,旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。
8/11/2025 8:46:00 AM

监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力

大模型推理能力研究中,可验证奖励的强化学习(RL with Verifiable Rewards, 简称 RLVR)技术频频突破,尤其是“一题强化学习”(RL on One Example)在多个任务中表现亮眼,引发了广泛讨论。 但与此同时,一个现实难题也随之而来:哪怕只使用一个样本,RL的训练也往往需要上百小时的A100GPU支撑,资源成本极高;而训练过程的高度不稳定,也给复现和实际部署带来了极大障碍;相比之下,传统的监督式微调(SFT)虽然计算负担小,但在低数据量下极易过拟合,效果难以保证。 有没有一种方法,不依赖复杂的反馈信号,也不需要成千上万的数据样本,就能有效激发LLM中已蕴藏的推理能力?
8/5/2025 9:05:00 AM

WAIC 2025|阶跃发布新一代基模 Step 3:原生多模态,推理效率行业领先

在2025世界人工智能大会(简称“WAIC 2025”)开幕前夕,阶跃星辰今天在上海正式发布了新一代基础大模型——Step 3。 作为阶跃的主力基座模型,Step 3兼顾智能与效率,旨在面向推理时代打造最适合应用的模型。 Step 3将于7月31日面向全球企业和开发者开源,为开源世界贡献最强多模态推理模型。
7/25/2025 9:43:00 PM
陈彩娴

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳,导师为黄锦辉教授,目前在伦敦大学学院进行访问交流,他的研究方向包括可信大模型,模型不确定性,对话系统等,在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文,并长期在知乎写作大模型、机器学习等专栏文章,个人主页为:? 今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。 然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。
7/17/2025 9:21:11 AM

清华ICCV25丨密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板

近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。 但你是否想过:它们真的“看懂”并“想通”了吗? 模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策?
7/14/2025 8:40:00 AM

大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮

来自北京邮电大学的研究团队通过思维链审计实验,首次定量揭示了这一“越想越错”现象背后的元认知偏差:长链推理中的反思不是纠错机制,而是给幻觉颁发“理性证书”——模型为保持与用户提示语义一致,宁可篡改协议定义也不否定前提。 风险缺口:长链CoT放大“误差滚雪球”推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。 然而,随着推理链条变长,一个令人不安的趋势浮出水面——错误不再是偶发失误,而是沿链条滚雪球式放大。
7/4/2025 8:42:00 AM

MoE那么大,几段代码就能稳稳推理 | 开源

混合专家网络模型架构(MoE)已经成为当前大模型的一个主流架构选择,以最近开源的盘古Pro MoE为例,其基于MoGE架构构建的混合专家架构,总参数量达720亿,激活参数量为160亿,专门针对昇腾硬件优化,在性能与效率上表现突出。 盘古还实现了在推理时做到又快又稳。 在技术特性上,盘古模型引入 “快思考” 和 “慢思考” 双系统,可根据问题复杂度自动切换响应模式,并在推理性能上实现突破——在昇腾800I A2上单卡推理吞吐性能达1148 tokens/s,经投机加速技术可提升至1528 tokens/s,显著优于同等规模稠密模型。
7/2/2025 5:56:09 PM
十三

只用2700万参数,这个推理模型超越了DeepSeek和Claude

大模型的架构,到了需要变革的时候? 在对复杂任务的推理工作上,当前的大语言模型(LLM)主要采用思维链(CoT)技术,但这些技术存在任务分解复杂、数据需求大以及高延迟等问题。 近日,受到人脑分层和多时间尺度处理机制启发,来自 Sapient Intelligence 的研究者提出了分层推理模型(HRM),这是一种全新循环架构,能够在保持训练稳定性和效率的同时,实现高计算深度。
7/1/2025 9:08:00 AM

苹果一口咬死AI不会思考!OpenAI前高管直接开怼:AGI已来,别再酸了

最近,苹果发布了一篇论文,引发了关于AI是否真正在推理的激烈讨论。 它提出了一个尖锐问题:当前的推理模型,是否已经触及能力的天花板? 与此同时,OpenAI前研究主管Bob McGrew则持完全不同的态度。
6/30/2025 9:05:00 AM

推理越多,幻觉越重?多模态推理模型的「幻觉悖论」

在多模态大模型的飞速发展中,R1 系列多模态推理模型凭借显式的长链推理机制,在复杂任务中屡屡突破传统「快思考」范式的性能瓶颈。 然而,研究发现,随着推理链条的加长,这类模型的视觉感知能力却呈现出明显下滑的趋势,逐渐转而依赖语言先验进行「脑补」,生成内容也越来越容易脱离图像本身,甚至出现凭空捏造的幻觉现象。 这一「推理增强—感知削弱」的悖论,凸显了当前多模态推理模型在推理能力与感知准确性之间面临的平衡挑战。
6/27/2025 8:40:00 AM

8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp

作者熊璟,香港大学一年级博士生,师从黄毅教授和孔令鹏教授。 已在 ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文,研究方向为高效大语言模型推理与自动定理证明。 担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。
6/26/2025 9:09:31 AM

AI进化新里程碑!大模型首次具备人类空间思维能力!

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。 这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作,推出了名为 ViLaSR-7B 的模型,专注于空间推理任务。 这个模型通过一种名为 “边看边画” 的训练方法,能够在理解图像的同时进行空间推理,从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。
6/23/2025 10:00:48 AM
AI在线

蚂蚁开源轻量级MoE推理模型Ring-lite

近日,蚂蚁技术团队宣布正式开源其轻量级推理模型Ring-lite。 该模型在多项推理榜单上取得了显著成绩,实现了轻量级推理模型的SOTA效果,再次验证了MoE架构的推理潜力。 Ring-lite以蚂蚁技术此前发布的Ling-lite-1.5为起点,该模型采用MoE架构,总参数为16.8B,但激活参数仅2.75B。
6/21/2025 5:01:05 PM
AI在线

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。 尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。 同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。
6/16/2025 8:25:00 AM

双重突破:全球首个零售VLA大模型来了!开源OpenWBT让机器人遥操门槛暴降!

学会“适当暂停与总结”,大模型终于实现无限推理。 想象一下,让你一口气不歇地推演一个超复杂数学证明,大脑也会“内存溢出”吧? 如今的大模型在长上下文推理中也面临同样的困境,随着推理长度增加而指数级增长的计算成本,以及由于长度受限而被迫中断推理过程。
6/10/2025 9:07:00 AM

大模型结构化推理优势难复制到垂直领域!最新法律AI评估标准来了,抱抱脸评测集趋势第一

大模型推理,无疑是当下最受热议的科技话题之一。 但在数学和物理等STEM之外,当LLM落到更多实际应用领域之中,大模型的推理能力又有多大的潜能和局限? 比如,如何评估大模型的推理能力在法律领域的应用,就在当前备受关注。
6/6/2025 9:00:00 AM

上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下

机器人的新大脑框架来了! 上海人工智能实验室联合多家单位提出了一种全新的通用具身智能大脑框架:Visual Embodied Brain,简称VeBrain。 该模型通过同时集成视觉感知、空间推理和机器人控制能力,可实现多模态大模型(MLLM)对物理实体的直接操控,使机器人能像人类一样“看到-思考-行动”。
6/6/2025 8:52:00 AM