推理

UC伯克利：让推理模型少思考，准确率反而更高了！

让推理模型不要思考，得到的结果反而更准确？ UC伯克利新研究发现，强制要求模型跳过思考过程，推理能力却比正常思考还好。例如在定理证明任务当中，“不思考”模式仅使用30%的Token，就能实现和完整思考一样的准确率。

4/18/2025 8:42:52 AM 量子位

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

推理模型越来越成为主流了。像GPT-4.5这样没有推理功能的大语言模型则越来越少见，就连OpenAI自身也将重心放到了推理模型o系列上面。原因在于推理模型通过在回答之前先「思考」，从而能够获得更加优秀的效果。

4/15/2025 9:00:00 AM 新智元

清华耶鲁推理模型新范式：动态推理实现高效测试时扩展，大大节省Token消耗

推理性能提升的同时，还大大减少Token消耗！清华、耶鲁团队提出推理模型新范式：动态推理实现高效测试时扩展。测试时扩展（test-time scaling）技术加速推动了大语言模型在复杂推理领域的突破。

4/8/2025 9:16:00 AM 量子位

LLM「想太多」有救了！高效推理让大模型思考过程更精简

LLM的推理能力显著增强，然而，这个「超级大脑」也有自己的烦恼。有时候回答会绕好大一个圈子，推理过程冗长又复杂，虽能得出正确答案，但耗费了不少时间和计算资源。比如问它「2加3等于多少」，它可能会从数字的概念、加法原理开始，洋洋洒洒说上一大通，这在实际应用中可太影响效率啦。

4/7/2025 9:23:00 AM 新智元

250多篇论文，上海AI Lab综述推理大模型高效思考

最近，像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型（Large Reasoning Models，LRMs）通过加长「思考链」（Chain-of-Thought，CoT）在推理任务上表现惊艳。但随之而来的是一个日益严重的问题：它们太能「说」了！生成的推理过程往往充斥着冗余信息（比如反复定义）、对简单问题过度分析，以及对难题的探索浅尝辄止。

4/4/2025 1:47:00 PM 机器之心

OpenAI重新开源！第一弹就推理模型，还不限制商用，“冲着DeepSeek来的”

一夜之间，OpenAI更新三大动向，开源、融资、用户暴增。第一，将开源一个具备推理能力的大语言模型，包含参数权重那种。上一次这样开源还是6年前推出GPT-2。

4/1/2025 8:45:15 AM

DeepSeek 悄然发布 DeepSeek-V3–0324：远超预期的重大升级

DeepSeek 近期悄然发布的 DeepSeek-V3–0324，在 AI 社区和行业内引发了广泛关注。这一版本是 DeepSeek V3 （DeepSeek-V3 深度剖析：下一代 AI 模型的全面解读）模型的重要升级，其带来的一系列技术革新和性能提升远超众人预期，为开发者和企业带来了新的机遇与可能。一、DeepSeek-V3–0324 的技术突破（一）Multi-head Latent Attention（MLA）和增强的 DeepSeekMoE 架构DeepSeek-V3–0324 引入了 Multi-head Latent Attention（MLA）和增强版的 DeepSeekMoE 架构，这些创新技术为模型性能的提升奠定了坚实基础。

3/28/2025 4:30:00 AM 大模型之路

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜，创下史上最大分数飞跃纪录

谷歌称，它是世界上最强大的模型，具备统一的推理能力，以及用户所喜爱的 Gemini 的所有功能（长上下文、工具等）。

3/26/2025 6:35:22 AM 问舟

成效初显！基于DeepSeek强化学习的医疗VLM策略来了

编辑 | ScienceAI在人工智能跨界医疗的浪潮中，如何赋能视觉语言模型（VLM）去 “看懂” 多种类型的医学影像，并在疾病诊断、病灶分析等任务中给出可信解释，已成关键挑战。近期，来自埃默里大学、南加州大学等机构的联合研究团队基于 DeepSeek 强化学习提出了一套医疗 VLM 策略，称之为 “Med-R1”，通过鼓励模型在 “推理过程” 上不断探索，大大提升了跨模态、跨任务的泛化能力。本文将结合实验结果和推理案例，为大家展示 DeepSeek 在医疗 VLM 中的实战成效。

3/21/2025 2:05:00 PM ScienceAI

Groundlight 开源框架，搞定复杂的视觉推理

一直专注于让AI看懂世界的 Groundlight 研究团队，近日放大招，宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理，让AI不仅能“看图识物”，更能像福尔摩斯一样，从图像中推理出更深层次的信息。我们都知道，现在的AI在识别猫猫狗狗方面已经炉火纯青，但要让它们理解图片背后的逻辑关系，进行更复杂的推理，就常常“卡壳”。 Groundlight 的研究人员指出，当前的视觉语言模型（VLM）在理解图像本身尚且不足的情况下，更难以完成需要深度解读的任务。

3/17/2025 3:00:00 PM AI在线

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

论文标题：A Survey on LLM Complex Reasoning through the Lens of Self-Evolution论文链接：：. 引言在人工智能领域，大型语言模型的复杂推理研究正成为学术界和工业界关注的焦点。随着 OpenAI 的 O1 以及后续 DeepSeek R1 等突破性成果的发布，这一领域的研究热度持续升温，引发了广泛的学术讨论和实践探索。

3/6/2025 9:08:00 PM 机器之心

IBM 推出小型AI模型 Granite 3.2 ，强调高效推理与实用性

3/6/2025 10:52:00 AM AI在线

阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小

阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型（LLM）家族成员——QwQ-32B。这款拥有320亿参数的推理模型，旨在通过强化学习（RL）提升在复杂问题解决任务上的性能。据介绍，QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。

3/6/2025 9:17:00 AM AI在线

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

虽然 Qwen「天生」就会检查自己的答案并修正错误。但找到原理之后，我们也能让 Llama 学会自我改进。给到额外的计算资源和「思考」时间，为什么有的模型能好好利用，把性能提升一大截，而有的模型就不行？

3/5/2025 2:54:00 PM 机器之心

AI 大战超级玛丽！Claude 3.7 封神：Gemini、GPT-4o 全军覆没，谁才是游戏界真王者？

谁是游戏界真王者?AI 竟向经典游戏《超级马力欧兄弟》发起挑战! 加州大学圣地亚哥分校 Hao 人工智能实验室传来惊人战报:在一场别开生面的 AI “马力欧” 大乱斗中，Anthropic 旗下的 Claude3.7模型 “一骑绝尘”，力压群雄，荣登 “最强 AI 马力欧” 宝座! 紧随其后的是同门师弟 Claude3.5，而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 这两位 “AI 界大佬” 却意外 “翻车”，表现令人大跌眼镜!

3/4/2025 5:00:00 PM AI在线

科大讯飞与华为联手推出全新升级星火一体机，全面提升 AI 应用能力

近日，科大讯飞与华为联合发布了全新升级的星火一体机，这款机器在算力、模型、训练和推理等方面进行了全方位的国化支持，致力于实现快速部署和开箱即用的应用体验。此次发布的星火一体机包括4U 训推一体机和2U 推理一体机，标志着人工智能在多个领域应用的又一重要进展。新款星火一体机的最大亮点是支持讯飞星火和 DeepSeek 双引擎的整合。

3/3/2025 9:58:00 AM AI在线

DeepSeek揭秘:AI推理系统背后的545%惊人利润率

DeepSeek在知乎开设官方账号，发布了《DeepSeek-V3/R1推理系统概览》技术文章，首次详细披露其模型推理系统的优化细节和成本利润率信息，标志着备受关注的"DeepSeek开源周"正式结束。文章介绍了DeepSeek-V3/R1推理系统的两大优化目标:"更大的吞吐，更低的延迟"。为实现这些目标，DeepSeek采用了大规模跨节点专家并行（EP）技术，尽管这增加了系统复杂性。

3/2/2025 10:26:00 AM AI在线

字节跳动推出 AIBrix：全新开源推理系统专为大语言模型设计

2/28/2025 11:08:00 AM AI在线

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

推理

UC伯克利：让推理模型少思考，准确率反而更高了！

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

清华耶鲁推理模型新范式：动态推理实现高效测试时扩展，大大节省Token消耗

LLM「想太多」有救了！高效推理让大模型思考过程更精简

250多篇论文，上海AI Lab综述推理大模型高效思考

OpenAI重新开源！第一弹就推理模型，还不限制商用，“冲着DeepSeek来的”

DeepSeek 悄然发布 DeepSeek-V3–0324：远超预期的重大升级

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜，创下史上最大分数飞跃纪录

成效初显！基于DeepSeek强化学习的医疗VLM策略来了

Groundlight 开源框架，搞定复杂的视觉推理

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

​IBM 推出小型AI模型 Granite 3.2 ，强调高效推理与实用性

​阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

AI 大战超级玛丽！Claude 3.7 封神：Gemini、GPT-4o 全军覆没，谁才是游戏界真王者？

科大讯飞与华为联手推出全新升级星火一体机，全面提升 AI 应用能力

DeepSeek揭秘:AI推理系统背后的545%惊人利润率

字节跳动推出 AIBrix：全新开源推理系统专为大语言模型设计

IBM 推出小型AI模型 Granite 3.2 ，强调高效推理与实用性

阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小