AI在线 AI在线

推理

为什么Qwen能自我改进推理,Llama却不行?斯坦福找到了原理

虽然 Qwen「天生」就会检查自己的答案并修正错误。 但找到原理之后,我们也能让 Llama 学会自我改进。 给到额外的计算资源和「思考」时间,为什么有的模型能好好利用,把性能提升一大截,而有的模型就不行?
3/5/2025 2:54:00 PM
机器之心

AI 大战超级玛丽!Claude 3.7 封神:Gemini、GPT-4o 全军覆没,谁才是游戏界真王者?

谁是游戏界真王者?AI 竟向经典游戏《超级马力欧兄弟》发起挑战! 加州大学圣地亚哥分校 Hao 人工智能实验室传来惊人战报:在一场别开生面的 AI “马力欧” 大乱斗中,Anthropic 旗下的 Claude3.7模型 “一骑绝尘”,力压群雄,荣登 “最强 AI 马力欧” 宝座! 紧随其后的是同门师弟 Claude3.5,而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 这两位 “AI 界大佬” 却意外 “翻车”,表现令人大跌眼镜!
3/4/2025 5:00:00 PM
AI在线

科大讯飞与华为联手推出全新升级星火一体机,全面提升 AI 应用能力

近日,科大讯飞与华为联合发布了全新升级的星火一体机,这款机器在算力、模型、训练和推理等方面进行了全方位的国化支持,致力于实现快速部署和开箱即用的应用体验。 此次发布的星火一体机包括4U 训推一体机和2U 推理一体机,标志着人工智能在多个领域应用的又一重要进展。 新款星火一体机的最大亮点是支持讯飞星火和 DeepSeek 双引擎的整合。
3/3/2025 9:58:00 AM
AI在线

DeepSeek揭秘:AI推理系统背后的545%惊人利润率

DeepSeek在知乎开设官方账号,发布了《DeepSeek-V3/R1推理系统概览》技术文章,首次详细披露其模型推理系统的优化细节和成本利润率信息,标志着备受关注的"DeepSeek开源周"正式结束。 文章介绍了DeepSeek-V3/R1推理系统的两大优化目标:"更大的吞吐,更低的延迟"。 为实现这些目标,DeepSeek采用了大规模跨节点专家并行(EP)技术,尽管这增加了系统复杂性。
3/2/2025 10:26:00 AM
AI在线

字节跳动推出 AIBrix:全新开源推理系统专为大语言模型设计

字节跳动近日宣布开源其最新研发的 AIBrix 推理系统。 这一系统特别为 vLLM 推理引擎打造,目标是提供一个可扩展且高性价比的推理控制面,满足企业日益增长的 AI 需求。 AIBrix 的推出标志着一个新阶段的开始,项目团队希望通过这一开源项目为构建可扩展的推理基础设施奠定基础。
2/28/2025 11:08:00 AM
AI在线

通义万相开源视频生成模型Wan2.1:8.2G显存即可生成480P视频

近日,通义宣布开源其最新的通义万相大模型 Wan2.1。 Wan2.1是一款专注于高质量视频生成的 AI 模型,凭借其在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面的卓越表现,成为了创作者、开发者和企业用户拥抱 AI 时代的首选工具。 在权威评测集 Vbench 中,通义万相 Wan2.1以总分86.22% 的成绩登顶榜首,大幅领先国内外其他知名视频生成模型,如 Sora、Minimax、Luma、Gen3和 Pika 等。
2/26/2025 7:58:00 AM
AI在线

360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能

2025年2月24日,由360与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相,仅以5%参数,逼近DeepSeek-R1-671B的性能。 核心突破:小模型,大能量数学领域:以78.1分(AIME 2024评测)逼近原版R1模型(79.8分),远超DeepSeek-R1-Distill-Llama-70B(70.0分);综合性能:在编程(LiveCodeBench 61.6分)、科学(GPQA-Diamond 65.0分)领域全面领先最佳开源70B模型DeepSeek-R1-Distill-Llama-70B;效率跃迁:仅需5%参数量,性能达原版R1的95%以上,推理成本大幅降低。 技术革新:领域专精 模型融合研究团队使用「分治-融合」策略:基于DeepSeek-R1生成海量领域数据,分别训练数学、编程、科学三大垂直模型;通过Arcee团队Mergekit工具智能融合,突破单一模型性能上限,实现多任务均衡优化。
2/25/2025 2:50:16 PM
新智元

大语言模型:表面的推理能力背后是出色的规划技巧

译者 | 刘汪洋审校 | 重楼大语言模型(LLMs)在技术发展上取得了显著突破。 OpenAI 的 o3、Google 的 Gemini 2.0和 DeepSeek 的R1展现出了卓越的能力:它们能处理复杂问题、生成自然的对话内容,甚至精确编写代码。 业界常把这些先进的LLMs 称为"推理模型",因为它们在分析和解决复杂问题时表现非凡。
2/25/2025 9:49:12 AM
刘汪洋

新型语言模型 Huginn:突破推理界限 无需语言即可“思考”

近日,来自图宾根埃利斯研究所、马里兰大学和劳伦斯利弗莫尔国家实验室的研究团队,开发出名为 Huginn 的新型语言模型,该模型采用递归架构,显著提升了推理能力。 与传统模型不同,Huginn 无需专门的“推理链”训练,便可在神经网络的“潜在空间”内自主推理,再输出结果。 研究团队开发出名为 Huginn 的新型语言模型,该模型采用递归架构,显著提升了推理能力。
2/25/2025 9:39:00 AM
AI在线

深推理模型崛起!Together AI融资3.05亿美元助推GPU需求

在 AI 行业,Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资,这一消息引起了广泛关注。 该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。 与最初的担忧相反,许行业专家认为,深度推理的进步并没有降低对基础设施的需求,反而在不断提升这一需求。
2/21/2025 10:28:00 AM
AI在线

DeepSeek 团队新作:把代码变成思维链,大模型推理各种能力全面提升

DeepSeek 团队最新研究,利用 300 多万个实例,将代码转换成思考过程,构建出数据集 CODEI/O,对 Qwen、Llama 等模型进行了训练。
2/17/2025 2:57:01 PM
清源

DeepSeek R1 遇难题 142 次 "I give up",研究还称需增加推理时机控制机制

Cursor 刚刚参与了一项研究,他们基于 NPR 周日谜题挑战(The Sunday Puzzle),构建了一个包含近 600 个问题新基准测试。
2/14/2025 12:57:55 PM
清源

人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/10/2025 1:15:00 PM
机器之心

OpenAI 升级 o3-mini 模型思维链,提高 AI 推理透明度

OpenAI 公司今天(2 月 7 日)在 X 平台发布推文,宣布面向免费和付费用户更新 o3-mini 的思维链,并为付费用户更新 o3-mini-high 的思维链,更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。
2/7/2025 7:20:02 AM
故渊

TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview

近日,中国电信人工智能研究院(TeleAI)“复杂推理大模型” TeleAI-t1-preview 正式发布,即将上线天翼 AI 开放平台。 TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。 早在 1500 多年前,数学家祖冲之就曾在《辩戴法兴难新历》中指出,复杂事物的运行规律并非超自然现象,而是可以通过实际观测、数据推理而严谨求得。
1/26/2025 9:41:00 AM
新闻助手

推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了

瞄准推理时扩展(Inference-time scaling),DeepMind新的进化搜索策略火了! 所提出的“Mind Evolution”(思维进化),能够优化大语言模型(LLMs)在规划和推理中的响应。 由于提升显著,Reddit/𝕏一时间出现了大量讨论:由于结合了遗传算法,使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右,一下提升90个百分点。
1/23/2025 4:25:23 PM
量子位

Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
1/20/2025 9:05:00 AM
量子位