推理

通义万相开源视频生成模型Wan2.1：8.2G显存即可生成480P视频

2/26/2025 7:58:00 AM AI在线

360联合北大震撼发布！5%参数量逼近Deepseek-R1满血性能

2025年2月24日，由360与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相，仅以5%参数，逼近DeepSeek-R1-671B的性能。核心突破：小模型，大能量数学领域：以78.1分（AIME 2024评测）逼近原版R1模型（79.8分），远超DeepSeek-R1-Distill-Llama-70B（70.0分）；综合性能：在编程（LiveCodeBench 61.6分）、科学（GPQA-Diamond 65.0分）领域全面领先最佳开源70B模型DeepSeek-R1-Distill-Llama-70B；效率跃迁：仅需5%参数量，性能达原版R1的95%以上，推理成本大幅降低。技术革新：领域专精模型融合研究团队使用「分治-融合」策略：基于DeepSeek-R1生成海量领域数据，分别训练数学、编程、科学三大垂直模型；通过Arcee团队Mergekit工具智能融合，突破单一模型性能上限，实现多任务均衡优化。

2/25/2025 2:50:16 PM 新智元

大语言模型：表面的推理能力背后是出色的规划技巧

译者 | 刘汪洋审校 | 重楼大语言模型(LLMs)在技术发展上取得了显著突破。 OpenAI 的 o3、Google 的 Gemini 2.0和 DeepSeek 的R1展现出了卓越的能力：它们能处理复杂问题、生成自然的对话内容，甚至精确编写代码。业界常把这些先进的LLMs 称为"推理模型"，因为它们在分析和解决复杂问题时表现非凡。

2/25/2025 9:49:12 AM 刘汪洋

新型语言模型 Huginn：突破推理界限无需语言即可“思考”

近日，来自图宾根埃利斯研究所、马里兰大学和劳伦斯利弗莫尔国家实验室的研究团队，开发出名为 Huginn 的新型语言模型，该模型采用递归架构，显著提升了推理能力。与传统模型不同，Huginn 无需专门的“推理链”训练，便可在神经网络的“潜在空间”内自主推理，再输出结果。研究团队开发出名为 Huginn 的新型语言模型，该模型采用递归架构，显著提升了推理能力。

2/25/2025 9:39:00 AM AI在线

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。

2/21/2025 10:28:00 AM AI在线

DeepSeek 团队新作：把代码变成思维链，大模型推理各种能力全面提升

2/17/2025 2:57:01 PM 清源

DeepSeek R1 遇难题 142 次 "I give up"，研究还称需增加推理时机控制机制

Cursor 刚刚参与了一项研究，他们基于 NPR 周日谜题挑战（The Sunday Puzzle），构建了一个包含近 600 个问题新基准测试。

2/14/2025 12:57:55 PM 清源

人大刘勇团队「慢思考」机理分析：从雪球误差到正确推理概率

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/10/2025 1:15:00 PM 机器之心

OpenAI 升级 o3-mini 模型思维链，提高 AI 推理透明度

OpenAI 公司今天（2 月 7 日）在 X 平台发布推文，宣布面向免费和付费用户更新 o3-mini 的思维链，并为付费用户更新 o3-mini-high 的思维链，更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。

2/7/2025 7:20:02 AM 故渊

TeleAI “复杂推理大模型” 达竞赛级数学表现，评分超 o1-preview

近日，中国电信人工智能研究院（TeleAI）“复杂推理大模型” TeleAI-t1-preview 正式发布，即将上线天翼 AI 开放平台。 TeleAI-t1-preview 使用了强化学习训练方法，通过引入探索、反思等思考范式，大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。早在 1500 多年前，数学家祖冲之就曾在《辩戴法兴难新历》中指出，复杂事物的运行规律并非超自然现象，而是可以通过实际观测、数据推理而严谨求得。

1/26/2025 9:41:00 AM 新闻助手

推理模型规划任务成功率从5%到95%，DeepMind遗传算法新研究火了

瞄准推理时扩展（Inference-time scaling），DeepMind新的进化搜索策略火了！所提出的“Mind Evolution”（思维进化），能够优化大语言模型（LLMs）在规划和推理中的响应。由于提升显著，Reddit/𝕏一时间出现了大量讨论：由于结合了遗传算法，使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右，一下提升90个百分点。

1/23/2025 4:25:23 PM 量子位

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

一个新框架，让Qwen版o1成绩暴涨：在博士级别的科学问答、数学、代码能力的11项评测中，能力显著提升，拿下10个第一！这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。项目团队成员发现，o1和o1类模型在推理过程中表现突出，但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时，推理过程就很容易卡壳，导致推理链中的错误传递。

1/20/2025 9:05:00 AM 量子位

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

推理

通义万相开源视频生成模型Wan2.1：8.2G显存即可生成480P视频

360联合北大震撼发布！5%参数量逼近Deepseek-R1满血性能

大语言模型：表面的推理能力背后是出色的规划技巧

新型语言模型 Huginn：突破推理界限 无需语言即可“思考”

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

DeepSeek 团队新作：把代码变成思维链，大模型推理各种能力全面提升

DeepSeek R1 遇难题 142 次 "I give up"，研究还称需增加推理时机控制机制

人大刘勇团队「慢思考」机理分析：从雪球误差到正确推理概率

OpenAI 升级 o3-mini 模型思维链，提高 AI 推理透明度

TeleAI “复杂推理大模型” 达竞赛级数学表现，评分超 o1-preview

推理模型规划任务成功率从5%到95%，DeepMind遗传算法新研究火了

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

新型语言模型 Huginn：突破推理界限无需语言即可“思考”