AI在线 AI在线

DeepSeek终极版震撼发布!

从15.9分跳到21.7分——当我看到DeepSeek V3.1-Terminus在"人类终极测试"中的得分时,第一反应是检查了下数据有没有看错。 36%的提升幅度,这在AI模型优化中简直是质的飞跃。 图片昨天DeepSeek正式发布了V3.1-Terminus"终极版",这个名字挺有意思。

从15.9分跳到21.7分——当我看到DeepSeek V3.1-Terminus在"人类终极测试"中的得分时,第一反应是检查了下数据有没有看错。36%的提升幅度,这在AI模型优化中简直是质的飞跃。

图片图片

昨天DeepSeek正式发布了V3.1-Terminus"终极版",这个名字挺有意思。Terminus在拉丁语里是"终点"的意思,听起来像是V3系列的收官之作。果然,业界已经开始猜测DeepSeek是不是要憋大招准备发布V4了。

但先不聊未来,这次的V3.1-Terminus确实解决了不少实际问题。

修复了最让人头疼的问题

说实话,之前用DeepSeek的时候确实遇到过一些奇怪的情况。有时候问它一个中文问题,回答到一半突然冒出英文,或者偶尔蹦出几个莫名其妙的字符。虽然不影响大体使用,但总感觉有点不够稳定。

这次V3.1-Terminus针对性地解决了这些问题:

• 中英文混杂问题 - 不再出现莫名其妙的语言切换

• 随机异常字符 - 告别那些突然出现的乱码

• 输出一致性 - 确保回答的稳定性和连贯性

智能体能力的大幅提升

除了基础稳定性的改进,这次最大的亮点是Code Agent和Search Agent的能力优化。

Code Agent就是编程智能体,主要负责代码生成、调试和优化。Search Agent是搜索智能体,能够帮你快速找到和整理信息。这两个功能在实际工作中还挺实用的,特别是对程序员和研究人员来说。

虽然DeepSeek没有公布具体的技术细节,但从用户反馈来看,编程能力确实有明显提升。有开发者测试后表示,代码生成的准确性和可执行性都比之前版本好了不少。

HLE测试得分的意义

再回到开头提到的那个数据。"Humanity's Last Exam"(人类终极测试)是一个比较权威的AI能力评估基准,主要测试模型在复杂推理、逻辑分析等方面的表现。

从15.9分提升到21.7分,意味着DeepSeek在处理复杂任务时的准确性和逻辑性都有了质的飞跃。

这个分数提升不是简单的数字游戏。在AI模型评测中,每一分的提升都代表着大量的技术优化和算法改进。36%的提升幅度,在业界算是相当显著的进步了。

技术架构依然强悍

V3.1-Terminus依然采用MoE(专家混合)架构,总参数量达到6710亿,但每个token只激活其中的37亿参数。这种设计既保证了强大的能力,又控制了计算成本。

说白了,就是用最少的计算资源发挥最大的性能。这对国产AI来说特别重要,毕竟算力成本是个现实问题。

"终极版"背后的战略意图

Terminus这个命名挺有意思的。在科幻小说《银河帝国》中,Terminus是银河边缘的一个重要星球,象征着旧秩序的终结和新时代的开始。

DeepSeek选择这个名字,可能暗示V3系列即将收官,下一步要推出更重磅的版本。从时间节点来看,如果V4确实在路上,那时间窗口应该就在今年年底或明年年初。

不过这只是猜测。目前V3.1-Terminus已经在DeepSeek的官网、App和API接口全面上线,用户可以直接体验。

实际体验怎么样?

我试用了几个小时,整体感受确实比之前的版本要稳定。特别是在处理中文逻辑推理问题时,回答的连贯性明显提升了。

编程能力方面,我让它帮我写了几个Python脚本,生成的代码质量还不错,基本可以直接运行。当然,复杂的算法设计还是需要人工审查,但对于日常的编码任务已经很实用了。

搜索能力我没有深度测试,但从简单的信息查找来看,确实比之前快了一些,整理的信息也更有条理。

总的来说,这次更新主要解决的是用户体验问题,让DeepSeek变得更加可靠和实用。虽然没有革命性的功能突破,但在稳定性和智能体能力上的提升还是很明显的。

如果你之前因为稳定性问题对DeepSeek有所保留,现在可能是个重新试试的好时机。毕竟免费使用,试错成本也不高。

相关资讯

DeepSeek V3.1终结版发布:修复关键漏洞提升稳定性,V4新架构呼之欲出

国产AI大模型DeepSeek迎来重要更新。 该公司近日发布DeepSeek V3.1-Terminus版本,这一命名颇具深意的新版本不仅解决了此前困扰用户的技术问题,更暗示着V3系列可能即将落下帷幕。 此次更新的核心亮点在于对模型稳定性的显著提升。
9/26/2025 3:01:14 PM
AI在线

DeepSeek-V3-0324 发布:更智能的编码体验,加速码农编码效率!

DeepSeek V3 迎来了全新版本的更新;消息一经发布,众多专业人士纷纷对其进行测评,结果令人惊叹不已。 尽管官方将此次升级定义为小版本更新,但在实际的编码能力测试中,其表现丝毫不逊色于大版本的 DeepSeek V4。 在此,我为大家提供一个专业的测评网址:。
3/28/2025 2:00:00 AM

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

就在昨晚,Anthropic 要发新模型的消息开始在 AI 社区广泛发酵,不过并不是期待中的 Claude 4.0,而是 3.7 Sonnet 版本。 图源:,Anthropic 的新旗舰模型如约而至,正式发布了其迄今为止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet。 Claude 3.7 Sonnet 可以产生近乎即时的响应或者向用户展示扩展的、逐步的思考。
2/25/2025 9:02:26 AM
机器之心
  • 1