DeepSeek终极版震撼发布！

从15.9分跳到21.7分——当我看到DeepSeek V3.1-Terminus在"人类终极测试"中的得分时，第一反应是检查了下数据有没有看错。 36%的提升幅度，这在AI模型优化中简直是质的飞跃。图片昨天DeepSeek正式发布了V3.1-Terminus"终极版"，这个名字挺有意思。

从15.9分跳到21.7分——当我看到DeepSeek V3.1-Terminus在"人类终极测试"中的得分时，第一反应是检查了下数据有没有看错。36%的提升幅度，这在AI模型优化中简直是质的飞跃。

图片

昨天DeepSeek正式发布了V3.1-Terminus"终极版"，这个名字挺有意思。Terminus在拉丁语里是"终点"的意思，听起来像是V3系列的收官之作。果然，业界已经开始猜测DeepSeek是不是要憋大招准备发布V4了。

但先不聊未来，这次的V3.1-Terminus确实解决了不少实际问题。

修复了最让人头疼的问题

说实话，之前用DeepSeek的时候确实遇到过一些奇怪的情况。有时候问它一个中文问题，回答到一半突然冒出英文，或者偶尔蹦出几个莫名其妙的字符。虽然不影响大体使用，但总感觉有点不够稳定。

这次V3.1-Terminus针对性地解决了这些问题：

• 中英文混杂问题 - 不再出现莫名其妙的语言切换

• 随机异常字符 - 告别那些突然出现的乱码

• 输出一致性 - 确保回答的稳定性和连贯性

除了基础稳定性的改进，这次最大的亮点是Code Agent和Search Agent的能力优化。

Code Agent就是编程智能体，主要负责代码生成、调试和优化。Search Agent是搜索智能体，能够帮你快速找到和整理信息。这两个功能在实际工作中还挺实用的，特别是对程序员和研究人员来说。

虽然DeepSeek没有公布具体的技术细节，但从用户反馈来看，编程能力确实有明显提升。有开发者测试后表示，代码生成的准确性和可执行性都比之前版本好了不少。

再回到开头提到的那个数据。"Humanity's Last Exam"（人类终极测试）是一个比较权威的AI能力评估基准，主要测试模型在复杂推理、逻辑分析等方面的表现。

从15.9分提升到21.7分，意味着DeepSeek在处理复杂任务时的准确性和逻辑性都有了质的飞跃。

这个分数提升不是简单的数字游戏。在AI模型评测中，每一分的提升都代表着大量的技术优化和算法改进。36%的提升幅度，在业界算是相当显著的进步了。

V3.1-Terminus依然采用MoE（专家混合）架构，总参数量达到6710亿，但每个token只激活其中的37亿参数。这种设计既保证了强大的能力，又控制了计算成本。

说白了，就是用最少的计算资源发挥最大的性能。这对国产AI来说特别重要，毕竟算力成本是个现实问题。

Terminus这个命名挺有意思的。在科幻小说《银河帝国》中，Terminus是银河边缘的一个重要星球，象征着旧秩序的终结和新时代的开始。

DeepSeek选择这个名字，可能暗示V3系列即将收官，下一步要推出更重磅的版本。从时间节点来看，如果V4确实在路上，那时间窗口应该就在今年年底或明年年初。

不过这只是猜测。目前V3.1-Terminus已经在DeepSeek的官网、App和API接口全面上线，用户可以直接体验。

实际体验怎么样？

我试用了几个小时，整体感受确实比之前的版本要稳定。特别是在处理中文逻辑推理问题时，回答的连贯性明显提升了。

编程能力方面，我让它帮我写了几个Python脚本，生成的代码质量还不错，基本可以直接运行。当然，复杂的算法设计还是需要人工审查，但对于日常的编码任务已经很实用了。

搜索能力我没有深度测试，但从简单的信息查找来看，确实比之前快了一些，整理的信息也更有条理。

总的来说，这次更新主要解决的是用户体验问题，让DeepSeek变得更加可靠和实用。虽然没有革命性的功能突破，但在稳定性和智能体能力上的提升还是很明显的。

如果你之前因为稳定性问题对DeepSeek有所保留，现在可能是个重新试试的好时机。毕竟免费使用，试错成本也不高。

相关资讯