从15.9分跳到21.7分——当我看到DeepSeek V3.1-Terminus在"人类终极测试"中的得分时,第一反应是检查了下数据有没有看错。36%的提升幅度,这在AI模型优化中简直是质的飞跃。
图片
昨天DeepSeek正式发布了V3.1-Terminus"终极版",这个名字挺有意思。Terminus在拉丁语里是"终点"的意思,听起来像是V3系列的收官之作。果然,业界已经开始猜测DeepSeek是不是要憋大招准备发布V4了。
但先不聊未来,这次的V3.1-Terminus确实解决了不少实际问题。
修复了最让人头疼的问题
说实话,之前用DeepSeek的时候确实遇到过一些奇怪的情况。有时候问它一个中文问题,回答到一半突然冒出英文,或者偶尔蹦出几个莫名其妙的字符。虽然不影响大体使用,但总感觉有点不够稳定。
这次V3.1-Terminus针对性地解决了这些问题:
• 中英文混杂问题 - 不再出现莫名其妙的语言切换
• 随机异常字符 - 告别那些突然出现的乱码
• 输出一致性 - 确保回答的稳定性和连贯性
智能体能力的大幅提升
除了基础稳定性的改进,这次最大的亮点是Code Agent和Search Agent的能力优化。
Code Agent就是编程智能体,主要负责代码生成、调试和优化。Search Agent是搜索智能体,能够帮你快速找到和整理信息。这两个功能在实际工作中还挺实用的,特别是对程序员和研究人员来说。
虽然DeepSeek没有公布具体的技术细节,但从用户反馈来看,编程能力确实有明显提升。有开发者测试后表示,代码生成的准确性和可执行性都比之前版本好了不少。
HLE测试得分的意义
再回到开头提到的那个数据。"Humanity's Last Exam"(人类终极测试)是一个比较权威的AI能力评估基准,主要测试模型在复杂推理、逻辑分析等方面的表现。
从15.9分提升到21.7分,意味着DeepSeek在处理复杂任务时的准确性和逻辑性都有了质的飞跃。
这个分数提升不是简单的数字游戏。在AI模型评测中,每一分的提升都代表着大量的技术优化和算法改进。36%的提升幅度,在业界算是相当显著的进步了。
技术架构依然强悍
V3.1-Terminus依然采用MoE(专家混合)架构,总参数量达到6710亿,但每个token只激活其中的37亿参数。这种设计既保证了强大的能力,又控制了计算成本。
说白了,就是用最少的计算资源发挥最大的性能。这对国产AI来说特别重要,毕竟算力成本是个现实问题。
"终极版"背后的战略意图
Terminus这个命名挺有意思的。在科幻小说《银河帝国》中,Terminus是银河边缘的一个重要星球,象征着旧秩序的终结和新时代的开始。
DeepSeek选择这个名字,可能暗示V3系列即将收官,下一步要推出更重磅的版本。从时间节点来看,如果V4确实在路上,那时间窗口应该就在今年年底或明年年初。
不过这只是猜测。目前V3.1-Terminus已经在DeepSeek的官网、App和API接口全面上线,用户可以直接体验。
实际体验怎么样?
我试用了几个小时,整体感受确实比之前的版本要稳定。特别是在处理中文逻辑推理问题时,回答的连贯性明显提升了。
编程能力方面,我让它帮我写了几个Python脚本,生成的代码质量还不错,基本可以直接运行。当然,复杂的算法设计还是需要人工审查,但对于日常的编码任务已经很实用了。
搜索能力我没有深度测试,但从简单的信息查找来看,确实比之前快了一些,整理的信息也更有条理。
总的来说,这次更新主要解决的是用户体验问题,让DeepSeek变得更加可靠和实用。虽然没有革命性的功能突破,但在稳定性和智能体能力上的提升还是很明显的。
如果你之前因为稳定性问题对DeepSeek有所保留,现在可能是个重新试试的好时机。毕竟免费使用,试错成本也不高。