AI在线 AI在线

DeepSeek-V3 & R1 合体:快手开源 "Auto Think" 大模型,可根据问题自动调节思考深度

快手 Kwaipilot 团队开源了 KwaiCoder-AutoThink-preview 自动思考大模型,该模型融合了“思考”和“非思考”能力,号称“DeepSeek-V3 & R1 合体”,具备根据问题难度自动切换思考形态的能力。
感谢快手 Kwaipilot 团队近日开源了 KwaiCoder-AutoThink-preview 自动思考大模型,针对近期深度思考大模型存在的“过度思考”问题进行了深入研究。团队提出了一种全新的自动思考模型训练范式,同时基于传统强化学习算法(GRPO),提出了带有过程监督的强化学习方法 Step-SRPO,以进一步提升模型在复杂任务中的表现。

图片

据介绍,该模型融合了“思考”和“非思考”能力,号称“DeepSeek-V3 & R1 合体”,具备根据问题难度自动切换思考形态的能力。通过进行这种思考形态训练,模型在多个“思考”和“非思考”评测榜单上均实现了性能提升,其中在部分代码和数学类的任务上,开启自动思考模式下的模型得分提升高达 20 分左右。官方表示,在部分榜单中,即使模型没有开启思考模式,受益于更优的推理形态,性能也有小幅上涨。

图片

快手技术表示,Kwaipilot 未来将基于 preview 版本模型,进一步增强推理能力,支持更完善的思考中工具使用能力,也会将全部技术细节、训练方法开源。AI在线附模型开源地址:

https://huggingface.co/Kwaipilot/KwaiCoder-AutoThink-preview

相关资讯

谷歌Gemini 2.5 Pro Deep Think发布:并行推理重塑AI复杂问题解决

在2025年5月20日的Google I/O开发者大会上,谷歌DeepMind正式推出了Gemini2.5Pro Deep Think模式,这一实验性增强推理模式为AI处理复杂任务树立了新标杆。 Deep Think模式通过并行推理技术,使Gemini2.5Pro在数学、编码和多模态推理等领域的表现达到行业领先水平。 并行推理技术,显著提升复杂任务表现Deep Think模式采用前沿的并行推理技术,允许模型在生成响应前探索多个假设路径,从而提升答案的准确性和深度。
5/21/2025 10:01:51 AM
AI在线

地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋

AI好好用报道编辑:Sia又是一个文理兼修的优等生,能薅一点是一点。 好消息! 好消息!
2/20/2025 6:15:00 PM
AI好好用

三思而后行,让大模型推理更强的秘密是「THINK TWICE」?

近年来,大语言模型(LLM)的性能提升逐渐从训练时规模扩展转向推理阶段的优化,这一趋势催生了「测试时扩展(test-time scaling)」的研究热潮。 OpenAI 的 o1 系列与 DeepSeek 的 R1 模型已展示出显著的推理能力提升。 然而,在实现高性能的同时,复杂的训练策略、冗长的提示工程和对外部评分系统的依赖仍是现实挑战。
4/5/2025 5:10:00 PM
机器之心
  • 1