AI在线 AI在线

​腾讯混元 TurboS 技术报告全面揭秘,560B参数混合Mamba架构

腾讯发布了混元 TurboS 技术报告,揭示了其旗舰大语言模型 TurboS 的核心创新与强大能力。 根据全球权威大模型评测平台 Chatbot Arena 的最新排名,混元 TurboS 在239个参赛模型中位列第七,成为国内仅次于 Deepseek 的顶尖模型,并在国际上仅落后于谷歌、OpenAI 及 xAI 等几家机构。 混元 TurboS 模型的架构采用了创新的 Hybrid Transformer-Mamba 结构,这种新颖的设计结合了 Mamba 架构在处理长序列上的高效性与 Transformer 架构在上下文理解上的优势,从而实现了性能与效率的平衡。

腾讯发布了混元 TurboS 技术报告,揭示了其旗舰大语言模型 TurboS 的核心创新与强大能力。

根据全球权威大模型评测平台 Chatbot Arena 的最新排名,混元 TurboS 在239个参赛模型中位列第七,成为国内仅次于 Deepseek 的顶尖模型,并在国际上仅落后于谷歌、OpenAI 及 xAI 等几家机构。

image.png

混元 TurboS 模型的架构采用了创新的 Hybrid Transformer-Mamba 结构,这种新颖的设计结合了 Mamba 架构在处理长序列上的高效性与 Transformer 架构在上下文理解上的优势,从而实现了性能与效率的平衡。该模型总共包含128层,激活参数量高达560亿,成为业界首个大规模部署的 Transformer-Mamba 专家混合模型(MoE)。通过这样的架构创新,TurboS 在国际权威评测中取得了整体高分1356。

为了进一步提升模型的能力,混元 TurboS 引入了自适应长短思维链机制,能够根据问题的复杂度自动切换响应模式。这一机制让模型在处理简单问题时能够迅速响应,而在面对复杂问题时,则会深入分析并给出高准确度的答案。此外,团队还设计了包含监督微调、自适应长短 CoT 融合等四个关键模块的后训练流程,进一步增强了模型的表现。

image.png

在预训练阶段,混元 TurboS 在16万亿 Token 的语料上进行训练,确保了模型的数据质量和多样性。其核心架构包含 Transformer、Mamba2和前馈神经网络(FFN)组件,层级构成合理,最大程度上提升了训练和推理的效率。

此次技术报告的发布,不仅展示了腾讯在大语言模型领域的技术实力,也为今后大模型的发展提供了新的思路与方向。

论文链接: https://arxiv.org/abs/2505.15431

划重点:

🌟 TurboS 模型在 Chatbot Arena 中排名第七,展现了强大的竞争力。  

💡 创新的 Hybrid Transformer-Mamba 架构实现了性能与效率的最佳平衡。  

🔍 自适应长短思维链机制提升了模型在不同复杂度问题下的响应能力。

相关资讯

​腾讯发布混元 - T1 正式版,推理能力大幅提升

近日,腾讯发布了混元大模型系列的正式版 —— 混元 - T1。 这款新模型基于混元中等规模底座,经过大规模后训练,显著增强了推理能力,特别是在深度思考和复杂问题解决方面表现出色。 自从今年2月混元 T1-Preview 上线以来,用户们便体验到了更快、更深刻的思考过程,而此次正式版的推出,则标志着该系列产品的进一步升级。
3/24/2025 9:54:00 AM
AI在线

腾讯混元宣布模型矩阵全面升级,新推视觉推理模型T1-Vision和语音通话模型混元Voice

今日,腾讯混元正式宣布其模型矩阵的全面升级,包括 旗舰快思考模型混元TurboS、深度思考模型混元T1升级,并基于TurboS基座,新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。 另外,腾讯混元图像2.0、腾讯混元3D v2.5及混元游戏视觉生成等一系列多模态模型同步“上新”。 此次升级不仅增强了混元在 AI 领域的竞争力,也标志着腾讯在多模态技术上的新进展。
5/21/2025 2:01:08 PM
AI在线

腾讯大模型战略亮相 Turbo S 与 T1 模型全面升级

5月21日,腾讯宣布其混元大模型矩阵全面升级,标志着腾讯在人工智能领域的技术能力持续提升。 此次升级涵盖了多个方面,包括旗舰快思考模型混元TurboS、深度思考模型混元T1的升级,以及基于TurboS基座新推出的视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。 此外,腾讯还同步更新了混元图像2.0、混元3D v2.5及混元游戏视觉生成等一系列多模态模型。
5/21/2025 2:01:08 PM
AI在线
  • 1