AI在线 AI在线

360开源升级自研7B参数模型360Zhinao3-7B 各项能力全面提升

360集团宣布开源升级了自研的7B参数模型360Zhinao3-7B,并已上线Github开源社区,可供免费商用。 这一模型不仅在数学和科学领域表现出色,更在通用能力上展现了强大的潜力,尤其在端侧应用上具有显著优势。 在本次升级中,360Zhinao3-7B模型仅通过增量训练700B的高质量token,就取得了显著的效果提升,这相比前代模型360Zhinao2-7B的10.1T token成本大幅降低,且不会增加模型的推理成本。

360集团宣布开源升级了自研的7B参数模型360Zhinao3-7B,并已上线Github开源社区,可供免费商用。这一模型不仅在数学和科学领域表现出色,更在通用能力上展现了强大的潜力,尤其在端侧应用上具有显著优势。

在本次升级中,360Zhinao3-7B模型仅通过增量训练700B的高质量token,就取得了显著的效果提升,这相比前代模型360Zhinao2-7B的10.1T token成本大幅降低,且不会增加模型的推理成本。

微信截图_20250507081022.png

在数据筛选方面,360智脑团队加大了筛选力度,离线训练了多种数据筛选模型,对不同种类的数据进行分档打分,显著提升了数据质量。此外,他们还调整了数据配比,大幅增加了数学、代码、指令等数据的占比,降低了网页和书籍的占比,从而进一步提升了模型的指令遵循和推理能力。

360Zhinao3-7B模型还增加了长文本预训练阶段,将最大窗口长度从4k提升至32k,ROPE的base从1w改为100w。在长文本预训练阶段,团队增加了超长文本和长代码的比例,进一步优化了模型的长文本处理能力。

在模型效果方面,360智脑团队使用开源工具opencompass对模型进行了多维度评估。结果显示,360Zhinao3-7B模型在10B尺寸附近的模型中,具备较强的竞争力。在微调阶段,团队采用了多种策略,包括蒸馏、强化学习等,进一步提升了模型的性能。在长思维链训练中,360Zhinao3-7B模型经过四个阶段的训练,最终在数学和科学数据上展现了与从0训练的7B推理模型相当的竞争力,同时在通用多轮对话、角色扮演及复杂指令遵循上表现更为出色。

360智脑团队表示,360Zhinao3-7B模型的开源,旨在推动AI技术的发展,为开发者提供更强大的工具。该模型不仅适用于数学和科学领域,更在端侧应用上具有广泛的应用前景。

https://github.com/Qihoo360/360zhinao3

相关资讯

小米首个推理大模型Xiaomi MiMo开源

2025年4月30日,小米公司宣布开源其首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」。 这一模型的发布标志着小米在人工智能领域迈出了重要的一步,特别是在推理能力的提升上取得了显著进展。 「Xiaomi MiMo」的诞生旨在探索如何激发模型的推理潜能,特别是在预训练增长见瓶颈的情况下。
4/30/2025 10:00:55 AM
AI在线

百川智能发布开源中英文大模型,多个榜单评测成绩最佳

王小川创立的百川智能发布中英文大模型,采用开源模式,可免费商用。报道 | 机器之能2023年6月15日,被称为「中国ChatGPT梦之队」的百川智能公司,推出了70 亿参数量的中英文预训练大模型——baichuan-7B。baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,大幅领先LLaMA-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Sc
6/15/2023 6:13:00 PM
机器之能

周鸿祎自称“开源信徒”:宣布将开源 360 智脑 7B 模型,支持 50 万字长文本输入

感谢360 创始人周鸿祎近日透露即将开源 360 智脑 7B(70 亿参数模型),支持 360k(50 万字)长文本输入。周鸿祎表示,前段时间大模型行业卷文本长度,100 万字“很快将是标配”。“我们打算将这个能力开源,大家没必要重复造轮子,定为 360k 主要是为了讨个口彩。”他还自称“开源的信徒”,信奉开源的力量。据介绍,360 智脑长文本能力已入驻大模型产品“360AI 浏览器”。周鸿祎还谈到了小模型的优势:其认为小模型速度快、用户体验也好,单机单卡就能跑,具备更高的性价比。目前,360AI 浏览器已向用户免
3/29/2024 3:27:56 PM
清源
  • 1