AI在线 AI在线

研究人员开源 Sky-T1 推理 AI 模型,训练成本不到 450 美元

本周,来自加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 发布了一款名为 Sky-T1-32B-Preview 的推理模型。该模型在多项关键基准测试中的表现可与 OpenAI 早期版本的 o1 模型相媲美。值得注意的是,Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。

本周,来自加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 发布了一款名为 Sky-T1-32B-Preview 的推理模型。该模型在多项关键基准测试中的表现可与 OpenAI 早期版本的 o1 模型相媲美。值得注意的是,Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。

研究人员开源 Sky-T1 推理 AI 模型,训练成本不到 450 美元

NovaSky 团队在博客中透露,Sky-T1-32B-Preview 的训练成本不到 450 美元(AI在线备注:当前约 3306 元人民币),远低于以往同类模型的数百万美元。这一突破得益于合成训练数据的广泛应用,合成数据是由其他模型生成的数据,能够显著降低训练成本。例如,AI 公司 Writer 最近发布的 Palmyra X 004 模型几乎完全依赖合成数据训练,开发成本仅为 70 万美元。

与大多数 AI 模型不同,推理模型具备自我事实核查能力,能够有效避免一些常见错误。尽管推理模型在解决问题时通常比非推理模型需多花费几秒到几分钟,但在物理、科学和数学等领域,其可靠性更高。

NovaSky 团队表示,Sky-T1 的训练数据由阿里巴巴的 QwQ-32B-Preview 推理模型生成,随后经过精心筛选,并利用 OpenAI 的 GPT-4o-mini 对数据进行重构,使其更易于处理。训练这款拥有 320 亿参数的模型仅耗时约 19 小时,使用了 8 台 Nvidia H100 GPU。(参数数量大致对应模型的解决问题能力。)

在性能方面,Sky-T1 在 MATH500(一组“竞赛级”数学挑战)上的表现优于 o1 的早期预览版本,同时在 LiveCodeBench 的编程评估中也表现更佳。然而,在 GPQA-Diamond 测试中(包含物理学、生物学和化学领域的研究生水平问题),Sky-T1 略逊于 o1 预览版。

需要指出的是,OpenAI 已发布的 o1 正式版比预览版更强大,且预计未来几周内将推出性能更优的推理模型 o3。尽管如此,NovaSky 团队表示,Sky-T1 只是他们开发开源推理模型的起点。

团队在博客中写道:“未来,我们将专注于开发更具效率的模型,同时保持强大的推理性能,并探索先进技术以进一步提升模型在测试时的效率和准确性。请继续关注我们在这些激动人心的项目上取得的进展。”

相关资讯

OpenAI开源客户服务代理框架 加速企业级AI应用落地

OpenAI开源客户服务代理框架 加速企业级AI应用落地

人工智能研究机构OpenAI于6月18日正式开源其客户服务代理框架,标志着该公司在企业级AI解决方案布局上迈出重要一步。 该框架通过提供透明工具链和清晰实施案例,旨在推动智能代理系统从实验室走向实际商业应用。 技术细节与核心优势.
6/19/2025 2:01:33 PM AI在线
专家揭示构建稳健AI编排层的最佳实践

专家揭示构建稳健AI编排层的最佳实践

随着企业加速采用人工智能技术,如何有效管理复杂的AI工作流程成为关键挑战。 最新行业分析指出,建立稳健的AI编排层是解决"提示词混乱"问题的有效方案。 AI编排框架的选择困境.
6/19/2025 2:01:28 PM AI在线
江西:促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

江西:促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

AI在线 12 月 24 日消息,江西省人民政府今日印发《江西省“人工智能 ”行动方案》,其中提出,“人工智能 ”生活消费行动方面,加强云侧智能决策、场景引擎和自适应感知等关键技术与购物、文娱、家居等领域深度融合,发展新型智慧电商、智慧娱乐、智慧家居等新业态。 促进智能眼镜、智能手表、VR / AR 设备等智能设备消费。 据AI在线了解,《方案》还提到,加大具身智能、消费电子等领域传感器研发生产,加快智能穿戴、虚拟现实等领域产品创新,支持企业开展光通信、显示、音视频等模组研发应用。
12/24/2025 4:15:36 PM 清源