感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

作者：问舟 2025-03-20 06:36

Predibase 表示，DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响，让很多人意识到强化学习微调对训练大模型的重要性。受此启发，他们开发了这个端到端无服务器强化微调平台。

昨日晚间，大模型训练、开发平台 Predibase 发布了首个端到端强化微调平台（RFT）。

与传统的监督式微调相比，RFT 不依赖大量的标注数据，而是通过奖励和自定义函数来完成持续地强化学习，同时支持无服务器和端到端训练方法，从数据管理、训练模型到应用部署可以在同一个平台完成。用户只需要一个浏览器，设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

为了展示 RFT 的强大，Predibase 根据阿里开源的 Qwen2.5-Coder-32B-instruct，微调了一个专门用于将 PyTorch 代码翻译为 Triton 的模型 Predibase-T2T-32B-RFT。

感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

与传统的监督式微调方法不同，Predibase-T2T-32B-RFT 利用 RFT 以交互方式调整模型行为，以最少的标记数据优化下游任务质量。这使其成为专有 LLM 的高性价比、高性能替代方案。

通过 RFT，Predibase 在训练过程结合了冷启动监督式微调、强化学习和课程学习，并且只使用了十几个标记数据点。

在 Kernelbench 数据集上进行的基准测试显示，Qwen2.5-Coder-32B-instruct 经过强化后，其正确率比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍，比 Claude 3.7 Sonnet 高出 4 倍以上，而模型的体量却比这三个小很多。

AI在线附开源地址：https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址：https://predibase.com/reinforcement-fine-tuning-playground

OpenAI o4-mini携强化微调正式上线，AI专业能力迈向专家级

5月8日，OpenAI o4-mini携强化微调正式上线。这两项技术的结合彻底改变了AI专业化的成本结构和技术门槛，让企业能以少量训练数据将通用AI迅速转变为特定领域的专家系统。从通用智能到专家级AI的跨越式飞跃强化微调技术作为此次发布的核心亮点，标志着OpenAI在定制化模型领域取得重大突破。

5/9/2025 5:00:51 PM

AI在线

微调已死，强化微调万岁

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）OpenAI第二天的直播，奥特曼没有出镜，几位OpenAI的研究员带了一场AI模型的定制魔法秀！ “这不是标准的微调......它利用强化学习算法，将我们从高级高中水平带到专家级博士水平。 ”1.12个样本，就能让定制o1超过满血o1标准的微调已经过时了，这次 OpenAI 打破了 AI 定制的界限。

12/10/2024 9:07:17 AM

言征

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

相关资讯

OpenAI o4-mini携强化微调正式上线，AI专业能力迈向专家级

微调已死，强化微调万岁

调查：超72% 的企业选择 AI 工具时最看重易用性