AI在线 AI在线

RFT

从反馈中学习:强化学习如何提升百晓生问答精准度

第一部分:引言在人工智能技术飞速发展的今天,智能问答系统已成为连接信息与用户的重要桥梁,它们不仅重塑着人机交互方式,更在提升服务效率、优化知识获取路径等方面展现出巨大潜力。 在此背景下,"百晓生"作为一款基于RAG(检索增强生成)与外挂知识库的大型语言模型(LLM)驱动的问答产品,专注于为上门工程师提供精准的质检知识答疑服务。 经过一年的持续迭代与优化,该产品已从最初的10%小流量实验,逐步开放至全国范围,目前每日稳定为超过3000名工程师提供支持,连续多周问答准确率保持在90% 。
10/30/2025 1:22:00 AM
车天博、李俊波、李莹莹

OpenAI o4-mini携强化微调正式上线,AI专业能力迈向专家级

5月8日,OpenAI o4-mini携强化微调正式上线。 这两项技术的结合彻底改变了AI专业化的成本结构和技术门槛,让企业能以少量训练数据将通用AI迅速转变为特定领域的专家系统。 从通用智能到专家级AI的跨越式飞跃强化微调技术作为此次发布的核心亮点,标志着OpenAI在定制化模型领域取得重大突破。
5/9/2025 5:00:51 PM
AI在线

感谢 DeepSeek:Predibase 发布全球首个端到端强化微调平台并开源,支持无服务器和端到端训练方法

Predibase 表示,DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响,让很多人意识到强化学习微调对训练大模型的重要性。受此启发,他们开发了这个端到端无服务器强化微调平台。
3/20/2025 6:36:28 AM
问舟

微调已死,强化微调万岁

编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)OpenAI第二天的直播,奥特曼没有出镜,几位OpenAI的研究员带了一场AI模型的定制魔法秀! “这不是标准的微调......它利用强化学习算法,将我们从高级高中水平带到专家级博士水平。 ”1.12个样本,就能让定制o1超过满血o1标准的微调已经过时了,这次 OpenAI 打破了 AI 定制的界限。
12/10/2024 9:07:17 AM
言征
  • 1