RFT

从反馈中学习：强化学习如何提升百晓生问答精准度

从反馈中学习：强化学习如何提升百晓生问答精准度

第一部分：引言在人工智能技术飞速发展的今天，智能问答系统已成为连接信息与用户的重要桥梁，它们不仅重塑着人机交互方式，更在提升服务效率、优化知识获取路径等方面展现出巨大潜力。在此背景下，"百晓生"作为一款基于RAG（检索增强生成）与外挂知识库的大型语言模型（LLM）驱动的问答产品，专注于为上门工程师提供精准的质检知识答疑服务。经过一年的持续迭代与优化，该产品已从最初的10%小流量实验，逐步开放至全国范围，目前每日稳定为超过3000名工程师提供支持，连续多周问答准确率保持在90% 。

10/30/2025 1:22:00 AM 车天博、李俊波、李莹莹

OpenAI o4-mini携强化微调正式上线，AI专业能力迈向专家级

OpenAI o4-mini携强化微调正式上线，AI专业能力迈向专家级

5月8日，OpenAI o4-mini携强化微调正式上线。这两项技术的结合彻底改变了AI专业化的成本结构和技术门槛，让企业能以少量训练数据将通用AI迅速转变为特定领域的专家系统。从通用智能到专家级AI的跨越式飞跃强化微调技术作为此次发布的核心亮点，标志着OpenAI在定制化模型领域取得重大突破。

5/9/2025 5:00:51 PM AI在线

感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

Predibase 表示，DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响，让很多人意识到强化学习微调对训练大模型的重要性。受此启发，他们开发了这个端到端无服务器强化微调平台。

3/20/2025 6:36:28 AM 问舟

微调已死，强化微调万岁

微调已死，强化微调万岁

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）OpenAI第二天的直播，奥特曼没有出镜，几位OpenAI的研究员带了一场AI模型的定制魔法秀！ “这不是标准的微调......它利用强化学习算法，将我们从高级高中水平带到专家级博士水平。 ”1.12个样本，就能让定制o1超过满血o1标准的微调已经过时了，这次 OpenAI 打破了 AI 定制的界限。

12/10/2024 9:07:17 AM 言征

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉