RFT
从反馈中学习:强化学习如何提升百晓生问答精准度
第一部分:引言在人工智能技术飞速发展的今天,智能问答系统已成为连接信息与用户的重要桥梁,它们不仅重塑着人机交互方式,更在提升服务效率、优化知识获取路径等方面展现出巨大潜力。 在此背景下,"百晓生"作为一款基于RAG(检索增强生成)与外挂知识库的大型语言模型(LLM)驱动的问答产品,专注于为上门工程师提供精准的质检知识答疑服务。 经过一年的持续迭代与优化,该产品已从最初的10%小流量实验,逐步开放至全国范围,目前每日稳定为超过3000名工程师提供支持,连续多周问答准确率保持在90% 。
10/30/2025 1:22:00 AM
车天博、李俊波、李莹莹
OpenAI o4-mini携强化微调正式上线,AI专业能力迈向专家级
5月8日,OpenAI o4-mini携强化微调正式上线。 这两项技术的结合彻底改变了AI专业化的成本结构和技术门槛,让企业能以少量训练数据将通用AI迅速转变为特定领域的专家系统。 从通用智能到专家级AI的跨越式飞跃强化微调技术作为此次发布的核心亮点,标志着OpenAI在定制化模型领域取得重大突破。
5/9/2025 5:00:51 PM
AI在线
感谢 DeepSeek:Predibase 发布全球首个端到端强化微调平台并开源,支持无服务器和端到端训练方法
Predibase 表示,DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响,让很多人意识到强化学习微调对训练大模型的重要性。受此启发,他们开发了这个端到端无服务器强化微调平台。
3/20/2025 6:36:28 AM
问舟
微调已死,强化微调万岁
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)OpenAI第二天的直播,奥特曼没有出镜,几位OpenAI的研究员带了一场AI模型的定制魔法秀! “这不是标准的微调......它利用强化学习算法,将我们从高级高中水平带到专家级博士水平。 ”1.12个样本,就能让定制o1超过满血o1标准的微调已经过时了,这次 OpenAI 打破了 AI 定制的界限。
12/10/2024 9:07:17 AM
言征
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
AI新词
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
大语言模型
生成
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
深度学习
架构
生成式AI
DeepMind
编程
亚马逊
视觉
Transformer
AI模型
预测
特斯拉
MCP