Rule-Based Rewards

RLHF不够用了，OpenAI设计出了新的奖励机制

OpenAI 的新奖励机制，让大模型更听话了。自大模型兴起以来，使用强化学习从人类反馈（RLHF）中微调语言模型一直是确保 AI 准确遵循指令的首选方法。为了确保 AI 系统安全运行并与人类价值观保持一致，我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是，收集这些常规和重复任务的人类反馈通常效率不高。此外，如果安全政策发生变化，已经收集的反馈可能会过时，需要新的数据。我们能否构建一种新的机制来完成这些任务？近日，OpenAI 公布了一种教导 AI 模型遵守安全政策的

7/25/2024 1:47:00 PM

机器之心

资讯热榜

告别抽卡！Vidu Q2多图参考生视频功能重磅上线保姆级教程！教你用Coze工作流2分钟生成优质文章最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！切斯基:Airbnb 暂缓接入 ChatGPT，AI 客服已用上通义千问 OpenAI、Oracle 再加码 AI 基建:150亿美元 Lighthouse 园区启动建设独立开源大佬的疯狂实验：Claude Code蛮力出奇迹！40 分钟跑通 DeepSeek-OCR，我一行代码都没写 AI赋能，重塑零售：详解零售巨头塔吉特的业务转型策略 OpenAI 内部警示:ChatGPT Atlas 面临“即时注入”安全威胁

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法芯片 AI for Science 腾讯 Stable Diffusion Agent 苹果 Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人研究 RAG AI视频生成大语言模型 Sora 工具百度具身智能 GPU 华为计算字节跳动 AI设计搜索 AGI 大型语言模型视频生成场景深度学习架构 DeepMind 编程生成式AI 视觉预测 Transformer AI模型伟达特斯拉 Copilot