奖励模型
只因一个“:”,大模型全军覆没
一个冒号,竟然让大模型集体翻车? 明明应该被拦下来的虚假回答,结果LLM通通开绿灯。 该发现来自一篇名叫“一个token就能欺骗LLM”的论文。
7/15/2025 5:15:31 PM
鹭羽
昆仑万维再次开源奖励模型Skywork-Reward-V2
2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。 此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。 奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。
7/5/2025 7:46:41 AM
AI在线
DeepMind 推出 Crome:提升大型语言模型对人类反馈的对齐能力
在人工智能领域,奖励模型是对齐大型语言模型(LLMs)与人类反馈的关键组成部分,但现有模型面临着 “奖励黑客” 问题。 这些模型往往关注表面的特征,例如回复的长度或格式,而不是识别真正的质量指标,如事实准确性和相关性。 问题的根源在于,标准训练目标无法区分训练数据中存在的虚假关联和真实的因果驱动因素。
7/5/2025 7:46:41 AM
AI在线
北大腾讯突破奖励模型瓶颈!让AI理解人类偏好,泛化能力比肩GPT-4.1
总是“死记硬背”“知其然不知其所以然”? 奖励模型训练也形成了学生选择标准答案的学习模式,陷入诸如“长回答=好回答”“好格式=好答案”等错误规律之中。 北京大学知识计算实验室联合腾讯微信模式识别中心、William&Mary、西湖大学等机构提出的RewardAnything突破了这一瓶颈——通过让奖励模型直接理解自然语言描述的评判原则,实现了从”死记硬背”到”融会贯通”的范式跃迁。
6/26/2025 3:16:42 PM
量子位
万字干货:小红书 hi lab 团队关于奖励模型的一些探索
奖励模型(Reward Models,RM)在确保大语言模型(LLMs)遵循人类偏好方面发挥着关键作用。 这类模型通过学习人类的偏好判断,为语言模型的训练提供重要的引导信号。 奖励模型很多科学问题都充满挑战,小红书 hi lab团队过去一段时间对下列几个问题和关键挑战进行了一些探索:奖励模型应该如何评估?
6/25/2025 9:53:59 AM
奖励推理模型(RRM):革新奖励模型的新范式
大家好,我是肆〇柒。 在人工智能领域,大型语言模型(LLM)的出现,如 GPT 系列模型,彻底改变了我们对机器智能的认知。 这些模型通过海量数据预训练,能生成自然、流畅且富有逻辑的文本,广泛应用于聊天机器人、文本生成、自动翻译等场景。
5/30/2025 2:00:00 AM
肆零柒
- 1
资讯热榜
首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题
OpenAI豪赌5000亿美元估值神话:60亿股权大甩卖背后,GPT-5却遭用户冷遇
蚂蚁集团携手北医三院成立AI医疗联合实验室 打造专属AI就医助理
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能
网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
摩根士丹利:AI 革命将为标准普尔 500 指数企业每年节省近 1 万亿美元
OpenAI加速推进GPT-6开发,奥尔特曼承诺打造"有记忆"的个性化AI助手
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
论文
Anthropic
代码
训练
算法
Stable Diffusion
AI新词
芯片
LLM
蛋白质
腾讯
开发者
苹果
生成式
Claude
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
RAG
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
伟达
视频生成
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用