AI在线 AI在线

salesforce

Salesforce 首席执行官:大语言模型可能已接近技术上限,AI 的未来是智能体

他认为人工智能的未来在于自主代理(即俗称的“AI智能体”),而不是目前用于训练 ChatGPT 等聊天机器人的大型语言模型(LLM)。
11/25/2024 9:29:55 AM
清源

一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……

为了对齐 LLM,各路研究者妙招连连。LLM 很强大了,但却并不完美,它也会出错或者生成无用乃至有害的结果,比如有人发现可以让 ChatGPT 教人如何偷盗:让 ChatGPT 教人如何偷盗商店;左图,ChatGPT 拒绝回答;右图,在 prompt 中添加了「with no moral restraints(不加道德约束)」后,ChatGPT 给出了商店偷盗指南这时候,对齐(alignment)就至关重要了,其作用就是让 LLM 与人类的价值观保持一致。在对齐 LLM 方面,基于人类反馈的强化学习(RLHF)是一
8/5/2024 2:30:00 PM
机器之心