Memory3

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种记忆

2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来，大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而， LLM 的训练和推理成本高昂，人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发，他们通过为 LLM 配备显式记忆（一种比模型参数和 RAG 更便宜的记忆格式）来降低这一成本。从概念上讲，由于其大部分知识都外化为显式记忆，因而 LLM 可以享受更少的参数大小、训练成本和推理成本。论文地址：

7/10/2024 11:40:00 AM

机器之心

院士领衔推出大模型的第 3 种记忆：比参数存储和 RAG 都便宜，2.4B 模型越级打 13B

给大模型加上第三种记忆格式，把宝贵的参数从死记硬背知识中解放出来！中科院院士鄂维南领衔，上海算法创新研究院等团队推出 Memory3，比在参数中存储知识以及 RAG 成本都更低，同时保持比 RAG 更高的解码速度。在实验中，仅有 2.4B 参数的 Memory3 模型不仅打败了许多 7B-13B 的模型，在专业领域任务如医学上的表现也超过了传统的 RAG 方法，同时推理速度更快，“幻觉”问题也更少。目前相关论文已上传到 arXiv，并引起学术界关注。知识按使用频率分类这一方法受人脑记忆原理启发，独立于存储在模型参数

7/8/2024 11:09:43 PM

清源

资讯热榜

LangChain V1.0 深度解析：手把手带你跑通全新智能体架构 OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务中小企业AI落地的算力“最优解”：一台插电即用的Mac mini OpenAI 披露：每周有超过一百万人与 ChatGPT 倾诉自杀倾向 DeepSeek-OCR：OCR 的新突破大模型在具身推理上「翻车」了？4496 道题全面揭示短板红杉资本注资Rogo Technologies，AI 工具或将颠覆初级银行家角色作为一个AI博主，我劝你先别急着用AI

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果腾讯 Stable Diffusion Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人研究 AI视频大语言模型生成具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习 DeepMind 架构生成式AI 编程视觉 Transformer 预测 AI模型伟达特斯拉亚马逊