AI在线 AI在线

首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

中科大 LDS 实验室何向南、王翔团队与 Alpha Lab 张岸团队联合开源 MiniOneRec,推出生成式推荐首个完整的端到端开源框架,不仅在开源场景验证了生成式推荐 Scaling Law,还可轻量复现「OneRec」,为社区提供一站式的生成式推荐训练与研究平台。 近年来,在推荐系统领域,传统 “召回 排序” 级联式架构的收益正逐渐触顶,而 ChatGPT 等大语言模型则展现了强大的涌现能力和符合 Scaling Law 的巨大潜力 —— 这股变革性的力量使 “生成式推荐” 成为当下最热门的话题之一。 不同于判别式模型孤立地计算用户喜欢某件物品的概率,“生成式推荐” 能够利用层次化语义 ID 表示用户历史行为序列,并基于生成式模型结构直接生成用户下一批可能交互的物品列表。
图片

中科大 LDS 实验室何向南、王翔团队与 Alpha Lab 张岸团队联合开源 MiniOneRec,推出生成式推荐首个完整的端到端开源框架,不仅在开源场景验证了生成式推荐 Scaling Law,还可轻量复现「OneRec」,为社区提供一站式的生成式推荐训练与研究平台。

近年来,在推荐系统领域,传统 “召回 + 排序” 级联式架构的收益正逐渐触顶,而 ChatGPT 等大语言模型则展现了强大的涌现能力和符合 Scaling Law 的巨大潜力 —— 这股变革性的力量使 “生成式推荐” 成为当下最热门的话题之一。不同于判别式模型孤立地计算用户喜欢某件物品的概率,“生成式推荐” 能够利用层次化语义 ID 表示用户历史行为序列,并基于生成式模型结构直接生成用户下一批可能交互的物品列表。这种推荐模式显著提升了模型的智能上限,并为推荐场景引入 Scaling Law 的可能性。

快手 OneRec 的成功落地,更是彻底引爆了推荐圈子。凭借端到端的推荐大模型,重构现今的推荐系统不再是空谈,它已证明是一场资源可控、能带来真实线上收益的推荐革命。

然而,对于这一可能革新整个推荐系统的新范式,各大厂却讳莫如深,核心技术细节与公开表现鲜有披露。开源社区与一线大厂的探索似乎正在脱钩,技术鸿沟日渐明显。

如何破局?

近日,中国科学技术大学 LDS 实验室何向南、王翔团队联合 Alpha Lab 张岸团队正式发布 MiniOneRec。这一框架作为生成式推荐领域首个完整开源方案,为社区提供了全链路、一站式、端到端的训练与研究平台。

图片
  • 论文标题:MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation

  • 论文链接:https://arxiv.org/abs/2510.24431

  • 代码链接:https://github.com/AkaliKong/MiniOneRec

  • Huggingface 链接: https://huggingface.co/kkknight/MiniOneRec

核心贡献:

  • 端到端流程支持:从 SID 生成、 模型监督微调、 推荐驱动的强化学习,全链路打通。

  • 开源场景 Scaling Law 验证:首次在开源数据与模型上,验证了生成式推荐的 Scaling Law。

  • 优化后训练框架:提供一套轻量、完整的后训练框架,并引入多项针对推荐任务的改进。

自 10 月 28 日发布以来,MiniOneRec 就广受推荐社区关注。其代码、数据集、模型权重已全部开源,仅需 4-8 卡 A100 同级算力即可轻松复现

1. 首次公开数据集验证生成式推荐 Scaling Law:

研究人员首次在公共数据集上,验证了生成式推荐模型的 Scaling Law。

图片

                          图 1. 模型参数从 0.5B 到 7B 的训练 Loss 变化。

团队在 Amazon Review 公开数据上,以统一的设置训练了从 0.5B 到 7B 的 MiniOneRec 版本。结果惊艳:随着模型规模(训练 FLOPs)的增大,最终训练损失和评估损失持续下降,充分展示了生成式推荐范式在参数利用效率上的优势。

2. MiniOneRec 核心技术框架:

该框架提供一站式的生成式推荐轻量实现与改进,具体包括:

(1)丰富的 SID Construction 工具箱

MiniOneRec 为开源社区提供了丰富的的 SID Construction 工具选择,已集成 RQ-VAE, RQ-Kmeans, RQ-VAE-v2 (Google 最新工作 PLUM), 并将更新 RQ-OPQ 在内的先进量化算法实现。

图片

下一步,团队正积极更新接口,以对齐业界的多模态需求。

(2)引入世界知识:全流程 SID 对齐策略

研究人员验证了一个关键发现:引入大模型世界知识,能显著提升生成式推荐的性能。团队分别评测了 MiniOneRec 与其变体在不同训练阶段的性能表现,具体包括: 

  • MiniOneRec-Scratch: 基于随机初始化的 LLM 权重训练,不做任何 SID - 文本对齐任务。

  • MiniOneRec- W/O ALIGN: 基于预训练 LLM 进行后训练,不做任务 SID - 文本对齐。

  • MiniOneRec: 基于预训练 LLM 进行后训练,并进行全流程的 SID 对齐。

图片

                          图 3. 世界知识对于生成式推荐性能的影响。

结果显示,基于预训练 LLM 初始化并进行语义对齐的 MiniOneRec(红线)始终优于未充分对齐的对应变体(黄 / 蓝线)。这表明预训练 LLM 已具备的通用序列处理能力和世界知识,为推荐任务带来了显著的额外收益。

基于此发现,MiniOneRec 将 SID token 添加至 LLM 词表,并在 SFT 和 RL 阶段共同优化推荐与对齐两大任务,将 LLM 语言空间与 SID 信号紧密对齐。

(3)独家优化:面向推荐的强化学习策略

图片

      图 4. MiniOneRec 框架。

MiniOneRec 基于 GRPO, 进一步实现了面向推荐的强化学习算法,具体包括

  • 面向推荐的采样策略

由于采取 Constrained-Decoding 策略规范模型生成合法 SID,模型的输出被限制在远比自然语言狭窄的有限空间。随着强化学习训练的深入,传统采样策略的熵迅速降低,使得模型在多次采样时容易反复生成相同的冗余物品,导致优化效率低下。基于这个发现,MiniOneRec 替换常规采样策略为 Constrained Beam-Search,高效生成多样化的候选物品,兼顾采样效率和对负样本的曝光率。

  • 面向推荐的奖励塑造

推荐场景用户交互稀疏,常规的二元奖励使得负样本 “坍缩” 为同一奖励值,使得强化学习监督信号粒度粗糙。MiniOneRec 在准确性奖励之外,创新性引入排名奖励,对于高置信度 “困难负样本” 施加额外惩罚,从而强化排序信号的区分度。

  • 开源基准测试全面领先

在同一 Amazon 基准上,研究人员将 MiniOneRec 同当前 SOTA 的传统推荐范式、生成式推荐范式、基于大模型的推荐范式进行了全面对比。

图片

      图 5. MiniOneRec 同传统推荐、生成式推荐、LLM 推荐性能对比。

结果显示,MiniOneRec 展现出全面的领先优势:

在 HitRate@K 和 NDCG@K 两项推荐指标上,MiniOneRec 始终显著优于以往的传统推荐范式与生成式推荐范式,领先 TIGER 约 30 个百分点。而对于基于大模型的推荐范式,MiniOnRec 呈现总体的领先的同时拥有显著的上下文 token 优势。

这表明,生成式推荐作为可能的下一代推荐范式拥有显著潜力。

4. 生成式推荐的展望与思考:

生成式推荐会成为下一代推荐系统的新范式吗?这个问题似乎还难以有一个定论。

一方面,以美团 MTGR、淘天 URM 等为代表的推荐系统 “改革派”,利用生成式架构的长序列建模等能力赋能判别式,在现有的体系内基于 “生成式召回” 方案进行增量改进。

另一方面,以快手 OneRec 为代表的更为激进的 “革命派”,则想要直接颠覆传统多阶段级联的判别式方案、实现真正端到端自回归地生成用户兴趣列表。

虽然两条路线取舍不同,但都在规模化实践中验证了生成式范式的实际价值。对部分大厂而言,生成式范式已经走出 “可行性验证” 阶段,开始在业务上创造真实收益。相较于业界的快速推进,学术界与开源社区在这一方向仍显薄弱。面对这场可能重塑推荐技术版图的机遇,我们期待更多研究者与工程实践者大胆尝试,拥抱这或许是推荐领域的 “GPT 时刻”。

相关资讯

黄学东等多名华人当选,2023美国工程院院士名单出炉

今日,美国工程院公布了新增院士名单,包括 106 名院士和 18 名外籍院士。
2/8/2023 10:29:00 AM
机器之心

一篇推文看一年!Jim Fan力荐2025必读清单:50篇论文,扫盲「全领域AI实战」

别再反复看Transformer之类的古董级论文了,该更新论文清单了! 现行的AI从工程技术角度可以分为十个领域:前沿大模型、基准评估、提示思维链、检索增强生成、智能体、代码生成、视觉、声音、图像/视频扩散、微调,每个领域选出5篇代表作和相关工作,看完 实践=AI全栈大神! 前沿大模型OpenAI发布的ChatGPT把大模型带入普通消费者的日常生活中,旗下的GPT系列模型也一直是行业标杆,其中GPT1/2/3, Codex, InstructGPT, GPT4都有论文,GPT3.5, 4o, o1和o3只有相关的宣发活动。
1/10/2025 9:20:00 AM
新智元

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/19/2025 12:07:00 PM
机器之心