AI在线 AI在线

理论

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。 通常来说,这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹,并包含了试图实现某些「算法」的 token:例如反思前一个答案、规划或实现某种形式的线性搜索。 这些方法包括显式地微调预训练 LLM 以适应算法行为,例如对搜索数据进行监督微调(SFT)或针对 0/1 正确性奖励运行结果奖励(outcome-reward,OR)RL。
3/13/2025 11:07:30 AM
机器之心

阿里妈妈搜索广告2024大模型思考与实践

作者:石士阿里妈妈技术团队一、概览随着大模型时代的到来,搜推广模型是否具备新的进化空间? 能否延续像深度学习时期那样迸发旺盛的迭代生命? 带着这样的过去,阿里妈妈搜索广告在两年的持续探索中,逐步成功清理了一些关键问题,落地了多个优化方向。
3/13/2025 10:51:00 AM
机器之心

担心成为「AI界奥本海默」!DeepMind、Anthropic CEO同框,26年AGI降临?

当今世界,谁最有可能成为「AI时代的奥本海默」? DeepMind的创始人Hassabis与Anthropic的创始人Dario无疑是热门人选。 近日,这两位AI巨头罕见地坐到了一起,在《经济学人》的访谈中,直面AGI(通用人工智能)带来的种种争议与挑战。
3/13/2025 10:50:00 AM
新智元

只需7.6% token,性能还更强!华人团队提全新「草稿链」CoD,成本延迟大降

当下,企业正处于部署AI的关键节点。 随着AI系统在企业运营中的深度融合,计算成本与响应时间成为阻碍AI广泛应用的主要瓶颈。 来自Zoom的华人研究团队取得了一项突破性成果,他们开发的「草稿链」(Chain of Draft,CoD)技术,有望从根本上改变企业大规模部署AI的模式。
3/13/2025 10:40:00 AM
新智元

DeepSeek 开源 EPLB,世界上从来没有什么腾空出世!

deepseek开源DualPipe的同一天,还开源了EPLB。 今天来简单聊聊EPLB,包懂。 EPLB是干嘛的?
3/13/2025 10:31:20 AM
架构师之路

Open-Sora 2.0全面开源,20万复刻百万级大片!11B媲美闭源巨头,224张GPU创奇迹

今天,视频生成领域迎来开源革命! Open-Sora 2.0——全新开源的SOTA(State-of-the-Art)视频生成模型正式发布,仅用20万美元(224张GPU)成功训练出商业级11B参数视频生成大模型,性能直追HunyuanVideo和30B参数的Step-Video。 权威评测VBench及用户偏好测试均证实其卓越表现,在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。
3/13/2025 10:26:45 AM
新智元

迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型

本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang

当硅基生命开始觉醒:人类与仿生智能体的共生困局

从科幻到现实:人形机器人的进化之路在纽约现代艺术博物馆的玻璃展柜中,第五代表情机器人Emo正对着镜子练习微笑。 通过深度学习算法,这个搭载48个微型电机的金属头颅能在600毫秒内捕捉人类表情特征,并组合出532种情绪表达。 "我们让机器人观看YouTube视频自主学习,"项目负责人展示着训练日志,"它们正在建立自己的表情数据库,就像婴儿通过观察父母学习社交"。
3/13/2025 10:09:48 AM
D1net

14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位

多模态训练后模型能力雪崩,上海AI Lab全面探索MLLM偏好对齐与模态融合

在实际应用过程中,闭源模型(GPT-4o)等在回复的全面性、完备性、美观性等方面展示出了不俗的表现。 与之相反的是,在General VQA任务上表现最好的开源模型(如InternVL2-78B)在面对开放式、需要知识储备的问题时,表现不尽人意:△InternVL2-78B和GPT-4o在回复的完备性和美观性上有较大差距上述现象引发了上海交大、上海AI Lab等联合团队的思考。 他们首先猜测:MLLM的回复质量下降可能是因为经过了多模态数据训练之后,LLM本身的能力退化。
3/13/2025 9:47:29 AM
量子位

百万美金炼出「调参秘籍」!阶跃星辰开源LLM最优超参工具

近日,阶跃星辰研究团队通过大规模实证探索,耗费了近 100 万 NVIDIA H800 GPU 小时(约百万美元),从头训练了 3,700 个不同规模,共计训了 100 万亿个 token,揭示了 LLM 超参数优化的全新的普适性缩放规律,为更好地提升 LLM 性能,提供了开箱即用的工具。 该研究也是第一个全面研究模型最优超参随着 Model Shape、Dense/MoE、预训练数据分布的变化,是否稳定不变的工作。 研究中凸显出 Step Law 的鲁棒性,大大增加了该工具的实用性和普适性。
3/13/2025 9:20:20 AM
机器之心

首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁

首篇完全由AI生成的论文,竟通过了ICLR 2025同行评审! 刚刚,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI顶会的大门。 从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表,再到撰写完整论文,所有环节均由AI完成。
3/13/2025 9:16:25 AM
新智元

谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini

谷歌Gemma 3全家桶来了! 刚刚,在巴黎开发者日上,开源Gemma系模型正式迭代到第三代,原生支持多模态,128k上下文。 此次,Gemma 3一共开源了四种参数,1B、4B、12B和27B。
3/13/2025 9:12:35 AM
新智元

大模型指标:RPM、TPM…这些“神秘代码”到底是什么?

一、RPM:每分钟能“说多少话”? 定义:RPM全称是Requests Per Minute(每分钟请求数),表示大模型每分钟能处理的请求次数。 比如,某模型设置RPM=300,就意味着每分钟最多响应300次用户提问。
3/13/2025 8:33:37 AM
若有无

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力? 结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。
3/13/2025 8:13:47 AM
余俊晖

不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发

作者 | ronaldo最近几年,大模型在技术领域的火热程度属于一骑绝尘遥遥领先,不论是各种技术论坛还是开源项目,大多都围绕着大模型展开。 大模型的长期目标是实现AGI,这可能还有挺长的路要走,但是眼下它已经深刻地影响了“编程”领域。 各种copilot显著地提升了开发者的效率,但与此同时,开发者也变得非常地焦虑。
3/13/2025 8:00:00 AM
腾讯技术工程

企业可以采用六种方式实现网络安全自动化以应对由AI驱动的攻击

为什么AI对于网络安全至关重要?因为每天都有,事实上是每秒都有,恶意行为者利用AI来扩大他们的攻击手段的范围和速度。 一方面,正如CrowdStrike高级副总裁Adam Meyers在最近接受记者采访时所说,“敌人每年都快了10到14分钟。 随着他们的突破时间缩短,防御者必须反应更快——在威胁扩散之前检测、调查和阻止它们。
3/13/2025 7:00:00 AM
Louis Columbus

H20芯片困局:在DeepSeek崛起下的挑战与反思

在当今全球科技竞争的宏大棋局之中,美国针对中国半导体和人工智能芯片发起的制裁行动,恰似汹涌暗潮,正以悄无声息却又极具颠覆性的方式,重塑着中国人工智能产业的发展格局。 在这一复杂局势下,H20 芯片作为特殊的存在进入中国市场,看似是为国内企业送来的“及时雨”,实则暗藏玄机,背后隐藏着诸多亟待剖析的问题。 近年来,美国对我国人工智能发展的制裁手段可谓层层加码、环环相扣。
3/12/2025 5:59:31 PM
徐勇