AI在线 AI在线

模型

AB实验新突破:携程提出图贪心分流算法,解决两大核心难题

作者简介小白,携程算法工程师,关注营销定价领域。 携程火车票部门为解决智行酒店商户侧AB实验中,预实验分流中遇到的分流不均、分流组流量交叉问题,提出了一种用于非用户端AB实验的分流算法,该算法通过优化的随机抽样模块与贪心交换模块,保证实验组之间多指标的相似性;通过图算法模块,降低实验组之间的流量交叉。 通过实证分析,该算法一方面有效的提升了商户端实验在多指标下的分流效率;另一方面,相比于使用先验知识进行分流,显著降低了实验组之间的流量交叉。
7/11/2025 9:16:00 AM

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:由于多模态输入(图像 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。
7/11/2025 9:15:00 AM

Manus跑路了吗?

Manus,真的从国内撤了? ! 4个月前一夜蹿红起飞的AI Agent产品Manus,刚被曝出背后公司一举裁掉国内七成团队。
7/11/2025 9:13:00 AM

推理与操控能力双提升!具身机器人双系统VLA模型新突破

让机器人学会聪明且快速精准执行,一直是机器人操控领域的难题。 为了解决这个问题,香港中文大学、北京大学、智平方和北京智源研究院联合创新性地提出了Fast-in-Slow(FiS-VLA),即一个统一的双系统VLA模型。 它通过将慢系统2最后几层的Transformer模块重新构建为一个高效的执行模块,用作快系统1,从而在一个模型中实现了快慢系统融合。
7/10/2025 2:55:12 PM

扩散语言模型写代码!速度比自回归快10倍

谁说扩散模型只能生成图像和视频? 现在它们能高质量地写代码了,速度还比传统大模型更快! Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。
7/10/2025 2:54:13 PM

Meta发布40页报告,具身智能的下一步是「心智世界模型」:能听,能看,能理解,会共情

最近Meta动作频频。 一边是老板小扎亲自下场,豪掷一亿美金挖人。 另一边,自家具身智能研究同样也憋了个大的,40页长文报告。
7/10/2025 2:53:12 PM

奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式

在大语言模型后训练阶段,强化学习已成为提升模型能力、对齐人类偏好,并有望迈向 AGI 的核心方法。 然而,奖励模型的设计与训练始终是制约后训练效果的关键瓶颈。 目前,主流的奖励建模方法包括 “基于偏好的奖励建模”(Preference-based Reward Modeling)和 “基于规则的验证”(Rule-based Verifier)两种方法。
7/10/2025 2:51:29 PM

VLA统一架构新突破:自回归世界模型引领具身智能

本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等顶级会议上发表过多篇论文。 王鑫龙团队,北京智源研究院,研究方向为原生多模态大模型,Emu 系列工作核心负责人。 张兆翔团队,中国科学院自动化研究所,研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。
7/10/2025 2:50:46 PM

ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化

本文第一作者为清华大学计算机系的硕士二年级研究生葛晨笛,研究方向为多模态大语言模型、自动机器学习和图机器学习。 主要合作者为来自阿里巴巴集团安全部的樊珈珮、黄龙涛和薛晖。 通讯作者为清华大学的朱文武教授、王鑫副研究员。
7/10/2025 2:50:24 PM

微软开源新版Phi-4:推理效率暴涨10倍,笔记本可运行

今天凌晨,微软在官网开源了Phi-4家族的最新版本Phi-4-mini-flash-reasoning。 mini-flash版延续了Phi-4家族参数小性能强的特点,是专门针对那些受算力、内存和延迟限制场景设计的,单个GPU可运行,适合笔记本、平板电脑等边缘设备。 与前一个版本相比,mini-flash使用了微软自研的创新架构SambaY,推理效率暴涨了10倍,延迟平均降低了2—3倍,整体推理性能实现了大幅度提升。
7/10/2025 9:14:37 AM

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。 该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。 此外,MLA-Trust 提供了高度模块化且可扩展的评估工具箱,旨在为多样化交互环境中 MLAs 的持续性可信度评估提供技术支撑。
7/4/2025 4:50:07 PM

10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

前段时间,我们报道了 5 款大模型参加了今年山东高考的事儿,为了弄清楚各大模型在 9 个科目中的具体表现,我们对着测评明细表挨个儿分析,搞得狼狈又崩溃。 要是哪个 AI 能一键分析表格,我当场就能给它磕一个。 现在,终于有 AI 来整顿 Excel 表格了!
7/4/2025 4:47:35 PM

Agent RL和智能体自我进化的关键一步:TaskCraft实现复杂智能体任务的自动生成

近年来,基于智能体的强化学习(Agent RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。 然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。 当前如 GAIA 与 BrowserComp 等主流数据集在构建过程中高度依赖人工标注,因而在规模与任务复杂性方面均存在明显限制——BrowserComp 仅涵盖约 1300 个搜索任务,GAIA 则仅提供约 500 条多工具协同任务样本。
7/4/2025 4:46:57 PM

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

AI,到处都是AI! 早上起来,脑子里突然萦绕起一个旋律,于是便对着AI随便哼了几句让它找出来是哪首歌;到公司之后,打开电脑里的AI,开始准备关于昨天工作的汇报。 只见你熟练地敲入:「根据以下这些文档,写一份总结,要专业、有逻辑、内容简洁」。
7/4/2025 4:45:24 PM

Ilya尘封10年录音曝光!大二入Hinton门下,竟坦言机器学习反直觉

Ilya Sutskever因在深度学习方面的远见卓识而闻名。 他现在许多广为流传的言论其实都来自于他在2023年参加Dwarkesh播客时的发言。 此后,直到2025年Ilya创办SSI后,几乎不再有公开的言论,此前曾探讨过Ilya的去向。
7/4/2025 4:39:56 PM

百万年薪遍地走,Meta薪资接连曝光!AI人才身价水涨船高ing

20000000美金,码农身价堪比NBA球星? 就在小扎顶配高薪挖人之际,Meta各岗位薪资被接连曝出。 先是一份联邦文件曝光,将Meta包括AI研究科学家、软件工程师、产品经理等在内的岗位基本工资一次性大揭底。
7/4/2025 4:37:50 PM

硅谷的企业级AI正在这样赚钱|2025人工智能现状报告

企业级AI开发现状如何? 各企业在使用AI的战略上有什么变化? AI公司应该作出什么样的调整来应对挑战?
7/4/2025 4:34:43 PM

开源DeepSeek R1增强版:推理效率快200%,创新AoE架构

德国知名技术咨询公司TNG开源了DeepSeek R1的增强版DeepSeek-TNG-R1T2-Chimera。 Chimera是基于DeepSeek的R1-0528、R1和V3-0324三大模型混合开发而成,同时采用了一种全新的AoE架构。 这种架构在提升性能的同时,还能加快模型的推理效率并节省token输出。
7/4/2025 9:08:00 AM