模型
AB实验新突破:携程提出图贪心分流算法,解决两大核心难题
作者简介小白,携程算法工程师,关注营销定价领域。 携程火车票部门为解决智行酒店商户侧AB实验中,预实验分流中遇到的分流不均、分流组流量交叉问题,提出了一种用于非用户端AB实验的分流算法,该算法通过优化的随机抽样模块与贪心交换模块,保证实验组之间多指标的相似性;通过图算法模块,降低实验组之间的流量交叉。 通过实证分析,该算法一方面有效的提升了商户端实验在多指标下的分流效率;另一方面,相比于使用先验知识进行分流,显著降低了实验组之间的流量交叉。
7/11/2025 9:16:00 AM
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:由于多模态输入(图像 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。
7/11/2025 9:15:00 AM
推理与操控能力双提升!具身机器人双系统VLA模型新突破
让机器人学会聪明且快速精准执行,一直是机器人操控领域的难题。 为了解决这个问题,香港中文大学、北京大学、智平方和北京智源研究院联合创新性地提出了Fast-in-Slow(FiS-VLA),即一个统一的双系统VLA模型。 它通过将慢系统2最后几层的Transformer模块重新构建为一个高效的执行模块,用作快系统1,从而在一个模型中实现了快慢系统融合。
7/10/2025 2:55:12 PM
扩散语言模型写代码!速度比自回归快10倍
谁说扩散模型只能生成图像和视频? 现在它们能高质量地写代码了,速度还比传统大模型更快! Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。
7/10/2025 2:54:13 PM
Meta发布40页报告,具身智能的下一步是「心智世界模型」:能听,能看,能理解,会共情
最近Meta动作频频。 一边是老板小扎亲自下场,豪掷一亿美金挖人。 另一边,自家具身智能研究同样也憋了个大的,40页长文报告。
7/10/2025 2:53:12 PM
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
在大语言模型后训练阶段,强化学习已成为提升模型能力、对齐人类偏好,并有望迈向 AGI 的核心方法。 然而,奖励模型的设计与训练始终是制约后训练效果的关键瓶颈。 目前,主流的奖励建模方法包括 “基于偏好的奖励建模”(Preference-based Reward Modeling)和 “基于规则的验证”(Rule-based Verifier)两种方法。
7/10/2025 2:51:29 PM
VLA统一架构新突破:自回归世界模型引领具身智能
本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等顶级会议上发表过多篇论文。 王鑫龙团队,北京智源研究院,研究方向为原生多模态大模型,Emu 系列工作核心负责人。 张兆翔团队,中国科学院自动化研究所,研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。
7/10/2025 2:50:46 PM
ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化
本文第一作者为清华大学计算机系的硕士二年级研究生葛晨笛,研究方向为多模态大语言模型、自动机器学习和图机器学习。 主要合作者为来自阿里巴巴集团安全部的樊珈珮、黄龙涛和薛晖。 通讯作者为清华大学的朱文武教授、王鑫副研究员。
7/10/2025 2:50:24 PM
微软开源新版Phi-4:推理效率暴涨10倍,笔记本可运行
今天凌晨,微软在官网开源了Phi-4家族的最新版本Phi-4-mini-flash-reasoning。 mini-flash版延续了Phi-4家族参数小性能强的特点,是专门针对那些受算力、内存和延迟限制场景设计的,单个GPU可运行,适合笔记本、平板电脑等边缘设备。 与前一个版本相比,mini-flash使用了微软自研的创新架构SambaY,推理效率暴涨了10倍,延迟平均降低了2—3倍,整体推理性能实现了大幅度提升。
7/10/2025 9:14:37 AM
首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust
MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。 该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。 此外,MLA-Trust 提供了高度模块化且可扩展的评估工具箱,旨在为多样化交互环境中 MLAs 的持续性可信度评估提供技术支撑。
7/4/2025 4:50:07 PM
10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个
前段时间,我们报道了 5 款大模型参加了今年山东高考的事儿,为了弄清楚各大模型在 9 个科目中的具体表现,我们对着测评明细表挨个儿分析,搞得狼狈又崩溃。 要是哪个 AI 能一键分析表格,我当场就能给它磕一个。 现在,终于有 AI 来整顿 Excel 表格了!
7/4/2025 4:47:35 PM
Agent RL和智能体自我进化的关键一步:TaskCraft实现复杂智能体任务的自动生成
近年来,基于智能体的强化学习(Agent RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。 然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。 当前如 GAIA 与 BrowserComp 等主流数据集在构建过程中高度依赖人工标注,因而在规模与任务复杂性方面均存在明显限制——BrowserComp 仅涵盖约 1300 个搜索任务,GAIA 则仅提供约 500 条多工具协同任务样本。
7/4/2025 4:46:57 PM
4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源
AI,到处都是AI! 早上起来,脑子里突然萦绕起一个旋律,于是便对着AI随便哼了几句让它找出来是哪首歌;到公司之后,打开电脑里的AI,开始准备关于昨天工作的汇报。 只见你熟练地敲入:「根据以下这些文档,写一份总结,要专业、有逻辑、内容简洁」。
7/4/2025 4:45:24 PM
Ilya尘封10年录音曝光!大二入Hinton门下,竟坦言机器学习反直觉
Ilya Sutskever因在深度学习方面的远见卓识而闻名。 他现在许多广为流传的言论其实都来自于他在2023年参加Dwarkesh播客时的发言。 此后,直到2025年Ilya创办SSI后,几乎不再有公开的言论,此前曾探讨过Ilya的去向。
7/4/2025 4:39:56 PM
百万年薪遍地走,Meta薪资接连曝光!AI人才身价水涨船高ing
20000000美金,码农身价堪比NBA球星? 就在小扎顶配高薪挖人之际,Meta各岗位薪资被接连曝出。 先是一份联邦文件曝光,将Meta包括AI研究科学家、软件工程师、产品经理等在内的岗位基本工资一次性大揭底。
7/4/2025 4:37:50 PM
硅谷的企业级AI正在这样赚钱|2025人工智能现状报告
企业级AI开发现状如何? 各企业在使用AI的战略上有什么变化? AI公司应该作出什么样的调整来应对挑战?
7/4/2025 4:34:43 PM
开源DeepSeek R1增强版:推理效率快200%,创新AoE架构
德国知名技术咨询公司TNG开源了DeepSeek R1的增强版DeepSeek-TNG-R1T2-Chimera。 Chimera是基于DeepSeek的R1-0528、R1和V3-0324三大模型混合开发而成,同时采用了一种全新的AoE架构。 这种架构在提升性能的同时,还能加快模型的推理效率并节省token输出。
7/4/2025 9:08:00 AM
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用