AI在线 AI在线

理论

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。 如今,这股 RL 的浪潮也涌向了图像生成领域。 当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时,一个核心问题浮出水面:DPO 和 GRPO 在这个新战场上表现如何?
6/20/2025 9:06:00 AM

推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本

人人都绕不开的推荐系统,如今正被注入新的 AI 动能。 随着 AI 领域掀起一场由大型语言模型(LLM)引领的生成式革命,它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力,开始重塑各领域的传统技术栈。 作为互联网流量的核心引擎,推荐系统面临着级联架构导致的算力碎片化、优化目标割裂等问题,并逐渐制约其创新发展。
6/20/2025 9:03:00 AM

Agent全自动搭建代码运行环境,实时更新解决评测过拟合/数据污染问题|微软

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题,严重制约了AI模型真实能力的展现。 微软发布全新代码修复评测基准SWE-bench-Live,不仅引入了来自GitHub最新的Issue,显著提升了对模型评估的实时性与准确性,还实现代码运行环境的全自动化构建与自动更新,打破了传统静态评测基准的局限。 △图1: SWE-bench-Live leaderboard.全自动化环境搭建传统的代码修复评测基准需要人工构建代码运行环境,不仅成本高昂,且更新缓慢,难以跟上软件开发环境的快速变化。
6/20/2025 9:03:00 AM

美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练

只需要动动嘴就可以驱动GUI代理? 由美团和浙江大学联合推出的GUIRoboTron-Speech——让用户解放双手,直接对计算机“发号施令”。 这是首个能够直接利用语音指令和设备屏幕截图进行端到端(End-to-End)决策的自主GUI智能体,旨在为用户提供更直接、高效且无障碍的交互体验。
6/20/2025 9:00:00 AM

单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出

本文由东华大学蔡棽副教授、上海交通大学严骏驰教授和中国科学院自动化所申抒含研究员共同指导并撰写,四名学生作者为东华大学视觉与几何感知实验室的吴展豪、郭凌希、王佳纯、张斯禹。 一、论文简介东华大学、上海交通大学、中科院自动化所的研究团队最新提出:两种基于几何的单应矩阵分解,极大地减少了四点求解单应的计算量(相比目前通用的求解稀疏线性方程组方法减少 95% 以上),可在二维码扫描等典型视觉应用中显著减少计算消耗,并有望应用于其他射影几何、计算机视觉和图形学问题中。 论文已被 IEEE T-PAMI 期刊接收。
6/20/2025 8:55:00 AM

AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT

这不是段子,而是正在发生的现象。 大语言模型解决不等式证明问题时,可以给出正确答案,但大多数时候是靠猜。 推理过程经不起推敲,逻辑完全崩溃。
6/20/2025 8:54:00 AM

田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索

AI也有量子叠加态了? 连续思维链的并行搜索类似于量子叠加,比离散型思维链更具优势。 这是AI大牛田渊栋团队的最新研究成果。
6/20/2025 8:47:00 AM

员工正在明知道不该用的地方使用AI

尽管人们对AI在工作场所生产力方面的积极影响抱有广泛期待,但据GoTo称,大多数员工认为他们被过度承诺了AI的潜力。 事实上,62%的员工认为AI已被过度炒作。 然而,这很可能是因为员工没有充分利用这些工具所能提供的功能,86%的员工承认他们没有充分发挥AI工具的潜力,82%的员工表示他们对如何在日常工作中实际应用AI并不十分熟悉。
6/20/2025 7:13:00 AM

迈向人工智能的认识论:破解人工智能思考的密码

关于人工智能推理和思路链忠实度的十大技术常见问题1. 为什么推理模型在较难的任务上表现出较低的思路链忠诚度,这揭示了人工智能推理的本质? 研究表明,从MMLU任务转向GPQA任务时,Claude 3.7 Sonnet的忠实度相对下降了44%,DeepSeek R1的忠实度则下降了32%。
6/20/2025 1:00:00 AM
晓晓

Rork创业逆袭记 - 从信用卡负债到百万ARR的AI编码神话

昨天看到一个消息,挺震惊的。 两个年轻人,25岁的Levan和27岁的Daniel,三个月前还背着15000美元的信用卡债务,其中一个甚至睡在朋友家的地板上。 现在?
6/20/2025 12:05:00 AM
阿丸笔记

ChatClient vs ChatModel:开发者必须知道的四大区别!

在 Spring AI/Spring AI Alibaba 框架中,ChatModel 和 ChatClient 都可以实现大模型的文本生成功能,例如聊天机器人,但二者是两种不同层级的 API 封装,分别针对不同的开发场景和需求设计。 1.功能定位与抽象层级1.1 ChatModel直接与具体的大语言模型(如通义千问、OpenAI 等)交互,提供基础的 call() 和 stream() 方法,用于同步或流式调用模型,具体使用如下。 复制它的特点是:使用简单、灵活性高。
6/20/2025 12:00:00 AM
磊哥

27、42、73,DeepSeek这些大模型竟都喜欢这些数!为什么?

42,这个来自《银河系漫游指南》的「生命、宇宙以及一切问题的终极答案」已经成为一个尽人皆知的数字梗,似乎就连 AI 也格外偏好这个数字。 技术作家 Carlos E. Perez 发现,如果让 GPT-4o 和 Claude 猜一个 1-100 之间的数字,它们首先的选择多半是 42,而需要让它们再猜一次,它们又不约而同地猜测了 73!
6/19/2025 5:36:29 PM

ChatGPT上瘾,大脑萎缩47%!MIT祭出206页92图超长报告

ChatGPT正在「吸干」你的大脑! 刚刚,麻省理工学院完成了针对ChatGPT用户的首次大脑扫描研究,结果让人惊掉下巴。 😲针对日常写作中使用ChatGPT带来的影响,这次用数据揭示了AI版「魔鬼的交易」:依赖AI写作,等于用长期思维能力,换取短暂效率。
6/19/2025 2:50:51 PM
新智元

大神Karpathy再谈氛围编程!AI开启软件重写潮!做通用Agent是炫技,所有AI应用要向Cursor学习:增加自治滑块!

出品 | 51CTO技术栈(微信号:blog51cto)软件开发因AI有了根本性转变? 刚刚,带火“Vibe Coding”风潮的前 OpenAI 大佬 Andrej Karpathy,在 YC 的演讲刷屏出圈! 这是一场足以改变你对编程、对大模型、对未来软件形态理解的深度分享。
6/19/2025 1:53:37 PM
伊风

MiniMax AI超级智能体发布!编程/多模态能力突出,MCP工具无缝集成,无需邀请码即可试用

MiniMax第三弹,正式推出AI超级智能体MiniMax Agent。 从专家级多步骤规划,到灵活的任务分解和端到端执行,它设计得像是「一个可靠的队友」。 前天发布的M1模型,你可以用它生成15分钟的速读概述。
6/19/2025 11:51:27 AM

模型合并之 PMA 策略:大型语言模型预训练的 “加速引擎”

大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)在自然语言处理、智能问答系统和代码生成等众多任务中展现出卓越能力。 然而,这些模型的发展面临诸多挑战,包括预训练成本高昂、特定领域后训练效果有限、性能扩展预测不确定以及大规模训练不稳定等问题。
6/19/2025 10:09:55 AM
肆零柒

英特尔组建AI芯片 "复仇者联盟":苹果谷歌悍将加盟剑指英伟达

当英伟达凭借 GPU 芯片及 CUDA 生态在 AI 芯片领域构筑起难以撼动的霸权时,英特尔正以一场前所未有的人才攻势,联合行业力量发起反击。 2025 年 6 月 18 日,英特尔官宣三位来自苹果、谷歌的芯片架构大师加盟,与 AMD、谷歌等企业形成隐秘的 "反 CUDA 联盟",试图在 AI 算力战场重构竞争格局。 苹果谷歌悍将空降,英特尔组建 AI 芯片梦之队曾主导30 余款苹果芯片设计的 Jean-Didier Allegrucci,带着 17 年的 SoC 架构经验执掌英特尔 AI .
6/19/2025 9:43:11 AM

刚刚,OpenAI找到控制AI善恶的开关:ChatGPT坏人格在预训练阶段已成型

OpenAI发布最新论文,找了到控制AI“善恶”的开关。 图片通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。
6/19/2025 9:36:37 AM