AI在线 AI在线

资讯列表

AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式

在多模态大模型的后训练浪潮中,强化学习驱动的范式已成为提升模型推理与通用能力的关键方向。 然而,大多数现有方法仍以文本为中心,视觉部分常被动地作为辅助信号输入。 相比之下,我们认为在后训练阶段重新审视视觉自监督学习的潜力,设计以视觉为中心的后训练对于增强多模态大模型对于视觉信息本身的细粒度深入理解也同样至关重要。
10/16/2025 9:00:00 AM

「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配

从ChatGPT到DeepSeek,强化学习(Reinforcement Learning, RL)已成为大语言模型(LLM)后训练的关键一环。 然而,随着模型参数规模的不断扩大,一个长期被忽视的问题正悄然成为性能瓶颈:重要性采样真的「重要」吗? 近期,由快手与清华合作的研究团队发现,现有的结果监督强化学习范式存在一种深层次的权重错配现象,它不仅让模型「过度自信」,甚至可能导致熵坍缩与训练早熟收敛。
10/16/2025 8:55:00 AM

王兴兴硕士论文惊现GitHub,宇树雏形那时候就有了

人火了是连毕业论文都要被翻出来的(doge)。 这不,宇树科技CEO王兴兴的硕士毕业论文就被网友们掘地三尺找到了。 (不在知网,而是在GitHub上找到的。
10/16/2025 8:46:00 AM

20.3次工具调用的秘密:InfoAgent如何让信息检索真正"懂你"

大家好,我是肆〇柒。 今天一起看看由东南大学、布朗大学与微软研究院联合推出的最新研究成果——InfoAgent。 这项工作直指当前深度研究智能体领域的核心痛点,通过创新的数据合成管道和自托管搜索工具,成功让14B参数的模型在复杂研究任务上超越72B参数的竞品。
10/16/2025 8:35:41 AM
四零柒

波士顿动力狗gogo回来了!“五条腿”协同发力

机器狗搬轮胎,“五只腿”齐发力! 在波士顿动力人工智能研究所的最新方法——结合采样与学习的动态全身操作中,波士顿动力的机器狗Spot最快仅用3.7秒就能搬起轮胎。 搬运的轮胎重达15公斤,相当于Spot自身重量的一半(32.7千克),并远超其最大臂力。
10/16/2025 8:26:15 AM

AI辅助编程的生产力悖论与破解之道

译者 | 核子可乐审校 | 重楼AI正成为加速代码生成的有力推手,帮助开发者以前所未有的效率产出更多成果,为超高生产力、缩短开发周期、快速发布功能开启新的可能。 但不少工程团队也注意到由此带来的趋势:尽管单个开发者的代码生成速度更快,但项目的整体交付时间并未缩短。 这并非错觉,METR最新研究发现,AI编程助手反而令资深开发者的生产力降低了19%。
10/16/2025 8:00:00 AM
核子可乐

合成数据:它是什么以及如何使用它

在现代数据科学和机器学习的领域中,数据是开发预测模型和进行精确分析的基础资源。 然而,真实的数据集并非总是可访问、完整或可用的。 数据稀缺、固有偏见或隐私限制等问题常常导致获取高质量数据变得困难。
10/16/2025 5:00:00 AM
晓晓

AI智能体正在悄悄改变你的工作方式,90%的人还没意识到

从ChatGPT的爆火到各类AI工具和Agent的涌现,我们正站在一个临界点:AI不再只是聊天工具,而是进化成能够独立思考和行动的数字员工。  在这个临界点之上,90%的人还没意识到:AI智能体正在悄悄改变你的工作方式! 很多人把大模型比作AI的大脑,这个比喻很形象,但不够完整。
10/16/2025 4:00:00 AM
大数据AI智能圈

实测,Claude Code 配合国内大模型,一样很牛x(完整配置教程)

差别确实是有的,因为 AI Agent 的能力取决于大模型 和 Agent 终端工程化两方面的能力,这两个工具之所以厉害,除了模型外,优秀的 Agent 终端工程能力也占了一半功劳。 所以,换了其他终端后,如果终端能力不行,依然没办法发挥优势。 还有个问题,那就是 Droid 依然是国外的产品。
10/16/2025 3:22:00 AM
风筝

智能体时代CEO的六大战略:从人机协作到优势重构的领导力议程

根据你交谈的对象或阅读的内容,智能体(基于GenAI基础模型构建的系统,能够在实际世界中行动并执行多步骤流程)要么将带来生产力的乌托邦;要么将取代大量劳动力,要么将导致机器人统治世界,要么将赋予每个人超能力;要么以上情况全部出现。 为了应对这一不确定的未来,企业高管需要抛开情绪化的讨论。 承诺随处可见,但批判性思维却十分匮乏。
10/16/2025 3:00:00 AM
Barr Seitz

从失败中学习:Google 提出 ReasoningBank 让 LLM 智能体真正“吃一堑长一智”

大家好,我是肆〇柒。 今天要和大家分享一项来自 Google Cloud AI Research 与 伊利诺伊大学香槟分校(UIUC) 等机构的最新研究成果——ReasoningBank。 这项工作直面当前 LLM 智能体在持久任务中记不住教训、重复犯错的根本瓶颈,提出了一种全新的记忆框架:不仅能从成功中提炼策略,更能从失败中提取预防性教训,让智能体实现“越用越聪明”的自进化能力。
10/16/2025 2:00:00 AM
肆零柒

高性能智算网关打通 GPU 集群与 AI 存储高速链路,硬件成本直降 95%

在企业级智算场景中,AI 训练需依托大规模 GPU 集群进行算力输出,同时依赖存储资源池存放训练数据与模型文件等。 行业普遍采用「计算 - 存储分区部署」架构 —— 即 GPU 服务器集中部署于专属计算区、存储资源整合为公共存储池。 模型训练过程中需要不断对数据进行读写操作,例如 GPU 集群从存储池加载训练数据集、实时回传训练中间结果、保存训练过程中的 Checkpoint 文件等,因此在分区部署的架构下,计算和 AI 存储之间会产生高频次、大容量的跨区数据交互,跨区通信效率也因此成为决定 AI 训练任务整体性能的关键环节。
10/16/2025 1:35:00 AM
WXK&LSJ

连锁零售巨头克罗格构建能大规模稳健运行的负责任AI的实战经验

84.51˚(美国零售业领军者克罗格的数据科学部门)数据科学与AI高级副总裁Kristin . Foster正处于这一转型的核心位置。 Foster领导工作的核心在于,关注将原始数据转化为实际价值的基础设施建设。
10/16/2025 1:00:00 AM
Pritam

全面升级AI能力,OPPO引领业界的AIOS来了

不论是智慧生活还是影像能力,OPPO 新系统都带来了更加实用化的 AI。 在 10 月 15 日举行的 OPPO 开发者大会上,OPPO 正式发布了全新一代系统 ColorOS 16。 本次的升级不仅带了来全新流畅技术架构、流畅双引擎以及自研繁星编译器全面提升了流畅体验,也在 AI 能力方面有了很大提升。
10/15/2025 11:40:00 PM
李泽南

Litex:面向高效形式化验证的极简语言设计与实践

上海人工智能实验室和复旦大学的研究团队近日开源了 Litex——一门专为降低形式化推理门槛而设计的极简语言。 该项目致力于解决传统形式化语言(如 Lean、Coq)学习曲线陡峭的问题,使任何背景的开发者都能够在 1-2 小时内掌握基本的形式化证明编写能力,而非传统的 3-6 个月学习周期。 在过去的一年里,Litex 在开源社区引起了持续关注。
10/15/2025 7:19:00 PM
新闻助手

具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

近日,RoboChallenge 重磅推出! 这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。 通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可靠和可比较的评估标准,推动具身智能从「实验室智能」走向「现实世界智能」。
10/15/2025 7:13:00 PM
机器之心

首个多轮LLM Router问世, Router-R1可让大模型学会「思考–路由–聚合」

Haozhen Zhang 现为南洋理工大学(NTU)博士一年级学生,本工作完成于其在伊利诺伊大学厄巴纳-香槟分校(UIUC)实习期间。 Tao Feng 为 UIUC 博士二年级学生,Jiaxuan You 为 UIUC 计算机系助理教授。 团队长期聚焦 LLM Router 方向,已产出 GraphRouter、FusionFactory 及本文 Router-R1 等多项代表性研究成果。
10/15/2025 7:04:00 PM
机器之心