资讯列表
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。 业界普遍认为,需要海量的轨迹数据或复杂的强化学习才能实现电脑智能体的水平突破——这可能意味着大量的人工轨迹标注,以及大规模虚拟机环境的构建,以支撑智能体的学习与优化。 然而,来自上海交通大学和 SII 的最新研究却给出了一个非共识答案:仅需 312 条人类标注轨迹,使用 Claude 3.7 Sonnet 合成更丰富的动作决策,就能激发模型 241% 的性能,甚至超越 Claude 3.7 Sonnet extended thinking 模式,成为 Windows 系统上开源电脑智能体的新一代 SOTA。
5/26/2025 9:21:00 AM
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。 然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理视觉信息时也是如此 。 常见的 MLLM 结构。
5/26/2025 9:16:00 AM
机器之心
AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?
如何用AI赚钱,可能是这个时代最常见的问题。 有些人选择用大模型写小说、写报告、写文案等等,但这些场景只是让模型在执行一些「短期且孤立」的任务。 如果能找到合适的应用场景,比如「用自动驾驶跑网约车」,并且模型还能够在长时间内保持连贯的输出,再那岂不是就能躺赚了?
5/26/2025 9:14:00 AM
15亿美元AI独角兽崩塌,全是印度程序员冒充!微软亚马逊惨遭忽悠
印度老哥是真的有点猛啊! 今天要说的这位,是AI编程公司Builder.ai的创始人兼前CEO——Sachin Dev Duggal。 他不仅造了个「全是人工,没有智能」的假AI公司从软银、微软等巨头手里骗到了数亿美元融资,估值干到15亿而且还敢对投资人虚报300%的营收是的,这家公司的后台里并没有AI,有的只是一群印度老哥假装AI写代码。
5/26/2025 9:12:00 AM
H20之后,英伟达全新特供版GPU曝光!单GPU售价低至6500美元
过去,英伟达在中国AI芯片市场几乎「垄断」,出货占比95%。 然而,在美国出口限制以及国产芯片崛起的背景下,现在其在中国的市场份额已经跌至50%。 为了应对这一局面,黄仁勋即将亮出一颗「阉割版」的Blackwell GPU。
5/26/2025 9:10:00 AM
50年僵局打破!MIT最新证明:对于算法少量内存胜过大量时间
相信大家都曾有过这样的经历:运行某个程序时,电脑突然卡住,轻则恢复文件,重则重新创建;或者手机频繁弹出「内存不足」的警告,让我们不得不忍痛删除珍贵的照片或应用。 这些日常的烦恼,其实都指向了计算世界中两个至关重要的基本要素:时间和空间。 时间和空间(也称为内存)是计算中最基本的两种资源:任何算法在执行时都需要一定的时间,并在运行过程中占用一定的空间以存储数据。
5/26/2025 9:09:00 AM
机器之心
比甄嬛还狠!奥特曼「千面人设」被揭穿,MIT华人记者7年曝黑幕
OpenAI的「宫斗」往事,还有大瓜! 因为曝料实在太过惊人,奥特曼在相关书籍正式出版之前,否认三连,撇清关系。 但曝料人Karen Hao毕业于MIT,曝料过多家美国科技巨头的「黑幕」,因新闻报道获得多个奖项。
5/26/2025 9:07:00 AM
全球首款 Office 智能体:昆仑万维天工超级智能体 App 上线
昆仑万维集团今日宣布:昆仑万维天工超级智能体(Skywork Super Agents)App 正式上线。这是全球首款基于 AI Agent 架构的 Office 智能体手机 App,标志着“AI Office 智能体”时代从桌面端全面迈向移动端。
5/26/2025 9:06:10 AM
归泷
全球首次发现 OpenAI 模型能无视关机指令,AI 自我保护引发关注
近日,Palisade Research 发布了一项引人注目的研究,揭示了一些人工智能模型在面对直接关闭命令时竟然会选择 “违抗”。 这项研究的核心发现是,包括 OpenAI 最新推出的 o3模型在内的几个 AI 模型,表现出了对关机指令的无视能力。 这一现象引发了人们对 AI 自主性的深入思考。
5/26/2025 9:01:12 AM
AI在线
312条轨迹助力241%性能提升,上交大与SII开源电脑智能体引领新潮流
在电脑智能体(Computer Use Agent)领域,最近有一个激动人心的进展。 上海交通大学与 SII 的研究团队,借助仅312条人类标注的操作轨迹,成功训练出了名为 PC Agent-E 的新一代开源电脑智能体,其性能提升高达241%,超越了著名的 Claude3.7Sonnet,成为 Windows 系统上的新一代最优模型。 自从 Anthropic 推出 Claude Computer Use 以来,电脑智能体的发展一直备受关注。
5/26/2025 9:01:10 AM
AI在线
全球首款Office智能体APP!昆仑万维天工超级智能体APP上线
昆仑万维集团宣布其天工超级智能体(Skywork Super Agents)APP正式上线。 这款APP是全球首款基于AI Agent架构的Office智能体手机应用,标志着AI办公新时代的到来,将专业办公功能装进了用户的口袋。 天工超级智能体APP以“8分钟完成8小时工作”为核心理念,通过文档、PPT、表格和通用四大智能体的协同工作,重新定义了移动办公的效率。
5/26/2025 9:01:10 AM
AI在线
英伟达推出低价AI芯片应对出口限制,专供中国市场
据路透社援引三位知情人士消息,英伟达将于6月推出一款专为中国市场设计的全新AI芯片,定价预计在6,500至8,000美元之间,明显低于当前售价约为10,000至12,000美元的H20型号。 新芯片基于最新Blackwell架构,并采用RTX Pro6000D的设计框架。 为规避美国对华高端芯片出口限制,该GPU刻意避开了台积电的先进封装工艺,改用标准GDDR7内存,以降低制造复杂度并提升可量产性。
5/26/2025 9:01:10 AM
AI在线
AI救不了塔吉特:销量下滑、顾客流失,人工智能成“背锅侠”?
在2023年圣诞节前夕,美国大型连锁零售商塔吉特(Target)宣布将通过人工智能技术“提升节日购物体验”。 从推出AI聊天机器人“Store Companion”,到引入预测库存系统,再到部署营销平台“Roundel”,塔吉特自诩正在打造“零售业的未来”。 但现实远比宣传冷酷。
5/26/2025 9:00:34 AM
AI在线
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
随着 DeepSeek R1 的持续爆火,推理和强化学习已经成为 AI 领域的热门词汇。 短短几个月的时间,我们已经见证了太多的推理大模型,AI 更新迭代速度似乎已经快进到了以天为单位。 但在众多研究成果中找到值得关注的内容并不容易。
5/26/2025 8:48:00 AM
ChatGPT引爆教育革命,学习效果暴涨86.7%!
现在的学生,已经离不开各种AIGC工具了, 不论是写作业,还是生成笔记,或者通过阅读AI生成的摘要来读文献。 面对这些离不开AI的学生,老师和家长都开始担忧了,这样下去,孩子会不会越变越笨啊。 然而,最近一项发表在Nature子刊的研究,基于对59项研究对汇总(元分析)指出,ChatGPT的使用对提高K12(中小学生)的学习表现有显著的正向影响,对于培养学生解决复杂问题的能力也有所帮助。
5/26/2025 8:43:00 AM
矩阵乘法新突破!XX^T原来可以更快!RL助力搜索,世界纪录又被提升了5%
深圳市大数据研究院、香港中文大学(深圳)研究团队最新研究发现, 这类特殊的矩阵乘法可以进一步加速,并在强化学习与组合优化技术的结合下发掘出了一种新的算法,节省 5% 的乘法数量。 论文标题:XXt Can Be Faster论文链接: X 引发热烈讨论,并引起 MIT、斯坦福、哈佛及 Google DeepMind 科学家的广泛关注。 背景矩阵乘法优化堪称计算机科学领域的「珠穆朗玛峰」。
5/26/2025 8:41:00 AM
打破思维链推理瓶颈!“软推理”让大模型学会人类抽象能力,token使用量还更少了
不再像CoT(“思维链”)一样“一个字一个字往外蹦”,加上“软思维”就能让大模型像人类一样进行抽象思考。 来自SimularAI和微软DeepSpeed的研究员联合提出了Soft Thinking,让模型在连续的概念空间中进行 “软推理”,而非局限于离散的语言符号,打破了基于离散token的推理瓶颈。 相比标准CoT,Soft Thinking最高提升Pass@1平均准确率2.48%、减少token使用量22.4%。
5/26/2025 8:40:00 AM
如何使用Google Gemini模型完成计算机视觉任务?
译者 | 李睿审校 | 重楼自从人工智能聊天机器人兴起以来,Google Gemini脱颖而出,已经成为推动智能系统进化的主要参与者之一。 除了强大的会话能力之外,Gemini还释放了计算机视觉实际应用的潜力,让它们能够看到、解释和描述周围的世界。 本文将逐步讲解如何利用Google Gemini完成计算机视觉任务,其中包括如何设置环境,发送带有指令的图像以及解释模型的输出以进行对象检测、字幕生成和OCR,还将探讨数据注释工具(例如YOLO中使用的工具),为自定义训练场景提供上下文。
5/26/2025 8:36:25 AM
李睿