AI在线 AI在线

理论

准确率达90%,用户却疯狂弃用,一遇问题转人工,AI客服竟比电话语音还糟!大牛发文痛斥:能力≠采纳!四层架构让Agent无AI感

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)上周,我和一位最近刚上线 AI Agent 的 PM 聊天。 指标看上去非常亮眼:89% 的准确率、毫秒级的响应、用户调研反馈积极。 但实际情况却很打脸,上线没多久,用户纷纷弃用了。
9/5/2025 1:06:00 PM
云昭

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

本系列工作核心作者: 郭海洋(自动化所博士生)、 朱飞 (中科院香港院AI中心AP)、 曾繁虎 (自动化所硕士生)、 刘文卓 (自动化所博士生)、 赵宏博 (自动化所博士生)。 通讯作者为自动化所博士生导师张煦尧研究员和刘成林研究员。 团队长期从事人工智能研究,成果发表于 CVPR、ICCV、NeurIPS、ICLR、ACL、TPAMI、IJCV 等国际顶级会议与期刊。
9/5/2025 12:59:00 PM
机器之心

正则化:机器学习泛化能力的守护者

一、什么是正则化? 正则化是机器学习和统计建模中的关键技术,用于控制模型复杂度,防止过拟合(overfitting)。 当模型过度拟合训练数据时,它会过度关注数据中的噪声和细节,导致在新数据上表现显著下降。
9/5/2025 10:22:35 AM
用户007

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

无需海量数据标注,智能体也能精确识别定位目标元素了! 来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法,可以让模型在没有标注的数据上自主提升GUI grounding(图形界面定位)能力。 何谓GUI grounding?
9/5/2025 10:11:01 AM

突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

人形机器人对跳舞这件事,如今是越来越擅长了。 比如跳一支查尔斯顿舞,一分四十秒的丝滑摇摆,稳定得像踩着节拍器:不过,它们能否像人类一样自如切换跳舞、体操、日常操作等不同的动作模式? 北京大学与BeingBeyond团队联合研发的BumbleBee系统给出了最新答案:通过创新的“分治-精炼-融合”三级架构,该系统首次实现人形机器人在多样化动作中的稳定控制。
9/5/2025 10:09:47 AM

DeepSeek新大招曝光:下一步智能体

DeepSeek下一步,被曝剑指智能体。 知情人士透露,DeepSeek正在开发具有更强大AI Agent能力的新模型,预计在今年年底就会推出。 官方尚无回应,但这一爆料并非无迹可寻。
9/5/2025 9:54:44 AM

通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持

在大模型的发展历程中,提升参数规模已被多次证明是提升模型智能的最有效手段之一。 然而,随着模型参数量的增加,GPU内存容量和互联带宽已成为限制未来更大规模模型训练和部署的主要瓶颈。 在有限的硬件资源下,如何更有效地训练和推理更大规模的模型,已成为一个备受关注且具有显著经济价值的课题。
9/5/2025 9:15:00 AM

「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台

今年8月,一款名为「纳米香蕉」的神秘AI图像编辑器轻松登顶Image Edit Arena榜首,直接把LMArena8月份的平台流量拉爆:流量暴增10倍,月活300万 。 该模型自在LMArena启动盲测以来,短短两周便吸引了超过500万次总投票,并单独赢得了250万 直接投票,创下历史最高参与度。 nano‑banana的神秘身份,也在LMArena社区引发广泛猜测。
9/5/2025 9:14:00 AM

字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持

图像生成中的多指标一致性问题,被字节团队解决了! 字节UXO团队设计并开源了统一框架USO,让看上去不关联的任务相互促进,实现风格迁移和主体保持单任务和组合任务的SOTA。 USO通过单一框架能统一之前那些看似孤立的任务包括主体、身份保持和风格化编辑,参考图风格迁移,同时保持主体和风格参考,甚至更抽象复杂的多风格迁移,是实打实的六边形战士。
9/5/2025 9:07:00 AM

Claude Code之父最新访谈揭秘:Claude Code 迭代靠的是直觉「附个人独家使用秘笈」

Claude Code 项目负责人Boris Cherny内部最新访谈,和最顶级的大佬学习Claude Code,比你看多少碎片化的信息都强Boris Cherny 作为Claude Code 创造者 和 Alex Albert (Claude Relations 负责人) 深入详细的讨论智能体编程的实用化、背后模型的演进过程、直觉驱动的Claude Code 迭代,以及 Claude Code 的设计哲学其中Boris首次揭秘的直觉驱动的Claude Code 迭代非常有意思,原来Claude Code这个神器开发并不是依靠什么基准测试而是内部构建的“直觉系统”Boris认为如果你未来要当软件工程师,基本的计算机编程知识和coding技能仍然是必须的,只有懂“手艺 ”的人,才能更好地驾驭和指导 AI 这个强大的工具! 软件工程师的未来将向更高层次的抽象演进,更侧重于目标设定、系统设计和创意实现访谈最后Boris 还给出了如何高效使用 Claude Code独家秘笈和最佳实践整个访谈20分钟,以下是访谈的核心内容仅一年时间Agentic Coding (智能体编程)走向实用在探讨智能体编程的未来之前,我们有必要先回顾一下它在短时间内所经历的剧烈演变。
9/5/2025 9:06:10 AM

OpenAI盯上苹果开发者生态,吞了家AI编程公司

OpenAI又吞下一家初创公司,这次是AI编程方向。 这家公司名为Alex,专注于为iOS开发者打造AI辅助工具——简单来说,他们的产品就是苹果Xcode量身定制版Cursor,将智能助手直接集成到了Xcode开发环境中,填补了苹果自身的空缺。 Alex官网和创始人𝕏都已挂出公告,宣布即将加入OpenAI Codex团队。
9/5/2025 9:05:00 AM

Hinton突然对AGI乐观了!“Ilya让他看到了什么吧…”

Hinton突然对AGI变乐观了。 对于AI,他几周前还觉得是养虎为患,最新采访却改口说是一种母亲和婴儿之间的亲密共生关系。 大多数专家认为5-10年后人工智能会比人类更聪明。
9/5/2025 9:04:00 AM

DeepSeek正开发高级AI Agent模型,硬刚OpenAI

彭博消息,DeepSeek正在开发一款更高级的AI Agent模型,皆在与OpenAI等美国企业竞争。 据知情人士透露,这款AI Agent可在用户指令极少的情况下,帮助用户执行多步骤任务。 他们补充称,该系统还能基于自身过往行动进行学习并持续优化。
9/5/2025 9:03:46 AM

AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了

大模型也会玩信息差了。 Qwen3在基准测试中居然学会了钻空子。 FAIR研究员发现Qwen3在SWE-Bench Verified测试中,不按常理修bug,反而玩起了信息检索大法。
9/5/2025 9:02:00 AM

DeepSeek大招曝光?梁文锋督战超级智能体:能自主学习,或年底发布

DeepSeek再次叫板OpenAI? 就在今天,彭博社爆料出重磅内幕消息:DeepSeek憋了一个超级大招——真正的AI智能体(AI Agent)! DeepSeek R1过去的开源之王今年1月,DeepSeek R1模型以仅数百万美元的成本,在多项基准测试中,实现了对标甚至超越OpenAI顶尖产品的表现。
9/5/2025 9:01:40 AM

从"调用工具"到"思考策略":Chain-of-Agents实现智能体技术的临界点突破

大家好,我是肆零柒。 今天,我们一起来了解一篇由OPPO AI Agent Team研究的论文。 这项工作名为Chain-of-Agents(CoA),它不只是一个新的AI框架,更是一次对"智能体"本质的深刻探索。
9/5/2025 9:00:43 AM
肆零柒

AI生成苹果Metal内核,PyTorch推理速度提升87%

AI自动生成的苹果芯片Metal内核,比官方的还要好? Gimlet Labs的最新研究显示,在苹果设备上,AI不仅能自动生成Metal内核,还较基线内核实现了87%的PyTorch推理速度提升。 更惊人的是,AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均1.87倍的加速,其中一些工作负载甚至比基准快了数百倍。
9/5/2025 9:00:00 AM

83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI

存款60美元,欠款15000美元。 82岁的Luis Bautista仍要为养老努力工作。 他创办的科技公司,他对AI的学习热情,在推动他前行。
9/5/2025 8:57:00 AM