AI在线 AI在线

AI

北大校友造通用AI Agent,可执行1000个操作,无邀请码立即上手试用

无邀请码,就可直接上手! 北大校友官宣推出号称“最强通用Agent” Fairies(中译仙女),能执行Deep research、代码生成、发邮件等1000个操作。 编辑部的小伙伴一上手实测就发出了如下感叹~关键是无需邀请码,Mac和Windows用户只需下载APP就能立即上手试玩。
6/3/2025 8:39:00 AM

UC伯克利新作颠覆认知:LLM靠「自信爆表」学会推理?无需外部奖励超进化

就在刚刚,UC伯克利CS博士后Xuandong Zhao,分享出来自己「今年参与的最鼓舞人心的工作」。 他和同事们发现,在没有外部奖励的情况下,LLM竟然只靠「自信爆棚」,就学会了复杂推理? 论文地址:,竟能学会复杂推理LLM不靠外部奖励,就能自己学会复杂推理,这个结论实在很出乎意料。
6/3/2025 8:38:00 AM

Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了

Claude团队来搞开源了——推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。 该工具的核心在于生成归因图(attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系,呈现LLM处理信息的路径。 研究人员通过干预节点激活值,观察模型行为变化,从而验证各节点的功能分工,解码LLM的“决策逻辑”。
6/3/2025 8:35:00 AM

函数向量对齐技术,让大模型持续学习不“失忆”丨ICLR 2025

LLMs为什么总是灾难性遗忘? 原来是功能激活在搞怪。 最近来自中国科学技术大学、香港城市大学和浙江大学的联合研究团队,通过对多个语言模型、任务序列和评估指标的系统分析,终于破解了LLMs的灾难性遗忘之谜——遗忘行为具有高度的模型依赖性,而导致遗忘发生的本质却是功能激活的变化。
6/3/2025 8:35:00 AM

AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力

当AI不再只是“即兴发挥”的对话者,而开始拥有“记忆力”——我们该如何重新定义智能? 来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述,旨在在大模型时代背景下,重新审视并系统化理解智能体的记忆构建与演化路径。 大语言模型(LLMs)正快速从纯文本生成工具演化为具有长期交互能力的智能体。
6/3/2025 8:32:00 AM

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了! 360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。 最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问题:现有的图像编辑评测基准是否已经无法跟上时代的步伐?
6/3/2025 8:30:00 AM

极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency

本文由 NUS ShowLab 主导完成。 第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、NeurIPS 等国际顶级会议上发表多篇研究成果。 共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。
6/3/2025 8:26:00 AM

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

给AI生成的作品打水印,让AIGC图像可溯源,已经成为行业共识。 问题是,传统水印方法通常把图像当成一个整体处理,全局嵌入、水印提取一锅端,存在不少“短板”:比如,图像局部区域被篡改,就可能导致全局提取失败,也无法定位水印所在具体区域。 又比如,无法只保护某个区域,如人脸、LOGO等。
6/3/2025 8:20:00 AM

斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创

好家伙,AI意外生成的内核(kernel),性能比人类专家专门优化过的还要好! 斯坦福最近披露了一组新发现,结果真的太亮眼了。 由AI优化的内核,在常见深度学习操作上,翻倍超越原生PyTorch,性能至多可以提升近400%——矩阵乘法(Matmul,FP32):性能达到PyTorch torch.matmul的101.3%。
6/3/2025 8:17:00 AM

陶哲轩转发!DeepMind开源「AI数学证明标准习题集」

陶哲轩转发,AI搞数学证明的标准习题集来了! DeepMind最新开源形式化数学猜想库——猜想库收录了经典的形式化表述的数学猜想集合,例如,解析数论中的四个朗道问题。 不仅如此,资源库中还提供了各种代码函数,以方便用户对自然语言的数学猜想进行形式化的表述。
6/3/2025 8:15:00 AM

OpenAI 抛弃 Node.js,用 Rust 重写 AI 编程工具 Codex CLI

原版本主要基于 TypeScript 和 Node.js,但团队现已决定用 Rust 重写。维护者 Fouad Matin 表示,TypeScript 版本将持续修复 BUG,直到 Rust 版本在体验和功能上达到同等水平。
6/3/2025 8:13:08 AM
故渊

谷歌破解了 AI 最大难题(以及其他 19 个重大更新)

谷歌在 2025 年 I/O 大会上发布的内容,简直让人震惊。 这次更新涉及广泛,将极大提升你的工作效率,让你更快完成任务,成为更高效的人。 下面是谷歌 I/O 2025 的 20 个最疯狂 AI 更新盘点。
6/3/2025 8:10:52 AM
前端小智

全球首个AI智能体「自进化」开源框架来了!一次部署,终生可用

在大语言模型技术迅猛发展的今天,各类AI智能体已广泛应用于科研和工业场景。 然而,在实际应用中,构建一个高效、稳定的多智能体系统仍面临诸多挑战:从智能体选型、提示词调试到工作流设计,流程复杂,成本高昂。 更重要的是,当前多智能体系统通常「部署即固化」,缺乏自我演化机制。
6/3/2025 8:09:00 AM

为什么非要做Agent?我用传统方法也能实现啊!

"我硬编码10分钟就能搞定的功能,你用Agent折腾半天还不稳定,图啥? " 技术群里,老王又开始质疑我们的Agent项目了。 作为一个写了15年代码的资深工程师,他的话很有代表性。
6/3/2025 6:39:54 AM
大数据AI智能圈

AI大模型踩过的坑,每一个都价值千万

看着你们公司几十台服务器嗡嗡作响,显卡温度报警声此起彼伏,老板又在催问"大模型什么时候能上线? " 这个熟悉的场景,是不是让你想起了那句话——"理想很丰满,现实很骨感"。  训练一个千亿参数的大模型,好比盖一栋摩天大楼。
6/3/2025 6:30:05 AM
大数据AI智能圈

人工智能和知识图谱二:构建和使用知识图谱的工具包和算法

一、知识表示标准RDF 和 SPARQL许多知识图谱的核心是资源描述框架 (RDF),它是 W3C 标准,用于以主语-谓语-宾语三元组的形式表示信息。 RDF 提供了一个灵活的图形数据模型,其中每个三元组(例如Alice worksAt CompanyX)都断言资源之间的关系。 它带有形式语义(RDF Schema、OWL 本体),可实现丰富的知识建模(例如类层次结构、域/范围限制)。
6/3/2025 6:14:37 AM
晓晓

MARFT:多智能体协作与强化学习微调的协同进化

大家好,我是肆〇柒。 今天,继续 RL 相关话题,我们来探讨一个在人工智能领域极具应用潜力的话题 —— Multi-Agent Reinforcement Fine-Tuning(MARFT)。 这个概念融合了大型语言模型(LLM)、多智能体系统(LaMAS)和强化学习(RL)的精华,为解决复杂任务提供了全新的视角和方法论。
6/3/2025 6:12:03 AM
肆零柒

人工智能和知识图谱一:人工智能中知识图谱的概述

知识图谱 (KG) 是由现实世界实体(节点)及其相互关系(边)组成的结构化网络,以机器可读的形式对知识进行编码。 在人工智能领域,知识图谱是语义理解、推理和数据集成的强大工具。 它们为人工智能系统提供上下文,通过链接不同的数据源并揭示隐藏的关系,实现更易于解释、更准确的决策。
6/3/2025 6:03:06 AM
晓晓