理论
Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了
Claude团队来搞开源了——推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。 该工具的核心在于生成归因图(attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系,呈现LLM处理信息的路径。 研究人员通过干预节点激活值,观察模型行为变化,从而验证各节点的功能分工,解码LLM的“决策逻辑”。
6/3/2025 8:35:00 AM
函数向量对齐技术,让大模型持续学习不“失忆”丨ICLR 2025
LLMs为什么总是灾难性遗忘? 原来是功能激活在搞怪。 最近来自中国科学技术大学、香港城市大学和浙江大学的联合研究团队,通过对多个语言模型、任务序列和评估指标的系统分析,终于破解了LLMs的灾难性遗忘之谜——遗忘行为具有高度的模型依赖性,而导致遗忘发生的本质却是功能激活的变化。
6/3/2025 8:35:00 AM
八种方法让现代JavaScript发挥更大效益
JavaScript是一门极具持久生命力、通用性与功能性的编程语言,通常能够满足开发者的多样化需求。 掌握JavaScript的核心在于全面理解其提供的所有内容,以及如何在程序中高效利用这些资源。 对于希望充分运用JavaScript中可用工具与库的开发人员而言,以下8个关键概念值得重点关注。
6/3/2025 8:33:53 AM
AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力
当AI不再只是“即兴发挥”的对话者,而开始拥有“记忆力”——我们该如何重新定义智能? 来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述,旨在在大模型时代背景下,重新审视并系统化理解智能体的记忆构建与演化路径。 大语言模型(LLMs)正快速从纯文本生成工具演化为具有长期交互能力的智能体。
6/3/2025 8:32:00 AM
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题
GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了! 360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。 最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问题:现有的图像编辑评测基准是否已经无法跟上时代的步伐?
6/3/2025 8:30:00 AM
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
想象这样一个场景:你开发了一个由多个大型语言模型 Agent 组成的智能团队,它们协作完成复杂任务,比如一个 Agent 负责检索,一个负责决策。 然而任务失败了,结果不对。 问题来了:到底是哪个 Agent 出了错?
6/3/2025 8:26:00 AM
o3崛起,但推理模型离「撞墙」只剩一年?
最多一年,推理模型就会撞上训练算力的「天花板」。 OpenAI的o3这样的推理模型,诞生还不到一年,能力已经突飞猛进。 OpenAI的研究人员非常乐观地认为,这种趋势会持续下去。
6/3/2025 8:26:00 AM
极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency
本文由 NUS ShowLab 主导完成。 第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、NeurIPS 等国际顶级会议上发表多篇研究成果。 共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。
6/3/2025 8:26:00 AM
让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%
人类在面对简单提问时常常不假思索直接回答,只有遇到复杂难题才会认真推理。 如果AI模型也能像人一样决定“要不要思考”,效率是否会大大提升? 近日,香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为TON(Think Or Not)的新颖选择性推理框架,让视觉语言模型(VLM)可以自主判断是否需要显式推理。
6/3/2025 8:25:00 AM
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。 然而,当应用场景从静态图像拓展至动态视频时,即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。
6/3/2025 8:22:00 AM
1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR
给AI生成的作品打水印,让AIGC图像可溯源,已经成为行业共识。 问题是,传统水印方法通常把图像当成一个整体处理,全局嵌入、水印提取一锅端,存在不少“短板”:比如,图像局部区域被篡改,就可能导致全局提取失败,也无法定位水印所在具体区域。 又比如,无法只保护某个区域,如人脸、LOGO等。
6/3/2025 8:20:00 AM
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
好家伙,AI意外生成的内核(kernel),性能比人类专家专门优化过的还要好! 斯坦福最近披露了一组新发现,结果真的太亮眼了。 由AI优化的内核,在常见深度学习操作上,翻倍超越原生PyTorch,性能至多可以提升近400%——矩阵乘法(Matmul,FP32):性能达到PyTorch torch.matmul的101.3%。
6/3/2025 8:17:00 AM
陶哲轩转发!DeepMind开源「AI数学证明标准习题集」
陶哲轩转发,AI搞数学证明的标准习题集来了! DeepMind最新开源形式化数学猜想库——猜想库收录了经典的形式化表述的数学猜想集合,例如,解析数论中的四个朗道问题。 不仅如此,资源库中还提供了各种代码函数,以方便用户对自然语言的数学猜想进行形式化的表述。
6/3/2025 8:15:00 AM
10个小模型并联跑赢GPT-4.1!无额外训练,方法仅四步
近年来,语言模型技术迅速发展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐渐被谷歌、OpenAI等科技巨头所垄断。 与此同时,开源社区的小规模模型正面临日益严峻的挑战——他们参数规模通常仅在7B左右,难以在多任务、多领域场景中与大型闭源模型相抗衡,尚未形成真正意义上的通用人工智能能力。 在此背景下,上海人工智能实验室联合东北大学、西北工业大学等机构,提出了Avengers框架,旨在探索开源小模型群体智能的新路径。
6/3/2025 8:12:00 AM
谷歌破解了 AI 最大难题(以及其他 19 个重大更新)
谷歌在 2025 年 I/O 大会上发布的内容,简直让人震惊。 这次更新涉及广泛,将极大提升你的工作效率,让你更快完成任务,成为更高效的人。 下面是谷歌 I/O 2025 的 20 个最疯狂 AI 更新盘点。
6/3/2025 8:10:52 AM
前端小智
全球首个AI智能体「自进化」开源框架来了!一次部署,终生可用
在大语言模型技术迅猛发展的今天,各类AI智能体已广泛应用于科研和工业场景。 然而,在实际应用中,构建一个高效、稳定的多智能体系统仍面临诸多挑战:从智能体选型、提示词调试到工作流设计,流程复杂,成本高昂。 更重要的是,当前多智能体系统通常「部署即固化」,缺乏自我演化机制。
6/3/2025 8:09:00 AM
为什么非要做Agent?我用传统方法也能实现啊!
"我硬编码10分钟就能搞定的功能,你用Agent折腾半天还不稳定,图啥? " 技术群里,老王又开始质疑我们的Agent项目了。 作为一个写了15年代码的资深工程师,他的话很有代表性。
6/3/2025 6:39:54 AM
大数据AI智能圈
AI大模型踩过的坑,每一个都价值千万
看着你们公司几十台服务器嗡嗡作响,显卡温度报警声此起彼伏,老板又在催问"大模型什么时候能上线? " 这个熟悉的场景,是不是让你想起了那句话——"理想很丰满,现实很骨感"。 训练一个千亿参数的大模型,好比盖一栋摩天大楼。
6/3/2025 6:30:05 AM
大数据AI智能圈
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Agent
Sora
AI视频
GPU
百度
AI设计
华为
搜索
大语言模型
工具
场景
字节跳动
RAG
大型语言模型
具身智能
预测
深度学习
伟达
视觉
Transformer
神器推荐
AGI
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA