模型
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
曾撼动Transformer统治地位的Mamba作者之一Tri Dao,刚刚带来新作——提出两种专为推理“量身定制”的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献:其一,提出Grouped-Tied Attention(GTA),与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。
6/3/2025 8:43:00 AM
SSM+扩散模型,竟造出一种全新的「视频世界模型」
在这个 AI 技术与应用大爆发的时代,我们最不缺的就是「热词」,从自回归到扩散模型,从注意力机制到状态空间模型,从思维链到推理模型…… 有时候,其中一些热词会聚拢一处,为 AI 世界创造出新的可能性。 今天我们要介绍的这项研究便是如此,集齐了长上下文、状态空间模型(SSM)、扩散模型、世界模型等「热词」,创造了一种全新的「视频世界模型」。 该研究来自斯坦福大学、普林斯顿大学和 Adobe Research,在社交网络上引起了不少关注。
6/3/2025 8:40:00 AM
北大校友造通用AI Agent,可执行1000个操作,无邀请码立即上手试用
无邀请码,就可直接上手! 北大校友官宣推出号称“最强通用Agent” Fairies(中译仙女),能执行Deep research、代码生成、发邮件等1000个操作。 编辑部的小伙伴一上手实测就发出了如下感叹~关键是无需邀请码,Mac和Windows用户只需下载APP就能立即上手试玩。
6/3/2025 8:39:00 AM
Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了
Claude团队来搞开源了——推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。 该工具的核心在于生成归因图(attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系,呈现LLM处理信息的路径。 研究人员通过干预节点激活值,观察模型行为变化,从而验证各节点的功能分工,解码LLM的“决策逻辑”。
6/3/2025 8:35:00 AM
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题
GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了! 360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。 最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问题:现有的图像编辑评测基准是否已经无法跟上时代的步伐?
6/3/2025 8:30:00 AM
o3崛起,但推理模型离「撞墙」只剩一年?
最多一年,推理模型就会撞上训练算力的「天花板」。 OpenAI的o3这样的推理模型,诞生还不到一年,能力已经突飞猛进。 OpenAI的研究人员非常乐观地认为,这种趋势会持续下去。
6/3/2025 8:26:00 AM
让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%
人类在面对简单提问时常常不假思索直接回答,只有遇到复杂难题才会认真推理。 如果AI模型也能像人一样决定“要不要思考”,效率是否会大大提升? 近日,香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为TON(Think Or Not)的新颖选择性推理框架,让视觉语言模型(VLM)可以自主判断是否需要显式推理。
6/3/2025 8:25:00 AM
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。 然而,当应用场景从静态图像拓展至动态视频时,即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。
6/3/2025 8:22:00 AM
1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR
给AI生成的作品打水印,让AIGC图像可溯源,已经成为行业共识。 问题是,传统水印方法通常把图像当成一个整体处理,全局嵌入、水印提取一锅端,存在不少“短板”:比如,图像局部区域被篡改,就可能导致全局提取失败,也无法定位水印所在具体区域。 又比如,无法只保护某个区域,如人脸、LOGO等。
6/3/2025 8:20:00 AM
10个小模型并联跑赢GPT-4.1!无额外训练,方法仅四步
近年来,语言模型技术迅速发展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐渐被谷歌、OpenAI等科技巨头所垄断。 与此同时,开源社区的小规模模型正面临日益严峻的挑战——他们参数规模通常仅在7B左右,难以在多任务、多领域场景中与大型闭源模型相抗衡,尚未形成真正意义上的通用人工智能能力。 在此背景下,上海人工智能实验室联合东北大学、西北工业大学等机构,提出了Avengers框架,旨在探索开源小模型群体智能的新路径。
6/3/2025 8:12:00 AM
全球首个AI智能体「自进化」开源框架来了!一次部署,终生可用
在大语言模型技术迅猛发展的今天,各类AI智能体已广泛应用于科研和工业场景。 然而,在实际应用中,构建一个高效、稳定的多智能体系统仍面临诸多挑战:从智能体选型、提示词调试到工作流设计,流程复杂,成本高昂。 更重要的是,当前多智能体系统通常「部署即固化」,缺乏自我演化机制。
6/3/2025 8:09:00 AM
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。 今天我们介绍的这个名叫 LaViDa,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。 现目前,几乎所有流行的 VLM 都是基于大型语言模型(LLM)构建的,而这些模型采用的范式是自回归(AR),即按照从左到右的顺序逐一生成 token。
5/30/2025 3:54:16 PM
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为大模型智能体,大语言模型,个性化算法等。 近年来,随着大语言模型的快速发展,基于其构建的大模型智能体(LLM Agents)正逐步从技术演示走向实际应用部署。 然而,真正实现规模化应用仍面临诸多瓶颈。
5/30/2025 3:53:27 PM
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
AI生图新突破! 一个模型同时接受文本和图像输入。 新模型FLUX.1 Kontext使用流匹配架构(Flow Matching),不再是文本编码器和扩散模型各干各的,与此前技术都不同。
5/30/2025 2:22:00 PM
Anthropic重磅开源!“电路追踪”工具解锁AI大脑,揭秘大模型决策全过程
近年来,大语言模型(LLM)的快速发展为人工智能领域带来了前所未有的突破,但其内部决策过程却常常被视为“黑盒子”,难以捉摸。 5月29日,AI研究领域的明星公司Anthropic发布了一项重大开源成果——“电路追踪”(Circuit Tracing)工具,为破解大模型的内部工作机制提供了全新视角。 这一工具不仅能帮助研究人员深入探索AI的“思考”过程,还为推动更透明、可控的AI发展迈出了重要一步。
5/30/2025 10:01:14 AM
AI在线
妈妈再也不用担心延迟了!斯坦福手搓Llama超级内核,推理仅需0.00068秒
想象一下:你和AI聊天时,每句话都要等它3秒——血压是不是瞬间飙升? 低延迟LLM推理,就是专门针对这个问题的解决办法。 博客地址:「整了个大活」:他们手搓了个叫做「Megakernel」超级玩具(推理引擎),把Llama-1B的前向传播整个塞进单个GPU内核!
5/30/2025 9:12:00 AM
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”? 比如,“写一篇10,000字的长文,详细分析某个议题。 ”看似简单的要求,实际却往往让这些模型“力不从心”:不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。
5/30/2025 9:10:00 AM
135 个项目、七大趋势、三大赛道:撕开大模型开源生态真相,你会怎么卷?
在微软 Build、谷歌 I/O、 Code with Claude 三大开发者大会接连登场的一周里,微软为 Windows 加装模型上下文协议(MCP),Google Gemini 野心初显「AI 操作系统」,Claude 4.0 高调抢滩编程主战场。 就在这样的节奏下,5 月 27 日,蚂蚁集团的开源团队「接棒」发布了一张《 2025 大模型开源开发生态全景图》。 访问地址::——135 个社区核心项目、19 个技术领域,全面覆盖从智能体应用到模型基建,系统性梳理了开源力量在大模型浪潮下的集结与演化路径。
5/30/2025 9:07:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
Claude
苹果
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
具身智能
RAG
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
MCP
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
预测