理论
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
本篇工作已被电子设计自动化领域顶级会议 DAC 2025 接收,由上海交大计算机学院蒋力教授与刘方鑫助理教授带领的 IMPACT 课题组完成,同时也获得了华为 2012 实验室和上海期智研究院的支持。 第一作者是博士生汪宗武与硕士生许鹏。 在通用人工智能的黎明时刻,大语言模型被越来越多地应用到复杂任务中,虽然展现出了巨大的潜力和价值,但对计算和存储资源也提出了前所未有的挑战。
4/29/2025 9:13:00 AM
机器之心
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。 本科就读于清华大学,导师为刘知远教授。 其工作集中在大语言模型工具使用与推理以及人工智能体方向。
4/29/2025 9:12:00 AM
机器之心
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。 受此启发,研究人员开始探索预训练阶段的长度扩展,已有方法包括在序列中插入文本、插入潜在向量(如 Coconut)、复用中间层隐藏状态(如 CoTFormer)以及将中间隐藏状态映射为概念(如 COCOMix)。 不过,这些方法普遍存在问题,比如需要更大的 KV 缓存导致推理慢 / 占内存多。
4/29/2025 9:10:00 AM
机器之心
AI三驾马车:数据、算力和算法,谁更重要?
人工智能(AI)好比一台超级跑车,正在高速公路上飞驰。 这台超级跑车由三个核心部件驱动:算法是引擎,决定了车辆性能的上限;算力是燃油,提供源源不断的能量;数据是道路,铺就了AI前进的方向。 这三者构成了AI发展的铁三角,缺一不可!算法:AI的思维引擎算法是AI的大脑,决定了系统如何学习和决策。
4/29/2025 9:09:32 AM
大数据AI智能圈
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。 基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。 项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。
4/29/2025 9:08:00 AM
机器之心
使用OAuth2保护Spring AI MCP服务!
Spring AI框架提供了对Model Context Protocol(简称MCP)的全面支持,使AI模型能够以标准化方式与外部工具和资源进行安全交互。 借助Spring AI,开发者仅需少量代码即可构建功能完备的MCP服务器,为AI模型提供丰富的功能扩展。 MCP 中的授权和安全MCP服务器默认支持通过STDIO传输在本地环境中运行。
4/29/2025 9:07:21 AM
飘渺Jam
猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火
今天凌晨,从昨晚开始预热、备受全球 AI 圈关注的 Qwen3 系列模型终于正式亮相了! Qwen3 模型依旧采用宽松的 Apache2.0 协议开源,全球开发者、研究机构和企业均可免费在 HuggingFace、魔搭社区等平台下载模型并商用,也可以通过阿里云百炼调用 Qwen3 的 API 服务。 HuggingFace 地址: 地址: 地址:::,Qwen3 系列模型包含两款 MoE 模型以及六款密集模型,其中每一款又包含更多细分版本(比如基础版和量化版):MoE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B;其中 235B 和 30B 分别是总参数量,22B 和 3B 分别是激活参数量。
4/29/2025 9:06:00 AM
机器之心
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为语言理解与生成带来了前所未有的突破。 然而,随着模型规模的不断扩大和应用场景的日益复杂,传统 Transformer 架构逐渐暴露出缺陷,尤其是在处理长文本、关键信息检索以及对抗幻觉等任务时,Transformer 常常因过度关注无关上下文而陷入困境,导致模型表现受限。 为攻克这一难题,来自微软和清华的研究团队提出了 DIFF Transformer,一种基于差分注意力机制的创新基础模型架构。
4/29/2025 9:05:00 AM
机器之心
不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门
DeepSeek即将发布R2? ? 坊间传闻越来越多了,且难辨真假。
4/29/2025 9:03:00 AM
量子位
阿里Qwen3问鼎开源王座!8款模型全面开放,最大杯全方位超越R1/o1,网友:让开源再次伟大
千呼万唤,Qwen3终于来了! 一口气上新8大模型,通通开源。 旗舰模型Qwen3-235B-A22B全方位超越R1、o1、o3-mini,最大杯稠密模型也以32B参数量达到了可观水平。
4/29/2025 8:56:36 AM
苹果挥刀自救,肢解AI团队!神秘硬件或成救命稻草
曾被寄予厚望的苹果AI,似乎已被这个飞速迭代的时代淘汰了。 Siri,作为曾经的语音助手先驱,光环逐渐暗淡。 苹果AI的努力在谷歌OpenAI等巨头夹击之下,又显得力不从心。
4/29/2025 8:55:00 AM
新智元
RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升
在当前大语言模型(LLMs)广泛应用于问答、对话等任务的背景下,如何更有效地结合外部知识、提升模型对复杂问题的理解与解答能力,成为 RAG(Retrieval-Augmented Generation)方向的核心挑战。 来自清华大学、中国科学院大学、华南理工大学、东北大学、九星(AI9Stars)的联合研究团队提出了一项全新的适应式RAG方法——DeepNote。 它首次引入“笔记(Note)”作为知识载体,实现更深入、更稳定的知识探索与整合,在所有任务上均优于主流RAG方法,相较于基础RAG性能提升高达 20.1%。
4/29/2025 8:54:53 AM
100年企业知识超10万文件,「内网版ChatGPT」血洗最卷行业!全员70%和AI共事
要说什么行业是地球上「最卷」的,咨询行业说第一,恐怕没有哪个行业敢称第二。 在这个全球最精英、最高压的竞技场里,卷时间、卷精力、卷智力,现在要卷AI了! ChatGPT已经无法满足世界上最「卷」的这批人了。
4/29/2025 8:40:00 AM
新智元
Adaptive-RAG:让检索增强生成更智能
在人工智能领域,检索增强生成(Retrieval-Augmented Generation,RAG)一直是研究热点。 它通过结合检索和生成技术,为问答系统带来了更强大的性能。 然而,现有的RAG方法并非完美无缺。
4/29/2025 8:20:51 AM
Goldma
LLMs 防御升级:借函数调用机制打造无缝防御层
大语言模型(LLMs)展现出了令人惊叹的能力,其中函数调用功能更是让其如虎添翼。 然而,这一强大功能也伴随着风险,恶意用户可能利用巧妙设计的提示进行隐秘操纵。 本文将深入探讨如何将函数调用机制转化为一道无缝的防御层,有效检测和防范这些潜在威胁。
4/29/2025 8:18:48 AM
大模型之路
MCP安全噩梦终结者:Agent框架如何重构AI防护新范式?
译者 | 朱先忠审校 | 重楼引言目前,Anthropic公司推出的多代理上下文协议(MCP)备受业界关注。 MCP通常被称为“AI代理的USB-C”,它承诺将标准化代理之间的通信方式。 这个想法很简单:通过一个通用接口连接不同的AI代理和工具,让它们共享内存,并跨任务重用功能。
4/29/2025 8:15:41 AM
朱先忠
深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星
就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源! 一经问世,它立刻登顶全球最强开源模型王座。 它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
4/29/2025 8:14:14 AM
新智元
浅析小语言模型在增强RAG系统中的作用
译者 | 布加迪审校 | 重楼小语言模型(SLM)是大语言模型(LLM)的紧凑版。 它们包含的参数通常少于大语言模型:大约30亿个参数或更少。 这使得它们相对轻量级,推理时间更快。
4/29/2025 8:09:39 AM
布加迪
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
蛋白质
xAI
开发者
生成式
人形机器人
神经网络
机器学习
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
字节跳动
工具
华为
AGI
计算
大型语言模型
AI设计
搜索
生成式AI
视频生成
亚马逊
DeepMind
AI模型
特斯拉
场景
深度学习
Transformer
架构
MCP
Copilot
编程
视觉