资讯列表
模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
大型语言模型(LLMs)在广泛的自然语言处理(NLP)任务中展现出了卓越的能力。 然而,它们迅速增长的规模给高效部署和推理带来了巨大障碍,特别是在计算或内存资源有限的环境中。 例如,Llama-3.1-405B 在 BFloat16(16-bit Brain Float)格式下拥有 4050 亿个参数,需要大约 810GB 的内存进行完整推理,超过了典型高端 GPU 服务器(例如,DGX A100/H100,配备 8 个 80GB GPU)的能力。
4/29/2025 9:14:00 AM
机器之心
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
本篇工作已被电子设计自动化领域顶级会议 DAC 2025 接收,由上海交大计算机学院蒋力教授与刘方鑫助理教授带领的 IMPACT 课题组完成,同时也获得了华为 2012 实验室和上海期智研究院的支持。 第一作者是博士生汪宗武与硕士生许鹏。 在通用人工智能的黎明时刻,大语言模型被越来越多地应用到复杂任务中,虽然展现出了巨大的潜力和价值,但对计算和存储资源也提出了前所未有的挑战。
4/29/2025 9:13:00 AM
机器之心
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。 本科就读于清华大学,导师为刘知远教授。 其工作集中在大语言模型工具使用与推理以及人工智能体方向。
4/29/2025 9:12:00 AM
机器之心
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。 受此启发,研究人员开始探索预训练阶段的长度扩展,已有方法包括在序列中插入文本、插入潜在向量(如 Coconut)、复用中间层隐藏状态(如 CoTFormer)以及将中间隐藏状态映射为概念(如 COCOMix)。 不过,这些方法普遍存在问题,比如需要更大的 KV 缓存导致推理慢 / 占内存多。
4/29/2025 9:10:00 AM
机器之心
AI三驾马车:数据、算力和算法,谁更重要?
人工智能(AI)好比一台超级跑车,正在高速公路上飞驰。 这台超级跑车由三个核心部件驱动:算法是引擎,决定了车辆性能的上限;算力是燃油,提供源源不断的能量;数据是道路,铺就了AI前进的方向。 这三者构成了AI发展的铁三角,缺一不可!算法:AI的思维引擎算法是AI的大脑,决定了系统如何学习和决策。
4/29/2025 9:09:32 AM
大数据AI智能圈
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。 基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。 项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。
4/29/2025 9:08:00 AM
机器之心
使用OAuth2保护Spring AI MCP服务!
Spring AI框架提供了对Model Context Protocol(简称MCP)的全面支持,使AI模型能够以标准化方式与外部工具和资源进行安全交互。 借助Spring AI,开发者仅需少量代码即可构建功能完备的MCP服务器,为AI模型提供丰富的功能扩展。 MCP 中的授权和安全MCP服务器默认支持通过STDIO传输在本地环境中运行。
4/29/2025 9:07:21 AM
飘渺Jam
猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火
今天凌晨,从昨晚开始预热、备受全球 AI 圈关注的 Qwen3 系列模型终于正式亮相了! Qwen3 模型依旧采用宽松的 Apache2.0 协议开源,全球开发者、研究机构和企业均可免费在 HuggingFace、魔搭社区等平台下载模型并商用,也可以通过阿里云百炼调用 Qwen3 的 API 服务。 HuggingFace 地址: 地址: 地址:::,Qwen3 系列模型包含两款 MoE 模型以及六款密集模型,其中每一款又包含更多细分版本(比如基础版和量化版):MoE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B;其中 235B 和 30B 分别是总参数量,22B 和 3B 分别是激活参数量。
4/29/2025 9:06:00 AM
机器之心
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为语言理解与生成带来了前所未有的突破。 然而,随着模型规模的不断扩大和应用场景的日益复杂,传统 Transformer 架构逐渐暴露出缺陷,尤其是在处理长文本、关键信息检索以及对抗幻觉等任务时,Transformer 常常因过度关注无关上下文而陷入困境,导致模型表现受限。 为攻克这一难题,来自微软和清华的研究团队提出了 DIFF Transformer,一种基于差分注意力机制的创新基础模型架构。
4/29/2025 9:05:00 AM
机器之心
不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门
DeepSeek即将发布R2? ? 坊间传闻越来越多了,且难辨真假。
4/29/2025 9:03:00 AM
量子位
Qwen3正式发布,优化编码与代理能力,强化MCP支持引领AI新潮流
阿里云Qwen团队宣布Qwen3系列模型正式发布,以卓越的编码能力、增强的代理功能和对Model Context Protocol(MCP)的深度支持,掀起AI社区热潮。 据AIbase了解,Qwen3涵盖从0.6B到235B-A22B的多种模型规模,优化了数学推理、代码生成和多模态任务,性能直追GPT-4o与Gemini-2.5-Pro。 社交平台上的讨论显示,Qwen3的MCP集成与开源策略备受期待,相关细节已通过Hugging Face与Qwen官网公开。
4/29/2025 9:00:40 AM
AI在线
阿里发布开源Qwen3,成本大幅降低仅需DeepSeek-R1的三分之一
阿里巴巴正式推出新一代通义千问模型 Qwen3(千问3),并宣布其开源。 阿里云表示,千问3是国内首个 “混合推理模型”,同时集成了 “快思考” 与 “慢思考” 的能力。 相比于 DeepSeek-R1,千问3的参数量仅为其三分之一,而部署成本大幅降低,使用仅需四张 H20显卡即可实现满血版的部署。
4/29/2025 9:00:40 AM
AI在线
阿里Qwen3问鼎开源王座!8款模型全面开放,最大杯全方位超越R1/o1,网友:让开源再次伟大
千呼万唤,Qwen3终于来了! 一口气上新8大模型,通通开源。 旗舰模型Qwen3-235B-A22B全方位超越R1、o1、o3-mini,最大杯稠密模型也以32B参数量达到了可观水平。
4/29/2025 8:56:36 AM
苹果挥刀自救,肢解AI团队!神秘硬件或成救命稻草
曾被寄予厚望的苹果AI,似乎已被这个飞速迭代的时代淘汰了。 Siri,作为曾经的语音助手先驱,光环逐渐暗淡。 苹果AI的努力在谷歌OpenAI等巨头夹击之下,又显得力不从心。
4/29/2025 8:55:00 AM
新智元
RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升
在当前大语言模型(LLMs)广泛应用于问答、对话等任务的背景下,如何更有效地结合外部知识、提升模型对复杂问题的理解与解答能力,成为 RAG(Retrieval-Augmented Generation)方向的核心挑战。 来自清华大学、中国科学院大学、华南理工大学、东北大学、九星(AI9Stars)的联合研究团队提出了一项全新的适应式RAG方法——DeepNote。 它首次引入“笔记(Note)”作为知识载体,实现更深入、更稳定的知识探索与整合,在所有任务上均优于主流RAG方法,相较于基础RAG性能提升高达 20.1%。
4/29/2025 8:54:53 AM
100年企业知识超10万文件,「内网版ChatGPT」血洗最卷行业!全员70%和AI共事
要说什么行业是地球上「最卷」的,咨询行业说第一,恐怕没有哪个行业敢称第二。 在这个全球最精英、最高压的竞技场里,卷时间、卷精力、卷智力,现在要卷AI了! ChatGPT已经无法满足世界上最「卷」的这批人了。
4/29/2025 8:40:00 AM
新智元
Adaptive-RAG:让检索增强生成更智能
在人工智能领域,检索增强生成(Retrieval-Augmented Generation,RAG)一直是研究热点。 它通过结合检索和生成技术,为问答系统带来了更强大的性能。 然而,现有的RAG方法并非完美无缺。
4/29/2025 8:20:51 AM
Goldma
LLMs 防御升级:借函数调用机制打造无缝防御层
大语言模型(LLMs)展现出了令人惊叹的能力,其中函数调用功能更是让其如虎添翼。 然而,这一强大功能也伴随着风险,恶意用户可能利用巧妙设计的提示进行隐秘操纵。 本文将深入探讨如何将函数调用机制转化为一道无缝的防御层,有效检测和防范这些潜在威胁。
4/29/2025 8:18:48 AM
大模型之路