架构

现代LLM架构设计一览：从DeepSeek-V3到Kimi K2

主要内容现代LLM架构的演进主要围绕以下几个核心目标：提高推理效率：通过GQA、MLA、滑动窗口注意力、MoE等技术减少内存占用和计算量。增强训练稳定性：通过归一化层（如RMSNorm）的放置和QK-Norm等技术优化训练过程。优化模型容量与性能：通过MoE实现更大参数量和知识吸收能力，同时保持推理效率。

7/31/2025 1:00:00 AM

常华Andy

四款扩散大语言模型全部破防？上交&上海AI Lab发现致命安全缺陷

扩散语言模型（Diffusion-based LLMs，简称 dLLMs）以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性，成为一个重要的发展方向。相较传统的自回归语言模型，dLLMs 既可以一次性生成多个位置的词，也能更自然地完成文本插入、改写、补全等任务，被广泛应用于交互式问答、代码生成、甚至多模态场景。但在这股看似技术跃迁的浪潮背后，一场潜藏的安全危机正在酝酿：能否继续沿用自回归模型的对齐与防护机制，保障dLLM的输出安全？

7/24/2025 9:15:00 AM

Meta开源创新大模型架构AU-Nets

在大模型领域，如何将文本数据分解成合适的单元一直是重点研究对象。传统的分词方法，如Byte Pair Encoding等，会预先将文本分割成固定粒度的单元，然后构建一个静态的词汇表供模型使用。但这种方法存在诸多局限性，一旦分词完成，模型在后续处理中就只能局限于这些预设的单元，无法灵活地调整对数据的处理方式和预测范围；另一方面，对于一些低资源语言或者具有特殊字符结构的文本，这种固定分词方式往往难以有效处理，限制了模型的泛化能力和应用范围。

7/23/2025 9:10:00 AM

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

就在刚刚，KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——一个名为Mixture-of-Recursions的全新LLM模型架构。这个崭新的架构，被业内认为有潜力成为Transformer杀手！它的推理速度提升2倍，训练FLOP减少，KV缓存内存直接减半。

7/17/2025 1:05:35 PM

彻底改写Transformer！「能量驱动架构」横空出世，通用推理时代要来了？

在Transformer统治AI世界十余年之后，Attention的时代正在退场，真正的思考刚刚开始——由UIUC、斯坦福、哈佛等顶尖机构联合提出的Energy-Based Transformer（EBT）震撼登场。它首次将Transformer架构引入能量建模（Energy-Based Models, EBM）框架，彻底打破「前馈即推理」的旧范式。图片论文链接：，也不是RNN的改进，而是一种彻底不同的推理机制：模型不再一次性「说完答案」，而是像人类一样从模糊猜测出发，逐步优化推理路径。

7/15/2025 2:00:00 AM

新智元

开源DeepSeek R1增强版：推理效率快200%，创新AoE架构

德国知名技术咨询公司TNG开源了DeepSeek R1的增强版DeepSeek-TNG-R1T2-Chimera。 Chimera是基于DeepSeek的R1-0528、R1和V3-0324三大模型混合开发而成，同时采用了一种全新的AoE架构。这种架构在提升性能的同时，还能加快模型的推理效率并节省token输出。

7/4/2025 9:08:00 AM

你的RAG系统安全么？

生成式人工智能（GenAI）近年来发展迅速，大语言模型成为这一浪潮的核心力量。无论是商业还是开源模型，它们都具备强大的语言理解与生成能力，正广泛应用于内容创作、聊天机器人等场景，让企业更容易落地智能应用。但一个关键挑战是如何让这些通用的 LLM 更懂特定领域，同时保持知识的时效性。

7/1/2025 9:36:42 AM

曹洪伟

华为CloudMatrix重磅论文披露AI数据中心新范式，推理效率超NV H100

今年，AI大厂采购GPU的投入又双叒疯狂加码——马斯克xAI打算把自家的10万卡超算扩增10倍，Meta也计划投资100亿建设一个130万卡规模的数据中心……GPU的数量，已经成为了互联网企业AI实力的直接代表。的确，建设AI算力，这种堆卡模式是最简单粗暴的，但实际上，AI集群却并非是卡越多就越好用。 GPU虽然计算性能好，但是在集群化的模式下依然有很多挑战，即便强如英伟达，也面临通信瓶颈、内存碎片化、资源利用率波动等问题。

6/30/2025 8:49:00 AM

MiniMax 发布 M1 大模型，百万Token上下文+MoE架构，只花了 GPT-4 的零头！

近日，国内 AI 初创公司 MiniMax 发布了一款全新的语言大模型 MiniMax-M1。有两个方面最引人注目：1.高达100万Token的上下文处理能力。 2.极具竞争力的训练成本效益。

6/18/2025 4:42:38 PM

3D高斯泼溅，可输入视图量高达500！推理速度提升3倍，内存少80%

在增强现实（AR）和虚拟现实（VR）等前沿应用领域，新视角合成（Novel View Synthesis, NVS）正扮演着越来越关键的角色。近年来，3D高斯泼溅（3D Gaussian Splatting, 3DGS）技术横空出世，凭借其革命性的实时渲染能力和卓越的视觉质量，迅速成为NVS领域的一大突破。然而，传统3DGS对耗时的「逐场景优化」的依赖，严重限制了其在实际应用中的部署。

6/18/2025 8:54:48 AM

刚刚，谷歌AI路线图曝光：竟要抛弃注意力机制？Transformer有致命缺陷！

就在最近，谷歌未来的AI路线图曝光！谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会的演讲中，介绍了Gemini模型的未来。在未来，Gemini的全模态是重点，模型正在逐步变成智能体，推理能力还会持续扩展。

6/17/2025 9:05:00 AM

时空压缩！剑桥大学提出注意力机制MTLA：推理加速5倍，显存减至1/8

相邻的 KV 缓存将合并为一个。在生成第一个字符时，KV 缓存长度为 1；生成第二个字符后，新生成的 KV 与前一个被合并，KV 缓存长度仍然保持为 1。这种动态合并机制有效压缩了时间维度上的冗余信息。

6/11/2025 9:15:51 AM

20人团队提前实现DeepSeek构想，AI算力变天？直击大模型算力成本痛点

如果有一种芯片，天生只为大模型而生，能否突破当前AI的算力瓶颈？要知道，如今的芯片算力，强依赖于制程、工艺等非芯片设计因素。这是因为，传统通用型的GPGPU计算架构在应对日益庞大的模型和复杂计算时，其硬件固有的局限性日益凸显。

6/11/2025 9:06:00 AM

我们一起聊聊聊聊智能体的基础架构

2023年下半年，智能体这个概念开始随着AI的突进式发展而被很多人关注起来。到了2024年，大模型的能力进一步增强，为智能体快速发展提供了底层能力支撑。随着2025年DeepSeek的爆火，智能体在各行各业的落地应用案例开始明显增加。

6/10/2025 3:00:00 AM

写文章的老张

“一代更比一代强”：现代 RAG 架构的演进之路

基于 RAG（检索增强生成）的 AI 系统，过去是，现在仍然是企业利用大语言模型（LLM）的最有价值的应用之一。我记得差不多两年前我写了第一篇关于 RAG 的文章，那时候这个术语还未被广泛采用。我当时描述的是一个以最基础方式实现的 RAG 系统。

6/6/2025 1:15:00 AM

Baihai IDP

构建生产级LLM应用完整指南：从原型到落地的全流程实践

一、LLM应用落地的真实挑战当Jasper AI的写作助手因意外流量在数小时内崩溃时，人们意识到：让LLM应用从实验室走向真实用户，绝非简单的代码迁移。根据Anthropic 2024年开发者调查，73%的LLM应用在触达用户前折戟沉沙，问题并非出在AI模型本身，而是支撑系统无法应对真实世界的复杂性——用户的不可预测输入、API的偶发故障、成本的突然飙升，这些都是原型阶段未曾遭遇的“暗礁”。本文将以实战为导向，结合代码示例与架构设计，详解如何将一个基于OpenAI API的简单聊天机器人，升级为具备容错能力、成本可控且可弹性扩展的生产级系统。

6/5/2025 2:45:00 AM

大模型之路

LangGPT：让人人都能写出大师级Prompt，从此告别“灵感枯竭症”！

一、什么是 LangGPT？ Prompt的编程语言来了！你见过这样的尴尬场面吗：苦苦啃Prompt文档一年，还没搞明白ChatGPT到底要怎么“聆听人言”？

6/4/2025 11:09:02 AM

许泽宇

Fellou AI 浏览器 2.0来了！架构重大更新！很快取消邀请码机制！生产级复杂任务成功率超80%

作者 | 谢扬在漫威电影宇宙中，Jarvis 是钢铁侠托尼·斯塔克的私人人工智能助手，几乎无处不在，随时随地为托尼提供支持和帮助。 Jarvis 不仅仅是一个简单的语音助手，它深入融入了托尼的生活，管理他的日常事务，控制他的高科技设备，甚至在战斗中提供实时的战术建议。 Jarvis 的存在让托尼能够专注于更重要的事情，因为他知道有一个可靠的助手在背后支持他。

6/4/2025 10:06:59 AM

谢扬

资讯热榜

LangChain V1.0 深度解析：手把手带你跑通全新智能体架构 DeepSeek-OCR：OCR 的新突破 Soul App开源播客语音合成模型，可流畅自然多轮语音对话，支持川粤豫等多方言与副语言风格微软与OpenAI重塑联盟：2500亿美元Azure订单背后，OpenAI获“云自由”！ OpenAI推出两款全新的开源安全推理模型从7天缩短到10分钟！腾讯全新的AI全流程3D建模神器太强了！ Cursor发布首个编程大模型！代码生成250tokens/秒，强化学习+MoE架构如何理解：高效的异构算力调度是业界目前面临的一大难题？

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能 AI新词用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果腾讯 Claude Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人研究 AI视频大语言模型生成具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习架构生成式AI DeepMind 编程视觉 Transformer 预测 AI模型 MCP 伟达亚马逊

架构