架构

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合

扩散模型被广泛应用于生成图像和视频，并且在生成离散数据（如文本或生物序列）任务上的效果也越来越好，与自回归模型相比，扩散模型有望加速「生成过程」并提高模型输出的「可控性」。然而，离散扩散模型目前仍然有三个局限性：在聊天系统等应用中，模型需要生成任意长度的输出序列（例如，对用户问题的回答），但大多数现有的扩散架构只能生成固定长度的向量；离散扩散在生成过程中使用双向上下文，因此无法利用键值缓存（KV caching）复用之前的计算，使得推理效率较低。从困惑度等标准指标来看，离散扩散模型的质量仍落后于自回归方法，也进一步限制了其应用范围。

3/25/2025 9:04:12 AM 新智元

DeepSeek 开源 V3/R1 架构设计思路，原来 545% 的利润率，它也只是被逼无奈？

DeepSeek 开源 V3/R1 架构设计思路，原来 545% 的利润率，它也只是被逼无奈？

开源周的最后一天，DeepSeek分享了DeepSeek-V3/R1的架构设计思路，让大家能够更系统更全面的了解其推理系统的设计过程，以及更深刻的理解之前开源的6个项目。 DeepSeek-V3/R1推理系统的核心目标是什么？通过软件架构的优化，达到：更高的吞吐量；更低的延时；为什么DeepSeek要走这一条路？

3/20/2025 9:00:00 AM 架构师之路

65岁陈立武点爆英特尔三把火！裁员砍中层，AI制造，争夺世界代工厂王座

65岁陈立武点爆英特尔三把火！裁员砍中层，AI制造，争夺世界代工厂王座

随着华人大佬执掌英特尔之后，一场大刀阔斧的改革呼之欲出。路透独家报道称，新任CEO陈立武计划全面改革「制造和AI」业务，试图带领英特尔重回时代巅峰。在上周的全员大会上，他直言不讳地告诉全员工，「公司需要做出艰难的决定」。

3/18/2025 1:11:15 PM 新智元

DeepSeek 3FS 架构分析和思考（上篇）

DeepSeek 3FS 架构分析和思考（上篇）

2025 年 2 月28 日，DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System，简称 3FS。该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程，在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。项目一经发布，就获得了存储领域的广泛关注。

3/13/2025 1:51:46 PM 火山引擎存储团队

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型，通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

3/10/2025 2:00:00 AM 余俊晖

DeepSeek的MLA架构：大模型迁移的新突破

DeepSeek的MLA架构：大模型迁移的新突破

在人工智能领域，DeepSeek-R1的推出引发了广泛关注，这一创新代表了 AI 产业的颠覆性进展。其多头潜在注意力网络（Multi-head Latent Attention，MLA）架构，借助低秩压缩技术显著降低了训练与推理的成本，甚至仅为同等性能大模型的十分之一。这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成，目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构，而无需重新从头开始训练。

3/7/2025 10:52:00 AM AI在线

LLM 大语言模型定义以及关键技术术语认知

LLM 大语言模型定义以及关键技术术语认知

大语言模型定义LLM（Large Language Models）是基于 Transformer 架构(可以理解为不同寻常的大脑)的深度神经网络，通过海量文本数据训练获得语言理解和生成能力。其核心特征包括：参数规模达数十亿级别（GPT-3 175B参数）知识储备惊人，可以理解为脑细胞数量是普通人的千亿倍（1750亿参数），相当于把整个图书馆的书都装进大脑自回归生成机制（逐词预测）说话方式像接龙,当它写作文时，就像我们玩词语接龙：先写"今天"，然后根据"今天"想"天气"，接着根据"今天天气"想"晴朗"，逐字逐句生成内容。注意力机制实现长程依赖建模特别会抓重点就像我们读小说时，会自动记住关键人物关系（比如注意到"陈平安喜欢宁姚"），它能自动捕捉文字间的深层联系。

3/4/2025 1:00:00 AM 山河已无恙

DeepSeek-R1秘籍轻松迁移，最低只需原始数据0.3%

DeepSeek-R1秘籍轻松迁移，最低只需原始数据0.3%

DeepSeek-R1背后关键——多头潜在注意力机制（MLA），现在也能轻松移植到其他模型了！而且只需原始数据的0.3%~0.6%。这项研究由复旦大学、华东师范大学、上海AI Lab等联合提出，复旦教授邱锡鹏（Moss大模型项目负责人）也在作者名单之列。

2/25/2025 10:03:20 AM 量子位

“源神”DeepSeek！突破H800性能上限，FlashMLA重磅开源，算力成本还能降

“源神”DeepSeek！突破H800性能上限，FlashMLA重磅开源，算力成本还能降

DeepSeek开源周第一天，降本大法公开——FlashMLA，直接突破H800计算上限。网友：这怎么可能？？

2/24/2025 11:31:33 AM

解决 NLP 任务的 Transformer 为什么可以应用于计算机视觉？

解决 NLP 任务的 Transformer 为什么可以应用于计算机视觉？

几乎所有的自然语言处理任务，从语言建模和masked词预测到翻译和问答，在2017年Transformer架构首次亮相后都经历了革命性的变化。 Transformer在计算机视觉任务中也表现出色，只用了2-3年的时间。在这篇文章中，我们探索了两种基础架构，它们使Transformer能够闯入计算机视觉的世界。

2/24/2025 8:20:00 AM 二旺

使用共享神经网络扩展机器学习模型

使用共享神经网络扩展机器学习模型

译者 | 崔皓审校 | 重楼随着机器学习模型的复杂性和规模不断增长，任何企业或者组织在部署、扩展模型上都面临着巨大的挑战。迫在眉睫的挑战是如何在内存限制与模型规模之间取得平衡，并保持高性能和成本效益。本文探讨了一种创新的架构解决方案，通过将共享神经编码器与专门的预测头结合的混合方法来应对这些挑战。

2/24/2025 8:00:00 AM 崔皓

「开源类脑芯片」二代发布！支持反向传播突触学习规则和并行神经元计算

「开源类脑芯片」二代发布！支持反向传播突触学习规则和并行神经元计算

神经形态计算的研究主要基于脉冲神经网络（SNN）模型，这是一种生物启发的计算范式，旨在模拟大脑的信息处理机制。具体而言，该领域的目标是通过融合神经生物学和计算神经科学的理论知识，构建能够实现类人智能的计算系统。为了解决传统计算架构在处理大量数据时面临的效率瓶颈和高功耗问题，研究者们提出了基于人脑神经元结构的神经形态芯片，以显著提升计算效率和能效比。

2/20/2025 1:48:24 PM 新智元

一文读懂DeepSeek-V3 技术报告

一文读懂DeepSeek-V3 技术报告

2023年7月17日，DeepSeek正式成立，由幻方量化提供资金支持。梁文锋凭借其在金融和AI领域的深厚背景，带领团队开始探索生成式AI技术。同年11月2日，DeepSeek推出首款开源模型DeepSeek Coder，支持多种编程语言的代码生成、调试和数据分析任务，为AI领域的应用奠定了基础，直到 2024 年 12 月，DeepSeek-V3的发布引发了行业震动和社会广泛关注，在他们的最新技术报告《DeepSeek-V3技术报告》中，团队详细介绍了其最新成果——DeepSeek-V3模型。

2/12/2025 8:30:18 AM FlerkenS

AI 赋能！Spring Boot 封装智能模块，轻松实现自动化

AI 赋能！Spring Boot 封装智能模块，轻松实现自动化

在当今数字化时代，人工智能（AI）正以前所未有的速度深入各个行业，成为提升企业竞争力和优化用户体验的重要驱动力。无论是智能客服、自动文本生成，还是数据分析和预测，AI 的应用场景正变得越来越广泛。对于开发者而言，如何高效地将 AI 技术集成到业务系统中，是一个至关重要的问题。

2/8/2025 8:16:16 AM 路条编程

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时，需要系统地捕捉评估过程中的推理步骤。但是由于缺乏人工标注的CoT训练数据，以及预定义评估提示在复杂任务中的局限性，构建高质量的LLM评估模型面临重大挑战。另外手动调整评估指令的方法在面对多样化和复杂任务时表现出明显的局限性。

2/7/2025 4:07:39 PM SACHIN KUMAR

CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor，让精细编辑更简单！

CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor，让精细编辑更简单！

本文经AIGC Studio公众号授权转载，转载请联系出处。在图像生成领域，大型文本到图像（T2I）扩散模型近年来取得了革命性的突破。然而，将这些强大的生成能力转化为精细的图像编辑任务，仍面临诸多挑战。

1/21/2025 10:45:00 AM AIGC Studio

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

开源模型上下文窗口卷到超长，达400万token！刚刚，“大模型六小强”之一MiniMax开源最新模型——MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。 MiniMax-01首次大规模扩展了新型Lightning Attention架构，替代了传统Transformer架构，使模型能够高效处理4M token上下文。

1/15/2025 12:27:11 PM 量子位

OpenAI Agent来了！大小事务自动帮你搞定，带推送提醒的那种，今日可开玩

OpenAI Agent来了！大小事务自动帮你搞定，带推送提醒的那种，今日可开玩

开年第一剑，OpenAI Agent闪亮登场！ ChatGPT新功能「Tasks」，让AI有了执行力，可以替你完成各种任务。无论是一次性提醒还是重复执行的动作，告诉ChatGPT你需要什么以及何时需要，它会自动帮你处理。

1/15/2025 8:32:33 AM

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 Sora、可灵、即梦哪家强？AI视频软件深度测评！

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉