架构
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合
                        扩散模型被广泛应用于生成图像和视频,并且在生成离散数据(如文本或生物序列)任务上的效果也越来越好,与自回归模型相比,扩散模型有望加速「生成过程」并提高模型输出的「可控性」。 然而,离散扩散模型目前仍然有三个局限性:在聊天系统等应用中,模型需要生成任意长度的输出序列(例如,对用户问题的回答),但大多数现有的扩散架构只能生成固定长度的向量;离散扩散在生成过程中使用双向上下文,因此无法利用键值缓存(KV caching)复用之前的计算,使得推理效率较低。 从困惑度等标准指标来看,离散扩散模型的质量仍落后于自回归方法,也进一步限制了其应用范围。
                    
                    3/25/2025 9:04:12 AM
                        新智元
                    DeepSeek 开源 V3/R1 架构设计思路,原来 545% 的利润率,它也只是被逼无奈?
                        开源周的最后一天,DeepSeek分享了DeepSeek-V3/R1的架构设计思路,让大家能够更系统更全面的了解其推理系统的设计过程,以及更深刻的理解之前开源的6个项目。 DeepSeek-V3/R1推理系统的核心目标是什么? 通过软件架构的优化,达到:更高的吞吐量;更低的延时;为什么DeepSeek要走这一条路?
                    
                    3/20/2025 9:00:00 AM
                        架构师之路
                    65岁陈立武点爆英特尔三把火!裁员砍中层,AI制造,争夺世界代工厂王座
                        随着华人大佬执掌英特尔之后,一场大刀阔斧的改革呼之欲出。 路透独家报道称,新任CEO陈立武计划全面改革「制造和AI」业务,试图带领英特尔重回时代巅峰。 在上周的全员大会上,他直言不讳地告诉全员工,「公司需要做出艰难的决定」。
                    
                    3/18/2025 1:11:15 PM
                        新智元
                    DeepSeek 3FS 架构分析和思考(上篇)
                        2025 年 2 月28 日,DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System,简称 3FS。 该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程,在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。 项目一经发布,就获得了存储领域的广泛关注。
                    
                    3/13/2025 1:51:46 PM
                        火山引擎存储团队
                    Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节
                        Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。 训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量合成数据。 它的设计体现了小型语言模型在多模态任务上的潜力。
                    
                    3/10/2025 2:00:00 AM
                        余俊晖
                    DeepSeek的MLA架构:大模型迁移的新突破
                        在人工智能领域,DeepSeek-R1的推出引发了广泛关注,这一创新代表了 AI 产业的颠覆性进展。 其多头潜在注意力网络(Multi-head Latent Attention,MLA)架构,借助低秩压缩技术显著降低了训练与推理的成本,甚至仅为同等性能大模型的十分之一。 这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成,目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构,而无需重新从头开始训练。
                    
                    3/7/2025 10:52:00 AM
                        AI在线
                    LLM 大语言模型定义以及关键技术术语认知
                        大语言模型定义LLM(Large Language Models)是基于 Transformer 架构(可以理解为不同寻常的大脑)的深度神经网络,通过海量文本数据训练获得语言理解和生成能力。 其核心特征包括:参数规模达数十亿级别(GPT-3 175B参数)知识储备惊人,可以理解为脑细胞数量是普通人的千亿倍(1750亿参数),相当于把整个图书馆的书都装进大脑自回归生成机制(逐词预测)说话方式像接龙,当它写作文时,就像我们玩词语接龙:先写"今天",然后根据"今天"想"天气",接着根据"今天天气"想"晴朗",逐字逐句生成内容。 注意力机制实现长程依赖建模特别会抓重点就像我们读小说时,会自动记住关键人物关系(比如注意到"陈平安喜欢宁姚"),它能自动捕捉文字间的深层联系。
                    
                    3/4/2025 1:00:00 AM
                        山河已无恙
                    DeepSeek-R1秘籍轻松迁移,最低只需原始数据0.3%
                        DeepSeek-R1背后关键——多头潜在注意力机制(MLA),现在也能轻松移植到其他模型了! 而且只需原始数据的0.3%~0.6%。 这项研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏(Moss大模型项目负责人)也在作者名单之列。
                    
                    2/25/2025 10:03:20 AM
                        量子位
                    “源神”DeepSeek!突破H800性能上限,FlashMLA重磅开源,算力成本还能降
                        DeepSeek开源周第一天,降本大法公开——FlashMLA,直接突破H800计算上限。 网友:这怎么可能? ?
                    
                    2/24/2025 11:31:33 AM
                        
                    解决 NLP 任务的 Transformer 为什么可以应用于计算机视觉?
                        几乎所有的自然语言处理任务,从语言建模和masked词预测到翻译和问答,在2017年Transformer架构首次亮相后都经历了革命性的变化。 Transformer在计算机视觉任务中也表现出色,只用了2-3年的时间。 在这篇文章中,我们探索了两种基础架构,它们使Transformer能够闯入计算机视觉的世界。
                    
                    2/24/2025 8:20:00 AM
                        二旺
                    使用共享神经网络扩展机器学习模型
                        译者 | 崔皓审校 | 重楼随着机器学习模型的复杂性和规模不断增长,任何企业或者组织在部署、扩展模型上都面临着巨大的挑战。 迫在眉睫的挑战是如何在内存限制与模型规模之间取得平衡,并保持高性能和成本效益。 本文探讨了一种创新的架构解决方案,通过将共享神经编码器与专门的预测头结合的混合方法来应对这些挑战。
                    
                    2/24/2025 8:00:00 AM
                        
                    崔皓
                    「开源类脑芯片」二代发布!支持反向传播突触学习规则和并行神经元计算
                        神经形态计算的研究主要基于脉冲神经网络(SNN)模型,这是一种生物启发的计算范式,旨在模拟大脑的信息处理机制。 具体而言,该领域的目标是通过融合神经生物学和计算神经科学的理论知识,构建能够实现类人智能的计算系统。 为了解决传统计算架构在处理大量数据时面临的效率瓶颈和高功耗问题,研究者们提出了基于人脑神经元结构的神经形态芯片,以显著提升计算效率和能效比。
                    
                    2/20/2025 1:48:24 PM
                        新智元
                    一文读懂DeepSeek-V3 技术报告
                        2023年7月17日,DeepSeek正式成立,由幻方量化提供资金支持。 梁文锋凭借其在金融和AI领域的深厚背景,带领团队开始探索生成式AI技术。 同年11月2日,DeepSeek推出首款开源模型DeepSeek Coder,支持多种编程语言的代码生成、调试和数据分析任务,为AI领域的应用奠定了基础,直到 2024 年 12 月,DeepSeek-V3的发布引发了行业震动和社会广泛关注,在他们的最新技术报告《DeepSeek-V3技术报告》中,团队详细介绍了其最新成果——DeepSeek-V3模型。
                    
                    2/12/2025 8:30:18 AM
                        FlerkenS
                    AI 赋能!Spring Boot 封装智能模块,轻松实现自动化
                        在当今数字化时代,人工智能(AI)正以前所未有的速度深入各个行业,成为提升企业竞争力和优化用户体验的重要驱动力。 无论是智能客服、自动文本生成,还是数据分析和预测,AI 的应用场景正变得越来越广泛。 对于开发者而言,如何高效地将 AI 技术集成到业务系统中,是一个至关重要的问题。
                    
                    2/8/2025 8:16:16 AM
                        路条编程
                    EvalPlanner:基于“计划-执行”双阶段的大语言模型评估框架
                        大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时,需要系统地捕捉评估过程中的推理步骤。 但是由于缺乏人工标注的CoT训练数据,以及预定义评估提示在复杂任务中的局限性,构建高质量的LLM评估模型面临重大挑战。 另外手动调整评估指令的方法在面对多样化和复杂任务时表现出明显的局限性。
                    
                    2/7/2025 4:07:39 PM
                        SACHIN KUMAR
                    CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor,让精细编辑更简单!
                        本文经AIGC Studio公众号授权转载,转载请联系出处。 在图像生成领域,大型文本到图像(T2I)扩散模型近年来取得了革命性的突破。 然而,将这些强大的生成能力转化为精细的图像编辑任务,仍面临诸多挑战。
                    
                    1/21/2025 10:45:00 AM
                        AIGC Studio
                    MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o
                        开源模型上下文窗口卷到超长,达400万token! 刚刚,“大模型六小强”之一MiniMax开源最新模型——MiniMax-01系列,包含两个模型:基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。 MiniMax-01首次大规模扩展了新型Lightning Attention架构,替代了传统Transformer架构,使模型能够高效处理4M token上下文。
                    
                    1/15/2025 12:27:11 PM
                        量子位
                    OpenAI Agent来了!大小事务自动帮你搞定,带推送提醒的那种,今日可开玩
                        开年第一剑,OpenAI Agent闪亮登场! ChatGPT新功能「Tasks」,让AI有了执行力,可以替你完成各种任务。                                                           无论是一次性提醒还是重复执行的动作,告诉ChatGPT你需要什么以及何时需要,它会自动帮你处理。
                    
                    1/15/2025 8:32:33 AM
                        
                    
        资讯热榜
    
    
        标签云
    
    
                    
                    AI
                    
                    
                    人工智能
                    
                    
                    OpenAI
                    
                    
                    AIGC
                    
                    
                    模型
                    
                    
                    ChatGPT
                    
                    
                    DeepSeek
                    
                    
                    谷歌
                    
                    
                    AI绘画
                    
                    
                    大模型
                    
                    
                    机器人
                    
                    
                    数据
                    
                    
                    Midjourney
                    
                    
                    开源
                    
                    
                    Meta
                    
                    
                    微软
                    
                    
                    智能
                    
                    
                    AI新词
                    
                    
                    用户
                    
                    
                    GPT
                    
                    
                    学习
                    
                    
                    技术
                    
                    
                    智能体
                    
                    
                    马斯克
                    
                    
                    Gemini
                    
                    
                    图像
                    
                    
                    Anthropic
                    
                    
                    英伟达
                    
                    
                    AI创作
                    
                    
                    训练
                    
                    
                    LLM
                    
                    
                    论文
                    
                    
                    代码
                    
                    
                    算法
                    
                    
                    Agent
                    
                    
                    AI for Science
                    
                    
                    芯片
                    
                    
                    苹果
                    
                    
                    腾讯
                    
                    
                    Claude
                    
                    
                    Stable Diffusion
                    
                    
                    蛋白质
                    
                    
                    开发者
                    
                    
                    生成式
                    
                    
                    神经网络
                    
                    
                    xAI
                    
                    
                    机器学习
                    
                    
                    3D
                    
                    
                    RAG
                    
                    
                    人形机器人
                    
                    
                    研究
                    
                    
                    AI视频
                    
                    
                    大语言模型
                    
                    
                    生成
                    
                    
                    具身智能
                    
                    
                    Sora
                    
                    
                    工具
                    
                    
                    GPU
                    
                    
                    百度
                    
                    
                    华为
                    
                    
                    计算
                    
                    
                    字节跳动
                    
                    
                    AI设计
                    
                    
                    AGI
                    
                    
                    大型语言模型
                    
                    
                    搜索
                    
                    
                    视频生成
                    
                    
                    场景
                    
                    
                    深度学习
                    
                    
                    架构
                    
                    
                    生成式AI
                    
                    
                    DeepMind
                    
                    
                    编程
                    
                    
                    视觉
                    
                    
                    Transformer
                    
                    
                    预测
                    
                    
                    AI模型
                    
                    
                    MCP
                    
                    
                    伟达
                    
                    
                    亚马逊