MLA
DeepSeek的MLA架构:大模型迁移的新突破
在人工智能领域,DeepSeek-R1的推出引发了广泛关注,这一创新代表了 AI 产业的颠覆性进展。 其多头潜在注意力网络(Multi-head Latent Attention,MLA)架构,借助低秩压缩技术显著降低了训练与推理的成本,甚至仅为同等性能大模型的十分之一。 这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成,目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构,而无需重新从头开始训练。
3/7/2025 10:52:00 AM
AI在线
DeepSeek开源周“第一刀”砍向算力!重磅开源FlashMLA,挑战H800算力极限,网友直呼:极致的工程设计!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)上周五,DeepSeek刚刚预告了重磅开源周! 周一一早,DeepSeek就履行承诺,开源了针对 Hopper GPU 的高效 MLA 解码内核——FlashMLA! 图片根据DeepSeek介绍,FlashMLA内核针对变长序列进行了优化,是已投入生产的核心技术。
2/24/2025 12:52:46 PM
伊风
“源神”DeepSeek!突破H800性能上限,FlashMLA重磅开源,算力成本还能降
DeepSeek开源周第一天,降本大法公开——FlashMLA,直接突破H800计算上限。 网友:这怎么可能? ?
2/24/2025 11:31:33 AM
七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek
七彩虹科技正式宣布,其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。 这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。 此次更新的 “虹光 AI” 助手,基于当前热门的 Transformer 架构,并采用了 MLA 与 Deep Seek MoE 技术,显著降低了内存占用,减少了缓存需求,从而提升了整体的推理效率。
2/8/2025 5:57:00 PM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
AI模型
特斯拉
场景
深度学习
亚马逊
架构
Transformer
MCP
Copilot
编程
视觉