MLA
DeepSeek的MLA架构:大模型迁移的新突破
在人工智能领域,DeepSeek-R1的推出引发了广泛关注,这一创新代表了 AI 产业的颠覆性进展。 其多头潜在注意力网络(Multi-head Latent Attention,MLA)架构,借助低秩压缩技术显著降低了训练与推理的成本,甚至仅为同等性能大模型的十分之一。 这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成,目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构,而无需重新从头开始训练。
3/7/2025 10:52:00 AM
AI在线
DeepSeek开源周“第一刀”砍向算力!重磅开源FlashMLA,挑战H800算力极限,网友直呼:极致的工程设计!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)上周五,DeepSeek刚刚预告了重磅开源周! 周一一早,DeepSeek就履行承诺,开源了针对 Hopper GPU 的高效 MLA 解码内核——FlashMLA! 图片根据DeepSeek介绍,FlashMLA内核针对变长序列进行了优化,是已投入生产的核心技术。
2/24/2025 12:52:46 PM
伊风
“源神”DeepSeek!突破H800性能上限,FlashMLA重磅开源,算力成本还能降
DeepSeek开源周第一天,降本大法公开——FlashMLA,直接突破H800计算上限。 网友:这怎么可能? ?
2/24/2025 11:31:33 AM
七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek
七彩虹科技正式宣布,其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。 这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。 此次更新的 “虹光 AI” 助手,基于当前热门的 Transformer 架构,并采用了 MLA 与 Deep Seek MoE 技术,显著降低了内存占用,减少了缓存需求,从而提升了整体的推理效率。
2/8/2025 5:57:00 PM
AI在线
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉