MLA
DeepSeek的MLA架构:大模型迁移的新突破
在人工智能领域,DeepSeek-R1的推出引发了广泛关注,这一创新代表了 AI 产业的颠覆性进展。 其多头潜在注意力网络(Multi-head Latent Attention,MLA)架构,借助低秩压缩技术显著降低了训练与推理的成本,甚至仅为同等性能大模型的十分之一。 这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成,目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构,而无需重新从头开始训练。
3/7/2025 10:52:00 AM
AI在线
DeepSeek开源周“第一刀”砍向算力!重磅开源FlashMLA,挑战H800算力极限,网友直呼:极致的工程设计!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)上周五,DeepSeek刚刚预告了重磅开源周! 周一一早,DeepSeek就履行承诺,开源了针对 Hopper GPU 的高效 MLA 解码内核——FlashMLA! 图片根据DeepSeek介绍,FlashMLA内核针对变长序列进行了优化,是已投入生产的核心技术。
2/24/2025 12:52:46 PM
伊风
“源神”DeepSeek!突破H800性能上限,FlashMLA重磅开源,算力成本还能降
DeepSeek开源周第一天,降本大法公开——FlashMLA,直接突破H800计算上限。 网友:这怎么可能? ?
2/24/2025 11:31:33 AM
七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek
七彩虹科技正式宣布,其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。 这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。 此次更新的 “虹光 AI” 助手,基于当前热门的 Transformer 架构,并采用了 MLA 与 Deep Seek MoE 技术,显著降低了内存占用,减少了缓存需求,从而提升了整体的推理效率。
2/8/2025 5:57:00 PM
AI在线
- 1
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
代码
Anthropic
英伟达
算法
Stable Diffusion
芯片
智能体
训练
开发者
生成式
腾讯
蛋白质
苹果
AI新词
神经网络
3D
研究
生成
Claude
机器学习
LLM
计算
Sora
AI设计
AI for Science
AI视频
GPU
xAI
人形机器人
百度
华为
搜索
大语言模型
场景
Agent
字节跳动
预测
深度学习
伟达
工具
大型语言模型
Transformer
RAG
视觉
神器推荐
模态
Copilot
亚马逊
具身智能
LLaMA
文本
算力
驾驶
API