FlashMLA
DeepSeek开源FlashMLA:Hopper GPU解码新标杆,测评大揭秘!
DeepSeek今天正式启动为期五天的开源成果发布计划,首个亮相的项目是FlashMLA。 这一开源项目将先进的MLA算法与GPU优化技术相结合,为大模型推理提供了一套高性能、低延迟的解码方案。 FlashMLA是一款专门为Hopper GPU(比如H800 SXM5)优化的高效MLA解码内核,旨在加速大模型的计算任务,尤其是在NVIDIA高端显卡上提升性能。
2/25/2025 10:09:00 AM
新闻助手
DeepSeek FlashMLA:大模型推理的“涡轮增压器”
FlashMLA(Flash Multi-head Latent Attention)是DeepSeek针对英伟达Hopper架构GPU(如H800/H100)设计的高效解码内核,其核心技术围绕多头潜在注意力(MLA)机制展开,通过软硬件协同优化实现性能突破
2/25/2025 9:08:12 AM
AI在线
DeepSeek开源周“第一刀”砍向算力!重磅开源FlashMLA,挑战H800算力极限,网友直呼:极致的工程设计!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)上周五,DeepSeek刚刚预告了重磅开源周! 周一一早,DeepSeek就履行承诺,开源了针对 Hopper GPU 的高效 MLA 解码内核——FlashMLA! 图片根据DeepSeek介绍,FlashMLA内核针对变长序列进行了优化,是已投入生产的核心技术。
2/24/2025 12:52:46 PM
伊风
DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈
就在刚刚,DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。 这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。 经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。
2/24/2025 11:32:57 AM
dream
刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中
上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。 第一个项目,果然与推理加速有关。 北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。
2/24/2025 10:28:00 AM
机器之心
DeepSeek 开源周首日:发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s
DeepSeek 开源周首日正式开源其最新技术成果FlashMLA,这是一款专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核。 该技术特别针对变长序列场景进行优化,可显著提升大模型推理性能。 FlashMLA的核心技术特性包括对BF16精度的全面支持,以及采用块大小为64的页式键值缓存(Paged KV Cache)系统,实现更精确的内存管理。
2/24/2025 10:18:00 AM
AI在线
- 1
资讯热榜
我国首个发电行业大模型“擎源”发布,模型参数达千亿级别
Bilibili开源动漫视频生成模型AniSora V3版,一键生成多种风格动漫视频镜头
未来已来!Hengbot发布 Sirius 机器狗,能跳舞会踢球,还有AI陪聊
Chai Discovery发布Chai- 2 模型:零样本抗体设计突破16-20%命中率
xAI控制台新增Grok4及Grok4Code引用,标志着下一代AI模型即将发布
不再单一依赖英伟达,消息称 OpenAI 首次采用谷歌 AI 芯片训练 ChatGPT
Gemini2.5Pro API 免费回归,开发者社区热烈响应
阿里Ovis-U1震撼发布:多模态AI三合一,开源赋能全球开发者
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
芯片
智能体
训练
开发者
生成式
腾讯
蛋白质
苹果
神经网络
3D
研究
生成
AI新词
Claude
机器学习
计算
LLM
Sora
AI设计
AI for Science
AI视频
GPU
人形机器人
xAI
百度
华为
搜索
大语言模型
场景
Agent
字节跳动
预测
深度学习
伟达
大型语言模型
工具
Transformer
视觉
RAG
神器推荐
模态
Copilot
亚马逊
具身智能
LLaMA
文本
算力
驾驶
API