AI在线 AI在线

xLLM社区12月6日首揭开源推理引擎:支持MoE、T2I、T2V全场景,联合Mooncake缓存方案实现延迟低于20ms

成立仅三个月的xLLM社区宣布将于 12 月 6 日举办首届线下Meetup,主题“共建开源AI Infra生态”。 活动将展示自研推理引擎xLLM-Core,公开对比数据:在同级GPU上,MoE、Text-to-Image、Text-to-Video三类任务的P99 延迟均低于20ms,较vLLM平均下降42%,吞吐量提升2. 1 倍。

成立仅三个月的xLLM社区宣布将于 12 月 6 日举办首届线下Meetup,主题“共建开源AI Infra生态”。活动将展示自研推理引擎xLLM-Core,公开对比数据:在同级GPU上,MoE、Text-to-Image、Text-to-Video三类任务的P99 延迟均低于20ms,较vLLM平均下降42%,吞吐量提升2. 1 倍。

技术亮点  

统一计算图:将语言、视觉、视频生成抽象为“Token-in Token-out”图,实现单引擎多模态并行  

Mooncake KV缓存集成:三级存储(GPU显存→DDR→NVMe)命中率达99.2%,缓存穿透延迟<5ms  

动态形状批处理:支持512×512→2048× 2048 图像、8→ 128 帧视频在线拼接,显存碎片减少38%  

插件式后端:已适配CUDA、ROCm、MTIA,2026Q1 路线图列入Apple Silicon与Intel Arc

标杆案例  

北京航空航天大学杨海龙教授将在Meetup分享京东11. 11 实战:xLLM-Core支撑峰值每秒40k请求,机器成本降低90%,业务效率提升 5 倍。

开源计划  

现场将发布xLLM-Core 0. 9 版(Apache 2.0),包含Docker镜像、Python/C++ API与Benchmark脚本;社区预计 2026 年 6 月推出1.0 LTS,提供长期维护与商业支持。

报名通道已在xLLM官网开放,预计线下 300 席位,线上直播同步推送。

相关资讯

xLLM社区重磅首秀,揭秘大模型推理全景图与开源AI Infra生态

成立仅三个月的xLLM社区将于12月6日在北京举办主题为 “共建开源 AI Infra 生态” 的线下Meetup。 在AI Infra技术架构中,xLLM扮演着至关重要的角色——它如同操作系统,位于底层硬件芯片与上层大模型应用之间,是连接算力与模型的”中枢神经”。 此次活动不仅将揭开xLLM社区的神秘面纱,更将深度分享其技术愿景、核心规划、阶段性成果以及蓬勃发展的生态全景,为业界呈现下一代大模型推理引擎的突破性力量。
11/24/2025 8:34:38 PM
Jay

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。基于此,来自北京大学、中山大学等机构的研究者联合提出了一种新颖的 LVLM 训练策略 ——MoE-Tuning。MoE-Tuning 可以构建参数数量惊人但计算成本恒定的稀疏模型,并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。该研究还提出了一种基于 MoE 的新型稀疏 LVLM 架构 ——MoE-LLaVA 框架。该框架独特地在部署过程中通过路
1/31/2024 3:01:00 PM
机器之心

DeepSeek推理引擎开源新路径,助力vLLM生态再升级

最近,DeepSeek 宣布了一项重要决定:将其自研的推理引擎进行开源,但并不会直接向公众开放完整的代码库。 相反,他们选择与现有的开源项目 vLLM 合作,致力于分享核心的优化成果。 这一举动旨在解决开源社区中普遍存在的代码库分歧、基础设施依赖及维护资源有限等难题。
4/16/2025 2:01:15 PM
AI在线