xLLM社区12月6日首揭开源推理引擎：支持MoE、T2I、T2V全场景，联合Mooncake缓存方案实现延迟低于20ms

作者：AI在线 2025-11-25 05:11

成立仅三个月的xLLM社区宣布将于 12 月 6 日举办首届线下Meetup，主题“共建开源AI Infra生态”。活动将展示自研推理引擎xLLM-Core，公开对比数据：在同级GPU上，MoE、Text-to-Image、Text-to-Video三类任务的P99 延迟均低于20ms，较vLLM平均下降42%，吞吐量提升2. 1 倍。

技术亮点

统一计算图：将语言、视觉、视频生成抽象为“Token-in Token-out”图，实现单引擎多模态并行

Mooncake KV缓存集成：三级存储（GPU显存→DDR→NVMe）命中率达99.2%，缓存穿透延迟<5ms

动态形状批处理：支持512×512→2048× 2048 图像、8→ 128 帧视频在线拼接，显存碎片减少38%

插件式后端：已适配CUDA、ROCm、MTIA，2026Q1 路线图列入Apple Silicon与Intel Arc

标杆案例

北京航空航天大学杨海龙教授将在Meetup分享京东11. 11 实战：xLLM-Core支撑峰值每秒40k请求，机器成本降低90%，业务效率提升 5 倍。

开源计划

现场将发布xLLM-Core 0. 9 版（Apache 2.0），包含Docker镜像、Python/C++ API与Benchmark脚本；社区预计 2026 年 6 月推出1.0 LTS，提供长期维护与商业支持。

报名通道已在xLLM官网开放，预计线下 300 席位，线上直播同步推送。

xLLM社区重磅首秀，揭秘大模型推理全景图与开源AI Infra生态

成立仅三个月的xLLM社区将于12月6日在北京举办主题为 “共建开源 AI Infra 生态” 的线下Meetup。在AI Infra技术架构中，xLLM扮演着至关重要的角色——它如同操作系统，位于底层硬件芯片与上层大模型应用之间，是连接算力与模型的”中枢神经”。此次活动不仅将揭开xLLM社区的神秘面纱，更将深度分享其技术愿景、核心规划、阶段性成果以及蓬勃发展的生态全景，为业界呈现下一代大模型推理引擎的突破性力量。

11/24/2025 8:34:38 PM

Jay

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型（LVLM）而言，扩展模型可以有效提高模型性能。然而，扩大参数规模会显著增加训练和推理成本，因为计算中每个 token 都会激活所有模型参数。基于此，来自北京大学、中山大学等机构的研究者联合提出了一种新颖的 LVLM 训练策略 ——MoE-Tuning。MoE-Tuning 可以构建参数数量惊人但计算成本恒定的稀疏模型，并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。该研究还提出了一种基于 MoE 的新型稀疏 LVLM 架构 ——MoE-LLaVA 框架。该框架独特地在部署过程中通过路

1/31/2024 3:01:00 PM

机器之心

DeepSeek推理引擎开源新路径，助力vLLM生态再升级

最近，DeepSeek 宣布了一项重要决定:将其自研的推理引擎进行开源，但并不会直接向公众开放完整的代码库。相反，他们选择与现有的开源项目 vLLM 合作，致力于分享核心的优化成果。这一举动旨在解决开源社区中普遍存在的代码库分歧、基础设施依赖及维护资源有限等难题。

4/16/2025 2:01:15 PM

AI在线

xLLM社区12月6日首揭开源推理引擎：支持MoE、T2I、T2V全场景，联合Mooncake缓存方案实现延迟低于20ms

相关资讯

xLLM社区重磅首秀，揭秘大模型推理全景图与开源AI Infra生态

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

DeepSeek推理引擎开源新路径，助力vLLM生态再升级