AI在线 AI在线

AIInfra

xLLM社区12月6日首揭开源推理引擎:支持MoE、T2I、T2V全场景,联合Mooncake缓存方案实现延迟低于20ms

成立仅三个月的xLLM社区宣布将于 12 月 6 日举办首届线下Meetup,主题“共建开源AI Infra生态”。 活动将展示自研推理引擎xLLM-Core,公开对比数据:在同级GPU上,MoE、Text-to-Image、Text-to-Video三类任务的P99 延迟均低于20ms,较vLLM平均下降42%,吞吐量提升2. 1 倍。
11/25/2025 5:11:25 PM
AI在线