AI在线 AI在线

云原生

云原生边缘与AI训练场景:两类高频隐蔽Bug的深度排查与架构修复

在云原生技术向边缘计算与AI训练场景的过程中,基础设施层的问题往往会被场景特性放大——边缘环境的弱网络、异构硬件,AI训练的高资源依赖、分布式协作,都可能让原本隐藏的Bug以“业务故障”的形式爆发。 这些问题大多不具备直观的报错信息,而是表现为任务崩溃、数据断连等表层现象,若仅从业务层排查,很容易陷入“调参无效、重启治标”的循环。 本文结合两个真实生产场景的高频Bug,从技术环境还原到根因拆解,再到架构级修复方案,完整呈现问题解决的全链路,为云原生运维与AI研发团队提供可复用的实践经验,避开那些文档未提及、经验难复制的隐性陷阱。
9/12/2025 6:17:31 PM
许辉

AIBrix v0.4.0 发布:P/D 解耦与专家并行支持、KVCache v1 连接器、KV 事件同步与多引擎支持

AIBrix项目作为大模型推理的可扩展且高性价比的技术方案,项目于2025 年 2 月 21 日正式开源,并通过vLLM 官方博客官宣,为 vLLM 推理引擎提供可扩展且高性价比的控制面。 开源 72 小时内,AIBrix 收获的 GitHub Star 数已超 1K,96 小时突破 2K;开源一周左右,AIBrix 保持在 GitHub trending[1]榜第一的位置。 目前 GitHub Star 已超过 4K,贡献者超过 70 人。
8/21/2025 9:02:56 AM
AIBrix团队

阿里出手了:Spring AI Alibaba正式版发布!

Spring AI Alibaba 是基于 Spring AI 构建的,专门针对阿里云生态(如通义千问、OSS 等)进行深度适配和功能增强。 Spring AI Alibaba 提供高层次的 AI API 抽象与云原生基础设施集成方案,帮助开发者快速构建 AI 应用。 主要功能Spring AI Alibaba 提供的主要功能如下:开发复杂 AI 应用的高阶抽象 Fluent API — ChatClient。
6/13/2025 6:20:02 PM
磊哥

AI生态系统如何改变商业应用

企业被战略优势、风险缓解、最大化AI投资价值、改善数据本地化以及降低延迟所驱动——同时优先优化成本和运营性能。 独立软件供应商(ISV)则被一套独特的业务和战略目标所驱动,这些目标聚焦于建立信任、满足客户需求,同时保护他们的知识产权(IP)和市场份额。 对于受监管行业而言,由于这些生态系统往往涉及第三方供应商和云平台,因此对AI合作伙伴和解决方案的审查需要更高的严格性。
5/26/2025 1:00:00 AM
Linda

一文读懂为什么 Kubernetes 中需要 DRA (动态资源分配)机制

在现代云原生架构中,Kubernetes 已经成为企业动态资源调度的核心技术。 随着业务需求的复杂性和多样性日益增加,如何高效地在 Kubernetes 集群中分配和调整资源,成为提升系统弹性和利用率的关键课题。 动态资源调度通过智能化地分配 CPU、内存、GPU 等关键资源,不仅能够满足不同负载的性能需求,还能降低资源浪费,提高基础设施的投资回报率。
12/27/2024 4:30:42 PM
Luga Lee

GPU 资源调度:k8s-device-plugin 知多少 ?

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 基于 k8s-device-plugin 机制所实现的 GPU . 资源动态调度。 近几年,随着大数据和人工智能技术的迅猛发展,AI 应用场景日益丰富,成为推动产业升级的重要驱动力。
12/17/2024 4:20:40 PM
Luga Lee

基于LangChain和云原生向量数据库Milvus开发混合搜索AI程序

译者 | 朱先忠审校 | 重楼本文将探讨基于LangChain框架和云原生向量数据库Milvus并将密集嵌入与稀疏嵌入结合起来开发混合搜索型AI程序的实战过程。 简介最近,我们——来自IBM研究中心的团队——需要在Milvus向量存储中使用混合搜索技术。 因为我们已经在使用LangChain框架,所以我们决定一鼓作气贡献出在langchain-milvus中启用这一功能所需的一切。
12/13/2024 8:32:28 AM
朱先忠
  • 1