月之暗面 Kimi 开放平台将启动 Context Caching 内测：提供预设实质 QA Bot、固定文档集合查询

月之暗面官宣 Kimi 开放平台 Context Caching 性能将启动内测，届时将支持长文本大模型，可实现上下文缓存性能。▲ 图源 Kimi 开放平台民间公众号，下同据介绍，Context Caching（上下文缓存）是由 Kimi 开放平台提供的一项高级性能，可通过缓存反复的 Tokens 实质，降低用户在哀求相同实质时的成本，原理以下：民间表示，Context Caching 可提升 API 的接口响应速度（或首字返回速度）。在规模化、反复度高的 prompt 场景，Context Caching 性能带

月之暗面官宣 Kimi 开放平台 Context Caching 性能将启动内测，届时将支持长文本大模型，可实现上下文缓存性能。

▲ 图源 Kimi 开放平台民间公众号，下同

据介绍，Context Caching（上下文缓存）是由 Kimi 开放平台提供的一项高级性能，可通过缓存反复的 Tokens 实质，降低用户在哀求相同实质时的成本，原理以下：

月之暗面 Kimi 开放平台将启动 Context Caching 内测：提供预设实质 QA Bot、固定文档集合查询

民间表示，Context Caching 可提升 API 的接口响应速度（或首字返回速度）。在规模化、反复度高的 prompt 场景，Context Caching 性能带来的收益越大。

Context Caching 适合于用一再哀求，反复引用大量初始上下文的情况，通过重用已缓存的实质，可提高效率降低费用，适用业务场景以下：

提供大量预设实质的 QA Bot，例如 Kimi API 小助手。

针对固定的文档集合的一再查询，例如上市公司信息披露问答工具。

对静态代码库或知识库的周期性分析，例如各类 Copilot Agent。

瞬时流量巨大的爆款 AI 运用，例如哄哄模拟器，LLM Riddles。

交互规则复杂的 Agent 类运用，例如什么值得买 Kimi+ 等。

民间后续将发布 Context Caching 性能的场景最佳实践 / 计费方案 / 技术文档，IT之家将保持关注，并在第一时间带来相关报道。

{{userData.name}}已认证

月之暗面 Kimi 开放平台将启动 Context Caching 内测：提供预设实质 QA Bot、固定文档集合查询

IMF：不建议对生成式 AI 直接征收特别税，但各经济体需针对 AI 调整税收制度

OpenAI“宫斗”核心人物 Ilya Sutskever 出走后单飞：建立“全球首个”保险平安超等智能实验室

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

{{userData.name}}已认证

IMF：不建议对生成式 AI 直接征收特别税，但各经济体需针对 AI 调整税收制度

OpenAI“宫斗”核心人物 Ilya Sutskever 出走后单飞：建立“全球首个”保险平安超等智能实验室

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

字节跳动清华AIR成立联合研究中心推动大模型产学研合作