月之暗面 Kimi 开放平台将启动 Context Caching 内测：提供预设内容 QA Bot、固定文档集合查询

作者：归泷（实习） 2024-06-19 10:43

月之暗面官宣 Kimi 开放平台 Context Caching 功能将启动内测，届时将支持长文本大模型，可实现上下文缓存功能。▲ 图源 Kimi 开放平台官方公众号，下同据介绍，Context Caching（上下文缓存）是由 Kimi 开放平台提供的一项高级功能，可通过缓存重复的 Tokens 内容，降低用户在请求相同内容时的成本，原理如下：官方表示，Context Caching 可提升 API 的接口响应速度（或首字返回速度）。在规模化、重复度高的 prompt 场景，Context Caching 功能带

月之暗面官宣 Kimi 开放平台 Context Caching 功能将启动内测，届时将支持长文本大模型，可实现上下文缓存功能。

▲ 图源 Kimi 开放平台官方公众号，下同

据介绍，Context Caching（上下文缓存）是由 Kimi 开放平台提供的一项高级功能，可通过缓存重复的 Tokens 内容，降低用户在请求相同内容时的成本，原理如下：

官方表示，Context Caching 可提升 API 的接口响应速度（或首字返回速度）。在规模化、重复度高的 prompt 场景，Context Caching 功能带来的收益越大。

Context Caching 适合于用频繁请求，重复引用大量初始上下文的情况，通过重用已缓存的内容，可提高效率降低费用，适用业务场景如下：

提供大量预设内容的 QA Bot，例如 Kimi API 小助手。

针对固定的文档集合的频繁查询，例如上市公司信息披露问答工具。

对静态代码库或知识库的周期性分析，例如各类 Copilot Agent。

瞬时流量巨大的爆款 AI 应用，例如哄哄模拟器，LLM Riddles。

交互规则复杂的 Agent 类应用，例如什么值得买 Kimi+ 等。

官方后续将发布 Context Caching 功能的场景最佳实践 / 计费方案 / 技术文档，IT之家将保持关注，并在第一时间带来相关报道。

Kimi K2高速版发布输出速度提升至每秒40 Tokens

Kimi开放平台发布Kimi K2 高速版。新款模型命名为kimi-k2-turbo-preview，参数规模与现有kimi-k2 保持一致，但输出速度由每秒10 Tokens提升至每秒40 Tokens，显著提升使用效率。此次升级旨在优化用户体验，满足更高实时性需求的应用场景。

8/1/2025 2:12:08 PM

AI在线

Kimi K2 高速版kimi-k2-turbo-preview发布输出每秒 40 Tokens

kimi-k2-turbo-preview，即Kimi K2高速版正式发布。据悉，该高速版模型在参数设置上与原版kimi-k2保持一致，但在性能上实现了显著提升，输出速度从原先的每秒10Tokens大幅跃升至每秒40Tokens，为用户带来更加流畅高效的使用体验。为庆祝Kimi K2高速版的发布，官方特别推出限时5折特惠活动，该优惠将持续至9月1日，之后将恢复原价。

8/1/2025 2:12:12 PM

AI在线

不到1000行代码，PyTorch团队让Llama 7B提速10倍

PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里，生成式 AI 发展迅猛，在这当中，文本生成一直是一个特别受欢迎的领域，很多开源项目如 llama.cpp、vLLM 、 MLC-LLM 等，为了取得更好的效果，都在进行不停的优化。作为机器学习社区中最受欢迎框架之一的 PyTorch，自然也是抓住了这一新的机遇，不断优化。为此让大家更好的了解这些创新，PyTorch 团队专门设置了系列博客，重点介绍如何使用纯原生 PyTorch 加速生成式 AI 模型。代码地址：，PyTorch 团队展示了仅使用纯原生

12/5/2023 2:35:00 PM

机器之心

月之暗面 Kimi 开放平台将启动 Context Caching 内测：提供预设内容 QA Bot、固定文档集合查询

相关资讯

Kimi K2高速版发布 输出速度提升至每秒40 Tokens

Kimi K2 高速版kimi-k2-turbo-preview发布 输出每秒 40 Tokens

不到1000行代码，PyTorch团队让Llama 7B提速10倍

Kimi K2高速版发布输出速度提升至每秒40 Tokens

Kimi K2 高速版kimi-k2-turbo-preview发布输出每秒 40 Tokens