缓存

Gemini API推出隐式缓存功能，开发者成本降低75%

Gemini API推出隐式缓存（Implicit Caching）功能，为开发者带来显著的成本优化体验。新功能无需开发者手动创建缓存，当请求与先前请求共享共同前缀时，系统将自动触发缓存命中，提供高达75%的Token折扣。此更新已覆盖Gemini2.5Pro和2.5Flash模型，进一步提升了AI开发的成本效益。

5/9/2025 4:00:51 PM

AI在线

Google Gemini API迎来隐式缓存功能自动节省开发成本高达75%

近期，Google 宣布在其 Gemini API 中推出一项新功能 —— 隐式缓存。这一功能旨在帮助第三方开发者在使用最新 AI 模型时节省成本，最高可达75% 的费用节约，尤其是在处理重复性上下文时效果显著。隐式缓存的工作原理隐式缓存的核心在于，它能够自动识别并重用之前请求中相似的内容。

5/9/2025 10:01:42 AM

AI在线

字节Seed 团队推出 PHD-Transformer，成功扩展预训练长度，解决 KV 缓存问题！

近日，字节跳动的 Seed 团队在人工智能领域再传佳音，推出了一种新型的 PHD-Transformer（Parallel Hidden Decoding Transformer），这项创新突破了预训练长度的限制，有效解决了推理过程中的 KV 缓存膨胀问题。随着大型推理模型的迅速发展，研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链，并在复杂的推理任务上取得了显著成果。受到启发，字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。

4/28/2025 5:00:40 PM

AI在线

DeepSeek R1 简易指南：架构、本地部署和硬件要求

DeepSeek 团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。该研究突破性地采用强化学习（Reinforcement Learning）作为核心训练范式，在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。技术架构深度解析模型体系：DeepSeek-R1系列包含两大核心成员：DeepSeek-R1-Zero参数规模：6710亿（MoE架构，每个token激活370亿参数）训练特点：完全基于强化学习的端到端训练核心优势：展现出自我验证、长链推理等涌现能力典型表现：AIME 2024基准测试71%准确率DeepSeek-R1参数规模：与Zero版保持相同体量训练创新：多阶段混合训练策略核心改进：监督微调冷启动强化学习优化性能提升：AIME 2024准确率提升至79.8%训练方法论对比强化学习与主要依赖监督学习的传统模型不同，DeepSeek-R1广泛使用了RL。

2/3/2025 6:00:00 AM

dev

月之暗面 Kimi 开放平台上下文缓存 Cache 存储费用降价 50%：现价 5 元 / 1M tokens / min

感谢AI 独角兽公司月之暗面今日宣布，Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%，Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min，即日起生效。7 月 1 日，Kimi 开放平台上下文缓存（Context Caching）功能开启公测。官方表示，该技术在 API 价格不变的前提下，可为开发者降低最高 90% 的长文本旗舰大模型使用成本，并提升模型响应速度。AI在线附 Kimi 开放平台上下文缓存功能公测详情如下：技术简介据

8/7/2024 1:41:26 PM

清源

月之暗面 Kimi 开放平台将启动 Context Caching 内测：提供预设内容 QA Bot、固定文档集合查询

月之暗面官宣 Kimi 开放平台 Context Caching 功能将启动内测，届时将支持长文本大模型，可实现上下文缓存功能。▲ 图源 Kimi 开放平台官方公众号，下同据介绍，Context Caching（上下文缓存）是由 Kimi 开放平台提供的一项高级功能，可通过缓存重复的 Tokens 内容，降低用户在请求相同内容时的成本，原理如下：官方表示，Context Caching 可提升 API 的接口响应速度（或首字返回速度）。在规模化、重复度高的 prompt 场景，Context Caching 功能带

6/19/2024 10:43:26 PM

归泷（实习）

不到1000行代码，PyTorch团队让Llama 7B提速10倍

PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里，生成式 AI 发展迅猛，在这当中，文本生成一直是一个特别受欢迎的领域，很多开源项目如 llama.cpp、vLLM 、 MLC-LLM 等，为了取得更好的效果，都在进行不停的优化。作为机器学习社区中最受欢迎框架之一的 PyTorch，自然也是抓住了这一新的机遇，不断优化。为此让大家更好的了解这些创新，PyTorch 团队专门设置了系列博客，重点介绍如何使用纯原生 PyTorch 加速生成式 AI 模型。代码地址：，PyTorch 团队展示了仅使用纯原生

12/5/2023 2:35:00 PM

机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind AI模型特斯拉场景深度学习亚马逊架构 Transformer MCP Copilot 编程视觉

缓存

Gemini API推出隐式缓存功能，开发者成本降低75%

Google Gemini API迎来隐式缓存功能 自动节省开发成本高达75%

字节Seed 团队推出 PHD-Transformer，成功扩展预训练长度，解决 KV 缓存问题！

DeepSeek R1 简易指南：架构、本地部署和硬件要求

月之暗面 Kimi 开放平台上下文缓存 Cache 存储费用降价 50%：现价 5 元 / 1M tokens / min

月之暗面 Kimi 开放平台将启动 Context Caching 内测：提供预设内容 QA Bot、固定文档集合查询

不到1000行代码，PyTorch团队让Llama 7B提速10倍

Google Gemini API迎来隐式缓存功能自动节省开发成本高达75%