缓存
Gemini API推出隐式缓存功能,开发者成本降低75%
Gemini API推出隐式缓存(Implicit Caching)功能,为开发者带来显著的成本优化体验。 新功能无需开发者手动创建缓存,当请求与先前请求共享共同前缀时,系统将自动触发缓存命中,提供高达75%的Token折扣。 此更新已覆盖Gemini2.5Pro和2.5Flash模型,进一步提升了AI开发的成本效益。
5/9/2025 4:00:51 PM
AI在线
Google Gemini API迎来隐式缓存功能 自动节省开发成本高达75%
近期,Google 宣布在其 Gemini API 中推出一项新功能 —— 隐式缓存。 这一功能旨在帮助第三方开发者在使用最新 AI 模型时节省成本,最高可达75% 的费用节约,尤其是在处理重复性上下文时效果显著。 隐式缓存的工作原理隐式缓存的核心在于,它能够自动识别并重用之前请求中相似的内容。
5/9/2025 10:01:42 AM
AI在线
字节Seed 团队推出 PHD-Transformer,成功扩展预训练长度,解决 KV 缓存问题!
近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了预训练长度的限制,有效解决了推理过程中的 KV 缓存膨胀问题。 随着大型推理模型的迅速发展,研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链,并在复杂的推理任务上取得了显著成果。 受到启发,字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。
4/28/2025 5:00:40 PM
AI在线
DeepSeek R1 简易指南:架构、本地部署和硬件要求
DeepSeek 团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。 该研究突破性地采用强化学习(Reinforcement Learning)作为核心训练范式,在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。 技术架构深度解析模型体系:DeepSeek-R1系列包含两大核心成员:DeepSeek-R1-Zero参数规模:6710亿(MoE架构,每个token激活370亿参数)训练特点:完全基于强化学习的端到端训练核心优势:展现出自我验证、长链推理等涌现能力典型表现:AIME 2024基准测试71%准确率DeepSeek-R1参数规模:与Zero版保持相同体量训练创新:多阶段混合训练策略核心改进:监督微调冷启动 强化学习优化性能提升:AIME 2024准确率提升至79.8%训练方法论对比强化学习与主要依赖监督学习的传统模型不同,DeepSeek-R1广泛使用了RL。
2/3/2025 6:00:00 AM
dev
月之暗面 Kimi 开放平台上下文缓存 Cache 存储费用降价 50%:现价 5 元 / 1M tokens / min
感谢AI 独角兽公司月之暗面今日宣布,Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%,Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min,即日起生效。7 月 1 日,Kimi 开放平台上下文缓存(Context Caching)功能开启公测。官方表示,该技术在 API 价格不变的前提下,可为开发者降低最高 90% 的长文本旗舰大模型使用成本,并提升模型响应速度。AI在线附 Kimi 开放平台上下文缓存功能公测详情如下:技术简介据
8/7/2024 1:41:26 PM
清源
月之暗面 Kimi 开放平台将启动 Context Caching 内测:提供预设内容 QA Bot、固定文档集合查询
月之暗面官宣 Kimi 开放平台 Context Caching 功能将启动内测,届时将支持长文本大模型,可实现上下文缓存功能。▲ 图源 Kimi 开放平台官方公众号,下同据介绍,Context Caching(上下文缓存)是由 Kimi 开放平台提供的一项高级功能,可通过缓存重复的 Tokens 内容,降低用户在请求相同内容时的成本,原理如下:官方表示,Context Caching 可提升 API 的接口响应速度(或首字返回速度)。在规模化、重复度高的 prompt 场景,Context Caching 功能带
6/19/2024 10:43:26 PM
归泷(实习)
不到1000行代码,PyTorch团队让Llama 7B提速10倍
PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里,生成式 AI 发展迅猛,在这当中,文本生成一直是一个特别受欢迎的领域,很多开源项目如 llama.cpp、vLLM 、 MLC-LLM 等,为了取得更好的效果,都在进行不停的优化。作为机器学习社区中最受欢迎框架之一的 PyTorch,自然也是抓住了这一新的机遇,不断优化。为此让大家更好的了解这些创新,PyTorch 团队专门设置了系列博客,重点介绍如何使用纯原生 PyTorch 加速生成式 AI 模型。代码地址:,PyTorch 团队展示了仅使用纯原生
12/5/2023 2:35:00 PM
机器之心
- 1
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊