Prompt Caching 提示词缓存:降低大模型费用与延迟

May 24, 2026
提示词缓存(Prompt Caching)是一种优化技术,可将高频使用的上下文(如系统指令、长文档或历史对话)缓存在大模型服务商的内存中,从而大幅减少输入计费与首字延迟。
大语言模型
提示词缓存
成本优化
Prompt Caching 提示词缓存:降低大模型费用与延迟 | TokenCalc.org