Prompt Caching 提示词缓存：降低大模型费用与延迟

May 24, 2026

提示词缓存（Prompt Caching）是一种优化技术，可将高频使用的上下文（如系统指令、长文档或历史对话）缓存在大模型服务商的内存中，从而大幅减少输入计费与首字延迟。

大语言模型

提示词缓存

成本优化

Prompt Caching 提示词缓存：降低大模型费用与延迟 | TokenCalc.org