跨模型 Token 计算器:即时估算 LLM API 成本
粘贴文本或输入手动计数,即可在不将数据发送到服务器的情况下,预测 OpenAI、Claude、Gemini 和自定义模型定价的提示、完成、缓存和批量定价。
LLM Token 成本估算器
使用此跨模型 Token 计算器估算提示、响应、缓存前缀、RAG 块、代理循环和结构化输出的 API 支出。
Current token cost snapshot
A quick read on what the current token count costs across the models you have selected.
要比较的模型
选择一个或多个模型
成本明细
按模型查看 Token 数量和定价,然后导出场景以进行规划、采购或客户报价。
此本地浏览器 Token 计数器将提示文本保留在您的设备上。我们仅在当前会话中计算 Token 和定价。
由于实时目录目前不可用,正在使用内置定价回退。
OpenAI 在可用时使用本地兼容 tiktoken 的计数。Anthropic、Gemini 和自定义模型可能使用浏览器端近似值,因此在生产预算中,请始终通过提供商仪表板确认最终账单。
Advanced cost settings
Tune response size, cache assumptions, request volume, safety margin, and custom pricing without crowding the main paste-and-count flow.
自定义模型定价
如何估算跨 LLM 提供商的 Token 定价
请按照以下步骤将计算器用作跨模型 Token 计算器、提示和完成 Token 计算器以及本地浏览器 Token 计数器。
- 粘贴源文本或输入手动 Token 计数
当您需要从提示、模式、记录或 RAG 块进行本地浏览器 Token 计数时,请使用文本模式。当您已经知道来自另一个管道的 Token 数量时,请使用手动模式。
- 选择提供商和场景假设
选择 OpenAI、Claude、Gemini 或自定义模型,然后填写预期的输出 Token、缓存输入 Token、额外的检索 Token、请求量和月度使用量。
- 模拟批量、缓存和边际效应
为异步批量作业启用批量折扣,为重复的系统指令添加缓存的提示 Token,并包含安全裕度或客户加价,如果您需要预算护栏。
- 比较和导出结果
查看每次请求成本、场景总计、月度成本、安全预算和加价调整后的价格。导出 JSON 或 CSV 以供采购审查、客户报价或模型选择文档使用。
案例研究:Token 成本估算的重要性
这些示例与围绕定价比较、缓存、批量处理和多语言 LLM 使用的高意向搜索行为相匹配。
案例研究 1:代理工作流成本估算器
Profile
一家运行多步代理(包括规划器、检索器和审查器循环)的初创公司。
Challenge
在推出之前,团队需要估算重复的工具调用和长系统提示将如何影响单位经济效益。
Solution
他们使用计算器来模拟提示 Token、完成 Token、额外的检索上下文和候选模型之间的批量折扣。
Implementation
每个代理步骤都被粘贴到文本模式中,然后团队调整月度请求数和安全裕度,直到场景与他们的生产预测匹配。
Results
他们在交付前确定了工作流中最具成本效益的模型组合,并将预计月度成本降低了三分之一以上。
案例研究 2:OpenAI vs Claude API 定价计算器
Profile
一个支持平台,用于比较 GPT-4o-mini 和 Claude 3.5 Sonnet 来处理聊天。
Challenge
他们需要一种快速的方法来比较同一对话历史记录的提示和完成 Token 定价,而无需编写自定义脚本。
Solution
计算器在本地处理了一个代表性的聊天记录,并为两个提供商返回了并排的月度估算。
Implementation
团队粘贴了几个 10 轮对话,设置了预计的请求量,并比较了企业计划的加价调整后的价格。
Results
他们为标准支持案例选择了成本较低的选项,并将高级模型仅保留用于升级路径。
案例研究 3:批量 API 成本计算器
Profile
一个运营团队,在夜间处理数万个产品描述。
Challenge
他们的利润取决于异步批量定价是否会实质性改变大型内容刷新作业的成本。
Solution
他们模拟了启用批量折扣的作业,并为运行比平均水平更大的长尾描述留出了缓冲。
Implementation
团队输入了一个代表性样本,预测了总请求数,并导出了 CSV 以供预算审批。
Results
他们将工作负载移至批量队列,并获得了明确的节省估算,并获得了可预测的夜间处理预算。
案例研究 4:Anthropic 上下文缓存成本
Profile
一个具有大型可重用系统提示和策略文档的法律科技工作流。
Challenge
团队需要了解缓存前缀将在多大程度上降低对同一基本指令进行重复查询的成本。
Solution
他们使用缓存的输入 Token 来模拟重复的上下文,并将其与未缓存操作的有效月度节省进行比较。
Implementation
共享的法律说明被输入为缓存 Token,而动态的特定事项提示和输出则单独估算。
Results
他们在内部证明了提示缓存的合理性,并降低了高合规性工作流的显性成本。
案例研究 5:多语言 LLM Token 成本
Profile
一个全球内容团队,以英语、日语和中文本地化提示和结构化输出。
Challenge
字数看起来相似,但 Token 使用量因语言和输出格式而异。
Solution
他们在进入新市场之前,将本地化提示粘贴到工具中以衡量 Token 通胀并比较提供商定价。
Implementation
团队按语言复制场景,调整预期的输出大小,并记录了按市场的价格差异。
Results
他们避免了在高 Token 语言中定价过低,并更有信心地制定了特定市场的用量策略。
Token 成本估算器常见问题解答
什么是跨模型 Token 计算器?
它是一个工具,可以让你从相同的输入中估算多个 LLM 提供商的 Token 使用量和 API 成本,以便你在构建之前比较定价。
这个 LLM Token 成本估算器有多准确?
兼容 OpenAI 的模型在可用时使用本地分词器支持。其他提供商可能依赖浏览器端近似值,因此估算对于规划来说很可靠,但提供商的账单仪表板仍然是最终的真相来源。
为什么需要区分提示和完成 Token?
大多数提供商对输入和输出 Token 收取不同的价格,而输出通常贵得多。分开它们可以使估算值可用于实际预算。
我可以在这里估算 Anthropic 的上下文缓存成本吗?
是的。将你的提示中可重用的部分添加为缓存输入 Token,然后将场景与未缓存的运行进行比较,以查看重复的前缀如何改变预算。
它能用作批量 API 成本计算器吗?
是的。启用批量折扣切换以估算你将从异步批量处理工作流中获得的较低总成本。
当我使用这个本地浏览器 Token 计数器时,我的数据会被存储吗?
不会。该计算器设计用于在浏览器会话中本地执行,因此粘贴的提示和文档在估算过程中会保留在你的设备上。
我可以用它作为 RAG 块 Token 估算器吗?
是的。粘贴一个代表性的文档块,然后添加额外的输入 Token 来处理检索开销,并乘以请求数来模拟 Top-K 检索模式的成本。
如何估算 OpenAI 的结构化输出 Token 定价?
将提示和任何模式或结构化输出说明粘贴到文本模式中,然后设置预期的完成 Token,以便你可以看到格式开销如何改变总成本。
为什么多语言 LLM Token 成本因语言而异?
不同的分词器对非英语文本的处理方式不同,因此相似的字数可能产生非常不同的 Token 总数。测试每种目标语言是为全球使用定价的最安全方法。
我可以比较自定义或自托管模型吗?
是的。使用自定义定价部分输入你的模型名称以及输入、输出和缓存输入的每百万 Token 费率。