在发布前检查剩余的上下文窗口
粘贴您的提示或文档块,以查看跨模型的已用与剩余上下文窗口代币。成本估算仍可在高级面板中获得。
主要文本到代币工作流
首先粘贴文本以立即检查上下文使用风险。成本估算可在第二个可展开面板中获得。
场景预设
一键开始,然后在高级设置中进行微调。
上下文窗口剩余容量
首先关注已用与剩余代币,以避免溢出风险。
要比较的模型
选择您要比较上下文安全性和成本的模型
成本估算详情
展开以查看定价明细、导出和提供商链接。
成本明细
按模型查看代币计数和定价,然后导出场景以进行规划、采购或客户报价。
此本地浏览器代币计数器将提示文本保留在您的设备上。我们仅在当前会话中计算代币和定价。
由于实时目录当前不可用,正在使用内置定价回退。
今日更新
正在使用回退定价数据。数字可能滞后于当前提供商定价。
OpenAI 在可用时使用本地 tiktoken 兼容计数。Anthropic、Gemini 和自定义模型可能使用浏览器端近似值,因此在生产预算中,请务必通过提供商仪表板确认最终账单。
Advanced cost settings
调整输出长度、缓存、流量和自定义定价输入,而不会拥挤主要上下文窗口工作流。
自定义模型定价
如何估算跨 LLM 提供商的代币定价
请按照以下步骤将计算器用作跨模型代币计算器、提示和完成代币计算器以及本地浏览器代币计数器。
- 粘贴源文本或输入手动代币计数
当您需要从提示、模式、转录或 RAG 块进行本地浏览器代币计数时,请使用文本模式。当您已从其他管道知道代币计数时,请使用手动模式。
- 选择提供商和场景假设
选择 OpenAI、Claude、Gemini 或自定义模型,然后填写预期的输出代币、缓存输入代币、附加检索代币、请求量和月度使用量。
- 模拟批量、缓存和边际效应
为异步批量作业启用批量折扣,为重复的系统指令添加缓存的提示代币,并包含安全边际或客户加价,如果您需要预算保障。
- 比较和导出结果
查看每次请求成本、场景总计、月度成本、安全预算和加价调整后的价格。导出 JSON 或 CSV 以用于采购审查、客户报价或模型选择文档。
案例研究:代币成本估算很重要的地方
这些示例匹配了围绕定价比较、缓存、批量处理和多语言 LLM 使用的高意向搜索行为。
案例研究 1:代理工作流成本估算器
Profile
一家运行多步代理的初创公司,具有规划器、检索器和审查器循环。
Challenge
在发布前,团队需要估算重复的工具调用和长系统提示将如何影响单位经济。
Solution
他们使用计算器对候选模型进行提示代币、完成代币、额外检索上下文和批量折扣的建模。
Implementation
每个代理步骤都粘贴到文本模式中,然后团队调整月度请求数和安全边际,直到场景与他们的生产预测匹配。
Results
他们确定了工作流最便宜的模型组合,并在发布前将预计月度成本降低了三分之一以上。
案例研究 2:OpenAI vs Claude API 定价计算器
Profile
一个支持平台,用于比较 GPT-4o-mini 和 Claude 3.5 Sonnet 来处理聊天。
Challenge
他们需要一种快速的方法来比较同一对话历史的提示和完成代币定价,而无需编写自定义脚本。
Solution
计算器在本地处理了一个代表性的聊天记录,并为两个提供商返回了并排的月度估算。
Implementation
团队粘贴了几个 10 轮对话,设置了预计请求量,并比较了企业计划的加价调整后的价格。
Results
他们为标准支持案例选择了成本较低的选项,并将高级模型仅保留用于升级路径。
案例研究 3:批量 API 成本计算器
Profile
一个运营团队,在夜间处理数万个产品描述。
Challenge
他们的利润取决于异步批量定价是否会实质性改变大型内容刷新作业的成本。
Solution
他们启用了批量折扣来模拟作业,并包含了一个缓冲区,用于处理比平均水平更大的长尾描述。
Implementation
团队输入了一个代表性样本,预测了总请求数,并导出了 CSV 以供预算批准。
Results
他们将工作负载移至批量队列,并获得了清晰的节省估算,以及可预测的夜间处理预算。
案例研究 4:Anthropic 上下文缓存成本
Profile
一个法律科技工作流,具有大型可重用系统提示和策略文档。
Challenge
团队需要了解缓存的前缀在多大程度上可以降低对同一基本指令的重复查询成本。
Solution
他们使用缓存的输入代币来模拟重复的上下文,并将有效月度节省与未缓存操作进行比较。
Implementation
共享的法律说明被输入为缓存代币,而动态的特定于案件的提示和输出则单独估算。
Results
他们内部证明了提示缓存的合理性,并降低了高合规性工作流的显性成本。
案例研究 5:多语言 LLM 代币成本
Profile
一个全球内容团队,以英语、日语和中文本地化提示和结构化输出。
Challenge
字数看起来相似,但代币使用量因语言和输出格式而异。
Solution
他们在启动新市场之前,将本地化提示粘贴到工具中,以衡量代币膨胀并比较提供商定价。
Implementation
团队按语言复制场景,调整了预期的输出大小,并记录了各市场的价格差异。
Results
他们避免了在高代币语言中定价过低,并更有信心地制定了特定市场的用量策略。
代币成本估算器常见问题解答
什么是跨模型代币计算器?
它是一个工具,可以让你从相同的输入中估算跨多个 LLM 提供商的代币使用量和 API 成本,以便你在构建之前比较定价。
这个 llm 代币成本估算器有多准确?
OpenAI 兼容模型在可用时使用本地分词器支持。其他提供商可能依赖浏览器端近似值,因此估算对于规划来说很强,但提供商账单仪表板仍然是最终的真相来源。
为什么需要区分提示和完成代币?
大多数提供商对输入和输出代币收取不同的价格,而输出通常贵得多。分开它们可以使估算可用于实际预算。
我可以在这里估算 Anthropic 上下文缓存成本吗?
是的。将你的提示中重复使用的部分添加为缓存的输入代币,然后将场景与未缓存的运行进行比较,以查看重复的前缀如何改变预算。
它能用作批量 API 成本计算器吗?
是的。启用批量折扣切换以估算你期望从异步批量处理工作流中获得的较低总成本。
我使用这个本地浏览器代币计数器时,我的数据会被存储吗?
不会。计算器设计用于在浏览器会话中本地执行,因此粘贴的提示和文档在估算期间会保留在你的设备上。
我可以用它作为 rag 块代币估算器吗?
是的。粘贴一个代表性的文档块,然后为检索开销添加额外的输入代币,并乘以请求数来模拟 top-K 检索模式的成本。
如何估算 OpenAI 结构化输出代币定价?
将提示和任何模式或结构化输出说明粘贴到文本模式中,然后设置预期的完成代币,以便你可以看到格式开销如何改变总成本。
为什么多语言 LLM 代币成本因语言而异?
不同的分词器对非英语文本的处理方式不同,因此相似的字数可能产生非常不同的代币总数。测试每种目标语言是为全球使用定价的最安全方法。
我可以比较自定义或自托管模型吗?
是的。使用自定义定价部分输入你自己的模型名称以及输入、输出和缓存输入的每百万代币费率。