Compteur de Tokens Local dans le Navigateur

Calculateur de Tokens Inter-Modèles : Estimez les Coûts d'API LLM Instantanément

Collez du texte ou entrez des comptes manuels pour prévoir les tarifs des prompts, complétions, mises en cache et batch sur les tarifs OpenAI, Claude, Gemini et personnalisés sans envoyer de données à un serveur.

Tarifs OpenAI, Claude, Gemini et personnalisésScénarios de prompt, complétion, cache et batchExécution locale dans le navigateur sans inscription

Estimateur de coût de tokens LLM

Utilisez ce calculateur de tokens inter-modèles pour estimer les dépenses d'API pour les prompts, les réponses, les préfixes mis en cache, les chunks RAG, les boucles d'agents et les sorties structurées.

Tokens

Words

Characters (no spaces)

Total characters

Current token cost snapshot

A quick read on what the current token count costs across the models you have selected.

Paste text above to generate a current token cost snapshot.

Modèles à comparer

Sélectionnez un ou plusieurs modèles

Répartition des coûts

Examinez les nombres de tokens et les tarifs par modèle, puis exportez le scénario pour la planification, l'approvisionnement ou les devis clients.

Paste text above to start counting tokens and comparing model cost.

Note de confidentialité

Ce compteur de tokens local dans le navigateur conserve le texte du prompt sur votre appareil. Nous calculons uniquement les tokens et les tarifs lors de la session en cours.

Source des tarifs

Utilisation du tarif de repli intégré car le catalogue en direct n'est pas disponible pour le moment.

OpenAI utilise un comptage compatible tiktoken local lorsque disponible. Anthropic, Gemini et les modèles personnalisés peuvent utiliser des approximations côté navigateur, alors confirmez toujours la facturation finale avec les tableaux de bord des fournisseurs pour les budgets de production.

Advanced cost settings

Tune response size, cache assumptions, request volume, safety margin, and custom pricing without crowding the main paste-and-count flow.

Tokens de sortie attendusTokens d'entrée mis en cacheTokens d'entrée supplémentairesRequêtes dans ce scénarioRequêtes mensuelles projetéesMarge de sécurité (%)Majoration client (%)

Appliquer la remise sur les batchs d'API au total du scénario

Tarifs des modèles personnalisés

Nom du modèle personnaliséPrix d'entrée par 1M de tokens (USD)Prix de sortie par 1M de tokens (USD)Prix d'entrée mis en cache par 1M de tokens (USD)

Comment estimer les tarifs des tokens entre les fournisseurs LLM

Suivez ces étapes pour utiliser le calculateur comme calculateur de tokens inter-modèles, calculateur de tokens de prompt et de complétion, et compteur de tokens local dans le navigateur.

Collez le texte source ou entrez des nombres de tokens manuels
Utilisez le mode texte lorsque vous souhaitez un comptage de tokens local dans le navigateur à partir d'un prompt, d'un schéma, d'une transcription ou d'un chunk RAG. Utilisez le mode manuel lorsque vous connaissez déjà le nombre de tokens à partir d'un autre pipeline.
Choisissez les fournisseurs et les hypothèses du scénario
Sélectionnez OpenAI, Claude, Gemini ou un modèle personnalisé, puis remplissez les tokens de sortie attendus, les tokens d'entrée mis en cache, les tokens de récupération supplémentaires, le volume de requêtes et l'utilisation mensuelle.
Modélisez les effets des batchs, de la mise en cache et des marges
Activez la remise sur les batchs pour les travaux en masse asynchrones, ajoutez des tokens de prompt mis en cache pour les instructions système répétées, et incluez une marge de sécurité ou une majoration client si vous avez besoin de garde-fous budgétaires.
Comparez et exportez le résultat
Examinez le coût par requête, le total du scénario, le coût mensuel, le budget sûr et le prix ajusté de la majoration. Exportez en JSON ou CSV pour les revues d'approvisionnement, les devis clients ou les documents de sélection de modèles.

Études de cas : où l'estimation du coût des tokens est importante

Ces exemples correspondent à un comportement de recherche à forte intention autour de la comparaison des tarifs, de la mise en cache, des batchs et de l'utilisation des LLM multilingues.

Étude de cas 1 : Estimateur de coût de flux de travail d'agent

Profile

Une startup exécutant des agents multi-étapes avec des boucles de planification, de récupération et de révision.

Challenge

L'équipe avait besoin d'estimer comment les appels d'outils répétés et les longs prompts système affecteraient l'économie unitaire avant le lancement.

Solution

Ils ont utilisé le calculateur pour modéliser les tokens de prompt, les tokens de complétion, le contexte de récupération supplémentaire et les remises sur les batchs entre les modèles candidats.

Implementation

Chaque étape de l'agent a été collée en mode texte, puis l'équipe a ajusté les requêtes mensuelles et la marge de sécurité jusqu'à ce que le scénario corresponde à leur prévision de production.

Results

Ils ont identifié le mix de modèles le moins cher pour le flux de travail et ont réduit le coût mensuel projeté de plus d'un tiers avant la livraison.

Étude de cas 2 : Calculateur de tarifs d'API OpenAI vs Claude

Profile

Une plateforme de support comparant GPT-4o-mini avec Claude 3.5 Sonnet pour la gestion des chats.

Challenge

Ils avaient besoin d'un moyen rapide de comparer les tarifs des tokens de prompt et de complétion sur le même historique de conversation sans écrire de scripts personnalisés.

Solution

Le calculateur a traité une transcription de chat représentative localement et a renvoyé des estimations mensuelles côte à côte pour les deux fournisseurs.

Implementation

L'équipe a collé plusieurs conversations de 10 tours, a défini le volume de requêtes projeté et a comparé le prix ajusté de la majoration pour les plans d'entreprise.

Results

Ils ont choisi l'option la moins chère pour les cas de support standard et ont réservé le modèle premium uniquement pour les voies d'escalade.

Étude de cas 3 : Calculateur de coût d'API par batch

Profile

Une équipe des opérations traitant des dizaines de milliers de descriptions de produits pendant la nuit.

Challenge

Leur marge dépendait de la question de savoir si les tarifs des batchs asynchrones changeaient matériellement le coût des gros travaux de rafraîchissement de contenu.

Solution

Ils ont modélisé le travail avec la remise sur les batchs activée et ont inclus une marge pour les descriptions de longue traîne qui étaient plus grandes que la moyenne.

Implementation

L'équipe a saisi un échantillon représentatif, projeté le nombre total de requêtes et exporté le CSV pour approbation du budget.

Results

Ils ont déplacé la charge de travail vers la file d'attente des batchs avec une estimation claire des économies et ont obtenu un budget de traitement nocturne prévisible.

Étude de cas 4 : Coût de mise en cache du contexte Anthropic

Profile

Un flux de travail juridique-tech avec de longs prompts système réutilisables et des documents de politique.

Challenge

L'équipe avait besoin de comprendre combien les préfixes mis en cache réduiraient le coût des requêtes répétées sur les mêmes instructions de base.

Solution

Ils ont utilisé les tokens d'entrée mis en cache pour modéliser le contexte répété et ont comparé les économies mensuelles effectives par rapport au fonctionnement non mis en cache.

Implementation

Les instructions juridiques partagées ont été saisies comme tokens mis en cache, tandis que les prompts et les sorties dynamiques spécifiques à l'affaire ont été estimés séparément.

Results

Ils ont justifié la mise en cache des prompts en interne et ont réduit le coût apparent des flux de travail de haute conformité.

Étude de cas 5 : Coût des tokens LLM multilingues

Profile

Une équipe de contenu mondiale localisant les prompts et les sorties structurées en anglais, japonais et chinois.

Challenge

Le nombre de mots semblait similaire, mais l'utilisation des tokens variait considérablement selon la langue et le format de sortie.

Solution

Ils ont collé des prompts localisés dans l'outil pour mesurer l'inflation des tokens et comparer les tarifs des fournisseurs avant de se lancer sur de nouveaux marchés.

Implementation

L'équipe a dupliqué les scénarios par langue, ajusté la taille de sortie attendue et documenté la différence de prix par marché.

Results

Ils ont évité la sous-estimation dans les langues à forte utilisation de tokens et ont défini des politiques d'utilisation spécifiques au marché avec une plus grande confiance.

FAQ sur l'estimateur de coût de tokens

Qu'est-ce qu'un calculateur de tokens inter-modèles ?

C'est un outil qui vous permet d'estimer l'utilisation des tokens et le coût de l'API sur plusieurs fournisseurs LLM à partir de la même entrée afin que vous puissiez comparer les tarifs avant de construire.

Quelle est la précision de cet estimateur de coût de tokens LLM ?

Les modèles compatibles OpenAI utilisent le support de tokeniseur local lorsque disponible. D'autres fournisseurs peuvent s'appuyer sur des approximations côté navigateur, de sorte que l'estimation est solide pour la planification, mais les tableaux de bord de facturation des fournisseurs restent la vérité finale.

Pourquoi séparer les tokens de prompt et de complétion ?

La plupart des fournisseurs facturent des prix différents pour les tokens d'entrée et de sortie, et la sortie est souvent beaucoup plus chère. Les séparer rend l'estimation utilisable pour une budgétisation réelle.

Puis-je estimer le coût de mise en cache du contexte Anthropic ici ?

Oui. Ajoutez la partie de votre prompt qui est réutilisée comme tokens d'entrée mis en cache, puis comparez le scénario aux exécutions non mises en cache pour voir comment les préfixes répétés modifient le budget.

Cela fonctionne-t-il comme un calculateur de coût d'API par batch ?

Oui. Activez le bouton de remise sur les batchs pour estimer le total inférieur que vous attendriez des flux de travail de traitement en masse asynchrones.

Mes données sont-elles stockées lorsque j'utilise ce compteur de tokens local dans le navigateur ?

Non. Le calculateur est conçu pour une exécution locale dans la session du navigateur, de sorte que les prompts et les documents collés restent sur votre appareil pendant l'estimation.

Puis-je l'utiliser comme estimateur de tokens de chunk RAG ?

Oui. Collez un chunk de document représentatif, puis ajoutez des tokens d'entrée supplémentaires pour la surcharge de récupération et multipliez les requêtes pour modéliser le coût des modèles de récupération top-K.

Comment estimer les tarifs des tokens de sortie structurée OpenAI ?

Collez le prompt et tout schéma ou instructions de sortie structurée en mode texte, puis définissez les tokens de complétion attendus afin de voir comment la surcharge de formatage modifie le coût total.

Pourquoi le coût des tokens LLM multilingues varie-t-il selon la langue ?

Différents tokeniseurs divisent le texte non anglais différemment, de sorte que des nombres de mots similaires peuvent produire des totaux de tokens très différents. Tester chaque langue cible est le moyen le plus sûr de tarifer l'utilisation mondiale.

Puis-je comparer un modèle personnalisé ou auto-hébergé ?

Oui. Utilisez la section des tarifs personnalisés pour saisir votre propre nom de modèle et vos tarifs par million de tokens pour l'entrée, la sortie et l'entrée mise en cache.