Vérificateur de sécurité de la fenêtre de contexte

Vérifiez la fenêtre de contexte restante avant de déployer

Collez votre prompt ou votre morceau de document pour voir les jetons utilisés par rapport aux jetons restants dans la fenêtre de contexte sur différents modèles. L'estimation des coûts reste disponible dans un panneau avancé.

Contexte utilisé vs restant en un coup d'œilPréréglages de scénario pour le support, la résumé et le RAGSource de tarification en direct et statut de fraîcheur

Flux de travail principal texte-vers-jeton

Collez d'abord le texte pour vérifier immédiatement le risque d'utilisation du contexte. Les estimations de coûts sont disponibles dans un panneau secondaire extensible.

Préréglages de scénario

Commencez en un clic, puis affinez dans les paramètres avancés.

Jetons
0
Mots
0
Caractères (sans espaces)
0
Caractères totaux
0

Capacité restante de la fenêtre de contexte

Concentrez-vous d'abord sur les jetons utilisés par rapport aux jetons restants pour éviter les risques de dépassement.

Collez du texte ci-dessus pour vérifier la capacité restante de la fenêtre de contexte.

Modèles à comparer

Sélectionnez les modèles que vous souhaitez comparer pour la sécurité du contexte et le coût

Détails de l'estimation des coûts

Développez pour la répartition des prix, les exportations et les liens vers les fournisseurs.

Répartition des coûts

Examinez les nombres de jetons et les prix par modèle, puis exportez le scénario pour la planification, l'approvisionnement ou les devis clients.

Collez du texte ci-dessus pour commencer à compter les jetons et comparer le coût des modèles.
Note de confidentialité

Ce compteur de jetons dans le navigateur garde le texte du prompt sur votre appareil. Nous calculons uniquement les jetons et la tarification pendant la session en cours.

Source de tarification

Utilisation du fallback de tarification intégré car le catalogue en direct n'est pas disponible pour le moment.

Mis à jour aujourd'hui

Utilisation des données de tarification de secours. Les chiffres peuvent être en retard par rapport aux prix actuels des fournisseurs.

OpenAI utilise un comptage compatible avec tiktoken local lorsque disponible. Anthropic, Gemini et les modèles personnalisés peuvent utiliser des approximations côté navigateur, alors confirmez toujours la facturation finale avec les tableaux de bord des fournisseurs pour les budgets de production.

Advanced cost settings

Ajustez la longueur de sortie, la mise en cache, le trafic et les entrées de tarification personnalisée sans encombrer le flux de travail principal de la fenêtre de contexte.

Tarification des modèles personnalisés

Comment estimer les prix des jetons entre les fournisseurs de LLM

Suivez ces étapes pour utiliser la calculatrice comme calculatrice de jetons inter-modèles, calculatrice de jetons de prompt et de complétion, et compteur de jetons dans le navigateur local.

  1. Collez le texte source ou entrez les nombres de jetons manuels

    Utilisez le mode texte lorsque vous souhaitez un comptage de jetons dans le navigateur local à partir d'un prompt, d'un schéma, d'une transcription ou d'un morceau RAG. Utilisez le mode manuel lorsque vous connaissez déjà le nombre de jetons à partir d'un autre pipeline.

  2. Choisissez les fournisseurs et les hypothèses du scénario

    Sélectionnez OpenAI, Claude, Gemini ou un modèle personnalisé, puis remplissez les jetons de sortie attendus, les jetons d'entrée mis en cache, les jetons de récupération supplémentaires, le volume de requêtes et l'utilisation mensuelle.

  3. Modélisez les effets des lots, de la mise en cache et des marges

    Activez la remise par lots pour les travaux en masse asynchrones, ajoutez des jetons de prompt mis en cache pour les instructions système répétées et incluez une marge de sécurité ou une marge client si vous avez besoin de garde-fous budgétaires.

  4. Comparez et exportez le résultat

    Examinez le coût par requête, le total du scénario, le coût mensuel, le budget sûr et le prix ajusté de la marge. Exportez au format JSON ou CSV pour les revues d'approvisionnement, les devis clients ou les documents de sélection de modèles.

Études de cas : où l'estimation du coût des jetons est importante

Ces exemples correspondent à un comportement de recherche à forte intention autour de la comparaison des prix, de la mise en cache, du traitement par lots et de l'utilisation de LLM multilingues.

Étude de cas 1 : Estimateur de coût de flux de travail agentique

Profile

Une startup exécutant des agents multi-étapes avec des boucles de planification, de récupération et de révision.

Challenge

L'équipe avait besoin d'estimer comment les appels d'outils répétés et les prompts système longs affecteraient l'économie unitaire avant le lancement.

Solution

Ils ont utilisé la calculatrice pour modéliser les jetons de prompt, les jetons de complétion, le contexte de récupération supplémentaire et les remises par lots sur les modèles candidats.

Implementation

Chaque étape de l'agent a été collée en mode texte, puis l'équipe a ajusté les requêtes mensuelles et la marge de sécurité jusqu'à ce que le scénario corresponde à leurs prévisions de production.

Results

Ils ont identifié le mix de modèles le moins cher pour le flux de travail et ont réduit le coût mensuel projeté de plus d'un tiers avant le déploiement.

Étude de cas 2 : Calculateur de prix d'API OpenAI vs Claude

Profile

Une plateforme de support comparant GPT-4o-mini à Claude 3.5 Sonnet pour la gestion des chats.

Challenge

Ils avaient besoin d'un moyen rapide de comparer les prix des jetons de prompt et de complétion sur le même historique de conversation sans écrire de scripts personnalisés.

Solution

La calculatrice a traité une transcription de chat représentative localement et a renvoyé des estimations mensuelles côte à côte pour les deux fournisseurs.

Implementation

L'équipe a collé plusieurs conversations de 10 tours, a défini le volume de requêtes projeté et a comparé le prix ajusté de la marge pour les plans d'entreprise.

Results

Ils ont choisi l'option la moins chère pour les cas de support standard et ont réservé le modèle premium uniquement pour les chemins d'escalade.

Étude de cas 3 : Calculateur de coût d'API par lots

Profile

Une équipe des opérations traitant des dizaines de milliers de descriptions de produits pendant la nuit.

Challenge

Leur marge dépendait de la question de savoir si la tarification par lots asynchrones modifiait matériellement le coût des travaux de rafraîchissement de contenu à grande échelle.

Solution

Ils ont modélisé le travail avec la remise par lots activée et ont inclus une marge tampon pour les descriptions de longue traîne qui étaient plus grandes que la moyenne.

Implementation

L'équipe a saisi un échantillon représentatif, a projeté le nombre total de requêtes et a exporté le CSV pour approbation du budget.

Results

Ils ont déplacé la charge de travail vers la file d'attente par lots avec une estimation claire des économies et ont obtenu un budget de traitement nocturne prévisible.

Étude de cas 4 : Coût de mise en cache du contexte Anthropic

Profile

Un flux de travail juridique avec de grands prompts système réutilisables et des documents de politique.

Challenge

L'équipe avait besoin de comprendre combien les préfixes mis en cache réduiraient le coût des requêtes répétées sur les mêmes instructions de base.

Solution

Ils ont utilisé les jetons d'entrée mis en cache pour modéliser le contexte répété et ont comparé les économies mensuelles effectives par rapport au fonctionnement sans mise en cache.

Implementation

Les instructions juridiques partagées ont été saisies comme jetons mis en cache, tandis que les prompts et les sorties dynamiques spécifiques à l'affaire ont été estimés séparément.

Results

Ils ont justifié la mise en cache des prompts en interne et ont réduit le coût apparent des flux de travail à haute conformité.

Étude de cas 5 : Coût des jetons LLM multilingues

Profile

Une équipe de contenu mondiale localisant les prompts et les sorties structurées en anglais, japonais et chinois.

Challenge

Le nombre de mots semblait similaire, mais l'utilisation des jetons variait considérablement selon la langue et le format de sortie.

Solution

Ils ont collé les prompts localisés dans l'outil pour mesurer l'inflation des jetons et comparer les prix des fournisseurs avant de se lancer sur de nouveaux marchés.

Implementation

L'équipe a dupliqué les scénarios par langue, ajusté la taille de sortie attendue et documenté la différence de prix par marché.

Results

Ils ont évité les sous-évaluations dans les langues à forte utilisation de jetons et ont défini des politiques d'utilisation spécifiques au marché avec une plus grande confiance.

FAQ sur l'estimateur de coût des jetons

Qu'est-ce qu'un calculateur de jetons inter-modèles ?

C'est un outil qui vous permet d'estimer l'utilisation des jetons et le coût de l'API sur plusieurs fournisseurs de LLM à partir de la même entrée afin que vous puissiez comparer les prix avant de construire.

Quelle est la précision de cet estimateur de coût de jetons LLM ?

Les modèles compatibles avec OpenAI utilisent le support de tokeniseur local lorsque disponible. D'autres fournisseurs peuvent s'appuyer sur des approximations côté navigateur, de sorte que l'estimation est solide pour la planification, mais les tableaux de bord de facturation des fournisseurs restent la vérité finale.

Pourquoi séparer les jetons de prompt et de complétion ?

La plupart des fournisseurs facturent des prix différents pour les jetons d'entrée et de sortie, et la sortie est souvent beaucoup plus chère. La séparation les rend utilisables pour une budgétisation réelle.

Puis-je estimer le coût de mise en cache du contexte Anthropic ici ?

Oui. Ajoutez la partie de votre prompt qui est réutilisée comme jetons d'entrée mis en cache, puis comparez le scénario aux exécutions sans mise en cache pour voir comment les préfixes répétés modifient le budget.

Cela fonctionne-t-il comme un calculateur de coût d'API par lots ?

Oui. Activez le bouton de remise par lots pour estimer le total inférieur que vous attendriez des flux de travail de traitement en masse asynchrones.

Mes données sont-elles stockées lorsque j'utilise ce compteur de jetons dans le navigateur local ?

Non. La calculatrice est conçue pour une exécution locale dans la session du navigateur, de sorte que les prompts et les documents collés restent sur votre appareil pendant l'estimation.

Puis-je l'utiliser comme estimateur de jetons de morceaux RAG ?

Oui. Collez un morceau de document représentatif, puis ajoutez des jetons d'entrée supplémentaires pour la surcharge de récupération et multipliez les requêtes pour modéliser le coût des modèles de récupération top-K.

Comment estimer les prix des jetons de sortie structurée OpenAI ?

Collez le prompt et tout schéma ou instructions de sortie structurée en mode texte, puis définissez les jetons de complétion attendus afin de voir comment la surcharge de formatage modifie le coût total.

Pourquoi le coût des jetons LLM multilingues varie-t-il selon la langue ?

Différents tokeniseurs divisent le texte non anglais différemment, de sorte que des nombres de mots similaires peuvent produire des totaux de jetons très différents. Tester chaque langue cible est le moyen le plus sûr de tarifer l'utilisation mondiale.

Puis-je comparer un modèle personnalisé ou auto-hébergé ?

Oui. Utilisez la section de tarification personnalisée pour saisir votre propre nom de modèle et vos tarifs par million de jetons pour l'entrée, la sortie et l'entrée mise en cache.