Observabilité

Voyez exactement ce que vos LLMs coûtent

Latence p50/p95/p99, tokens consommés, coût par requête — découpés par assistant, feature ou équipe. Alertes de dérive budgétaire en temps réel. Fini les mauvaises surprises en fin de mois.

Atout: p50 / p95 / p99
Atout: Métriques temps réel
Atout: 90 j de rétention

response.json

{
  "model": "gpt-4o",
  "provider": "openai",
  "usage": {
    "prompt_tokens": 412,
    "completion_tokens": 188,
    "cost_eur": 0.0061,
    "latency_ms": 340,
    "cached": false
  }
}

Ce que ça change

Observabilité, en pratique.

Coût par requête

Le coût réel de chaque appel, ventilé par modèle, par route et par clé API.

Latence détaillée

p50, p95 et p99 par provider et par modèle, pour repérer les régressions en un coup d’œil.

Logs avec trace

Chaque requête est tracée de bout en bout : prompt, provider choisi, retries, réponse.

Alertes budget

Définissez des seuils de dépense et recevez une alerte avant de dépasser votre budget.

Comment ça marche

Des métriques exploitables, par appel

1Rien à instrumenterDès le premier appel via Latenza, toutes les métriques sont collectées automatiquement.
2Filtrez et découpezSegmentez par assistant, feature, équipe ou clé API dans le dashboard.
3Pilotez vos coûtsSuivez la tendance, posez des alertes et exportez les données quand vous en avez besoin.

Chaque réponse renvoie le détail d’usage. Tout est aussi disponible dans le dashboard et l’API.

response.json

{
  "model": "gpt-4o",
  "provider": "openai",
  "usage": {
    "prompt_tokens": 412,
    "completion_tokens": 188,
    "cost_eur": 0.0061,
    "latency_ms": 340,
    "cached": false
  }
}

Routing multi-provider

Définissez des règles par coût, latence ou contexte. Latenza évalue chaque appel en temps réel et sélectionne le provider optimal — sans changer une ligne dans votre code applicatif.

Failover automatique

Panne OpenAI, quota Anthropic dépassé, timeout réseau ? La requête bascule sur le provider suivant en moins de 100 ms. Vos utilisateurs ne voient jamais l’incident.

Caching sémantique

Latenza détecte les requêtes sémantiquement similaires et renvoie une réponse cachée instantanément. Réduction des coûts mesurable dès les premiers jours, sans dégrader la qualité.

Rate limiting

Quota par clé API, par organisation ou par modèle. Protégez votre budget, évitez les abus et garantissez un service équitable entre vos équipes — le tout configuré en quelques clics.

Prêt à essayer observabilité ?

Commencez gratuitement. Aucune carte bancaire. Déployé en 5 minutes.