Failover

Zéro downtime, même quand un provider tombe

Panne OpenAI, quota Anthropic dépassé, timeout réseau ? La requête bascule sur le provider suivant en moins de 100 ms. Vos utilisateurs ne voient jamais l’incident.

Atout: <100 ms de bascule
Atout: 99.9% de disponibilité
Atout: 0 ligne de code

failover.config.json

{
  "route": "/api/chat",
  "primary": { "provider": "openai", "model": "gpt-4o" },
  "fallbacks": [
    { "provider": "anthropic", "model": "claude-3-5-sonnet" },
    { "provider": "mistral",   "model": "mistral-large" }
  ],
  "retry": { "max": 2, "on": [429, 500, 503, "timeout"] }
}

Ce que ça change

Failover automatique, en pratique.

Détection instantanée

Erreurs 5xx, timeouts, quotas dépassés : chaque échec est détecté et traité à la volée.

Cascade de fallback

Définissez une liste ordonnée de providers de secours, par route ou par modèle.

Retry configurable

Nombre de tentatives, backoff et conditions de retry réglables selon le type d’erreur.

Zéro impact utilisateur

La bascule est transparente : la réponse arrive du provider de secours sans erreur côté client.

Comment ça marche

Un fallback qui ne casse jamais

1Ordonnez vos providersListez vos providers de secours dans l’ordre de préférence pour chaque route.
2Réglez les conditionsChoisissez les codes d’erreur, timeouts et le nombre de retries qui déclenchent une bascule.
3Laissez Latenza gérerEn cas d’incident, la requête est re-routée automatiquement, sans intervention.

Le client ne change pas. Latenza réessaie et bascule selon vos conditions avant de répondre.

failover.config.json

{
  "route": "/api/chat",
  "primary": { "provider": "openai", "model": "gpt-4o" },
  "fallbacks": [
    { "provider": "anthropic", "model": "claude-3-5-sonnet" },
    { "provider": "mistral",   "model": "mistral-large" }
  ],
  "retry": { "max": 2, "on": [429, 500, 503, "timeout"] }
}

Routing multi-provider

Définissez des règles par coût, latence ou contexte. Latenza évalue chaque appel en temps réel et sélectionne le provider optimal — sans changer une ligne dans votre code applicatif.

Caching sémantique

Latenza détecte les requêtes sémantiquement similaires et renvoie une réponse cachée instantanément. Réduction des coûts mesurable dès les premiers jours, sans dégrader la qualité.

Observabilité

Latence p50/p95/p99, tokens consommés, coût par requête — découpés par assistant, feature ou équipe. Alertes de dérive budgétaire en temps réel. Fini les mauvaises surprises en fin de mois.

Rate limiting

Quota par clé API, par organisation ou par modèle. Protégez votre budget, évitez les abus et garantissez un service équitable entre vos équipes — le tout configuré en quelques clics.

Prêt à essayer failover automatique ?

Commencez gratuitement. Aucune carte bancaire. Déployé en 5 minutes.