Zéro downtime, même quand un provider tombe
Panne OpenAI, quota Anthropic dépassé, timeout réseau ? La requête bascule sur le provider suivant en moins de 100 ms. Vos utilisateurs ne voient jamais l’incident.
- Atout
- <100 ms de bascule
- Atout
- 99.9% de disponibilité
- Atout
- 0 ligne de code
{
"route": "/api/chat",
"primary": { "provider": "openai", "model": "gpt-4o" },
"fallbacks": [
{ "provider": "anthropic", "model": "claude-3-5-sonnet" },
{ "provider": "mistral", "model": "mistral-large" }
],
"retry": { "max": 2, "on": [429, 500, 503, "timeout"] }
}Ce que ça change
Failover automatique, en pratique.
Détection instantanée
Erreurs 5xx, timeouts, quotas dépassés : chaque échec est détecté et traité à la volée.
Cascade de fallback
Définissez une liste ordonnée de providers de secours, par route ou par modèle.
Retry configurable
Nombre de tentatives, backoff et conditions de retry réglables selon le type d’erreur.
Zéro impact utilisateur
La bascule est transparente : la réponse arrive du provider de secours sans erreur côté client.
Comment ça marche
Un fallback qui ne casse jamais
- 1Ordonnez vos providersListez vos providers de secours dans l’ordre de préférence pour chaque route.
- 2Réglez les conditionsChoisissez les codes d’erreur, timeouts et le nombre de retries qui déclenchent une bascule.
- 3Laissez Latenza gérerEn cas d’incident, la requête est re-routée automatiquement, sans intervention.
Le client ne change pas. Latenza réessaie et bascule selon vos conditions avant de répondre.
{
"route": "/api/chat",
"primary": { "provider": "openai", "model": "gpt-4o" },
"fallbacks": [
{ "provider": "anthropic", "model": "claude-3-5-sonnet" },
{ "provider": "mistral", "model": "mistral-large" }
],
"retry": { "max": 2, "on": [429, 500, 503, "timeout"] }
}Explorez les autres fonctionnalités
Routing multi-provider
Définissez des règles par coût, latence ou contexte. Latenza évalue chaque appel en temps réel et sélectionne le provider optimal — sans changer une ligne dans votre code applicatif.
Caching sémantique
Latenza détecte les requêtes sémantiquement similaires et renvoie une réponse cachée instantanément. Réduction des coûts mesurable dès les premiers jours, sans dégrader la qualité.
Observabilité
Latence p50/p95/p99, tokens consommés, coût par requête — découpés par assistant, feature ou équipe. Alertes de dérive budgétaire en temps réel. Fini les mauvaises surprises en fin de mois.
Rate limiting
Quota par clé API, par organisation ou par modèle. Protégez votre budget, évitez les abus et garantissez un service équitable entre vos équipes — le tout configuré en quelques clics.