Documentación
FAQ: ¿Cuánta concurrencia soporta la API? en la documentación de NexoRouter.
FAQ: ¿Cuánta concurrencia soporta la API?
La concurrencia depende de request rate, token rate, latencia del modelo, disponibilidad upstream y timeout del cliente. Un request exitoso no demuestra que la concurrencia de producción sea segura.
Defaults públicos actuales
| Límite | Default |
|---|---|
| Requests por minuto | 120 |
| Tokens estimados por minuto | 120000 |
La configuración del despliegue puede cambiar estos valores. Para planificación de producción, ejecuta tu propia prueba de carga y contacta soporte con RPM, TPM, model IDs y requisitos de latencia.
Cómo probar con seguridad
- Empieza con una API key y un modelo.
- Sube el ritmo gradualmente.
- Observa
rate_limit_exceeded,token_rate_limit_exceeded, timeouts y coste. - Usa prompts representativos del tamaño real de tokens.
- Revisa Usage Logs para estado y distribución de latencia.