Documentación

FAQ: ¿Cuánta concurrencia soporta la API? en la documentación de NexoRouter.

FAQ: ¿Cuánta concurrencia soporta la API?

La concurrencia depende de request rate, token rate, latencia del modelo, disponibilidad upstream y timeout del cliente. Un request exitoso no demuestra que la concurrencia de producción sea segura.

Defaults públicos actuales

LímiteDefault
Requests por minuto120
Tokens estimados por minuto120000

La configuración del despliegue puede cambiar estos valores. Para planificación de producción, ejecuta tu propia prueba de carga y contacta soporte con RPM, TPM, model IDs y requisitos de latencia.

Cómo probar con seguridad

  1. Empieza con una API key y un modelo.
  2. Sube el ritmo gradualmente.
  3. Observa rate_limit_exceeded, token_rate_limit_exceeded, timeouts y coste.
  4. Usa prompts representativos del tamaño real de tokens.
  5. Revisa Usage Logs para estado y distribución de latencia.

Páginas relacionadas

FAQ: ¿Cuánta concurrencia soporta la API? — NexoRouter