FAQ: ¿Cuánta concurrencia soporta la API?

La concurrencia depende de request rate, token rate, latencia del modelo, disponibilidad upstream y timeout del cliente. Un request exitoso no demuestra que la concurrencia de producción sea segura.

Defaults públicos actuales

Límite	Default
Requests por minuto	`120`
Tokens estimados por minuto	`120000`

La configuración del despliegue puede cambiar estos valores. Para planificación de producción, ejecuta tu propia prueba de carga y contacta soporte con RPM, TPM, model IDs y requisitos de latencia.

Cómo probar con seguridad

Empieza con una API key y un modelo.
Sube el ritmo gradualmente.
Observa rate_limit_exceeded, token_rate_limit_exceeded, timeouts y coste.
Usa prompts representativos del tamaño real de tokens.
Revisa Usage Logs para estado y distribución de latencia.

Páginas relacionadas

Rate limits
Timeouts