Documentación

FAQ: ¿Cómo debería usar max_tokens? en la documentación de NexoRouter.

FAQ: ¿Cómo debería usar max_tokens?

max_tokens limita el tamaño de la respuesta del modelo. No reduce los tokens que ya están en tu prompt.

Cuándo configurarlo

SituaciónRecomendación
Primera prueba de setupUsa un valor pequeño como 64 o 128.
Control de costoUsa un límite acorde a la longitud esperada de respuesta.
Generación largaAumenta gradualmente y revisa Usage Logs.
Loops de agentes o herramientasMantén un límite para evitar salidas repetidas costosas.

Qué no soluciona

  • No hace que un prompt demasiado grande quepa.
  • No cambia la capacidad de contexto del modelo elegido.
  • No reduce el costo de tokens de entrada.
  • No arregla request_too_large si el input ya es demasiado grande.

Si la salida se corta

  1. Aumenta max_tokens moderadamente.
  2. Pide al modelo un formato más corto.
  3. Divide la tarea en secciones.
  4. Revisa Usage Logs para completion tokens y costo.

Relacionado

FAQ: ¿Cómo debería usar max_tokens? — NexoRouter