AI Terms

Un minorista entrena un modelo de pronóstico de demanda durante seis meses. Los científicos de datos lo validan. La dirección lo aprueba. El modelo está listo. Luego entra en producción y tiene que responder miles de consultas por día, cada una en menos de 200 milisegundos, durante meses o años. Eso es inferencia: el proceso en vivo y continuo de ejecutar un modelo entrenado sobre datos reales para generar resultados reales.

El entrenamiento acapara la mayor parte de la atención en la cobertura de AI. La inferencia es donde reside realmente el valor empresarial.

Entrenamiento vs. Inferencia: la distinción fundamental

Entender la inferencia requiere entender lo que no es. El entrenamiento es el proceso de enseñarle a un modelo exponiéndolo a grandes cantidades de datos y ajustando sus parámetros hasta que produzca resultados precisos. El entrenamiento es computacionalmente intensivo, costoso y se realiza con relativa poca frecuencia.

La inferencia es lo opuesto en los tres aspectos. Es el proceso de tomar un modelo cuyos parámetros ya están fijados y ejecutarlo sobre nuevas entradas para generar predicciones. La inferencia ocurre cuando:

Un cliente escribe una pregunta en un chatbot y obtiene una respuesta
Un sistema de detección de fraude evalúa una transacción en tiempo real
Un pipeline de procesamiento de documentos extrae datos de una factura cargada
Un motor de recomendaciones decide qué mostrarle a un usuario a continuación

El entrenamiento ocurre una vez (o periódicamente). La inferencia ocurre de forma continua, al volumen que demande el sistema de producción. Para la mayoría de las empresas, la inferencia es donde proviene casi todo el costo de cómputo de la IA en producción.

Cómo funciona la inferencia

Durante la inferencia, el modelo entrenado recibe una entrada, ya sea texto, una imagen, datos estructurados o audio, y la ejecuta a través de sus parámetros aprendidos para producir una salida. Para un large language model, esto significa que la entrada se convierte en tokens, el modelo procesa esos tokens a través de su arquitectura transformer usando sus mecanismos de atención aprendidos, y los tokens de salida se generan secuencialmente hasta que la respuesta está completa.

Los parámetros del modelo no cambian durante la inferencia. El modelo no está aprendiendo de la consulta; está aplicando lo que ya aprendió a la nueva entrada. Esta distinción importa en la práctica: significa que el mismo modelo puede atender a miles de usuarios simultáneos sin que ninguno afecte a los demás.

El costo de la inferencia proviene del cómputo requerido para procesar entradas a través de un modelo que puede tener miles de millones o cientos de miles de millones de parámetros. Más parámetros generalmente significa más capacidad y más cómputo por llamada de inferencia.

Las dos dimensiones clave del rendimiento

La latencia es cuánto tarda una sola llamada de inferencia de entrada a salida. Los usuarios que esperan una respuesta de un chatbot están experimentando latencia. La AI de imágenes médicas necesita baja latencia cuando un radiólogo espera una lectura. El procesamiento de documentos que ocurre de noche en lotes puede tolerar mayor latencia.

El throughput es cuántas llamadas de inferencia puede manejar un sistema por unidad de tiempo. Un motor de recomendaciones de e-commerce que atiende a millones de compradores necesita alto throughput. Una herramienta de análisis de documentos legales usada por un equipo de 20 analistas tiene requisitos de throughput mucho menores.

Estas dos dimensiones a menudo generan compensaciones entre sí. Agrupar varias solicitudes de inferencia juntas, por ejemplo, aumenta el throughput, ya que el hardware procesa muchas entradas en paralelo, pero aumenta la latencia para cualquier solicitud individual ya que espera a que se llene el lote. El balance correcto depende del caso de uso.

La optimización de inferencia es el campo técnico dedicado a mejorar ambas dimensiones, haciendo que los modelos sean más rápidos y económicos sin sacrificar calidad.

La inferencia en el contexto del stack completo de AI

La inferencia se ubica en la cima del stack de AI. Los modelos de fundación son entrenados una vez por laboratorios de AI usando clústeres de cómputo masivos. Las empresas o bien llaman a estos modelos vía API (en cuyo caso la inferencia corre en la infraestructura del proveedor) o despliegan modelos localmente en su propio hardware o instancias en la nube.

La elección entre inferencia por API y despliegue local implica compromisos: la inferencia por API es más fácil de comenzar, escala automáticamente y mantiene el costo variable con el uso. El despliegue local da más control sobre la privacidad de datos, puede ser más económico a volúmenes muy altos, permite personalización a través de fine-tuning y elimina la dependencia de un proveedor externo.

Las prácticas de MLOps gobiernan cómo se gestiona la inferencia en producción: cómo se versionan y despliegan los modelos, cómo se monitorea el rendimiento, cómo revertir cuando un modelo se comporta inesperadamente y cuándo reentrenar. El monitoreo de modelos es la práctica continua de observar las salidas de inferencia y las métricas de rendimiento para detectar degradación antes de que cause impacto empresarial.

El costo empresarial de la inferencia

Para las organizaciones que utilizan AI a escala, el costo de inferencia es una línea presupuestaria material. Los impulsores de costo incluyen:

El tamaño del modelo. Los modelos más grandes requieren más cómputo por llamada de inferencia. Un modelo de 70 mil millones de parámetros cuesta aproximadamente 10 veces más ejecutar que un modelo de 7 mil millones, aunque las diferencias de calidad pueden justificar el costo para algunos casos de uso.

El volumen de solicitudes. Los costos de inferencia escalan con el uso. Un sistema que maneja 10 millones de llamadas de inferencia diarias cuesta proporcionalmente más ejecutar que uno que maneja 10.000.

El hardware. La inferencia en GPU es más rápida pero más costosa que la inferencia en CPU. Los chips especializados de inferencia (como los TPUs de Google o AWS Inferentia) pueden mejorar la eficiencia de costos para cargas de trabajo específicas.

El tamaño de la ventana de contexto. Para los modelos de lenguaje, las entradas más largas cuestan más procesar porque el costo de inferencia escala con el conteo de tokens. Los sistemas que pasan grandes cantidades de contexto en cada llamada enfrentan costos proporcionalmente más altos.

La cuantización, destilación, caché y agrupamiento son los principales palancas técnicas para reducir el costo de inferencia sin cambiar a un modelo fundamentalmente diferente.

Inferencia en tiempo real vs. Inferencia por lotes

No toda la inferencia ocurre en tiempo real. Muchas aplicaciones de AI valiosas operan en un horario de lotes en lugar de responder a solicitudes en vivo.

La inferencia en tiempo real maneja solicitudes a medida que llegan, con latencia de milisegundos a segundos. Los chatbots, la detección de fraude, la personalización en tiempo real y los asistentes de voz requieren este modo.

La inferencia por lotes procesa grandes conjuntos de datos en un horario, a menudo de noche o bajo demanda. El enriquecimiento de CRM que se ejecuta cada noche para puntuar todos los leads, el procesamiento de documentos que trabaja a través de una cola de archivos cargados, o las cargas de trabajo de análisis que generan reportes semanales, todos encajan en el patrón de lotes. La inferencia por lotes es generalmente más económica por llamada de inferencia porque puede aprovechar estrategias de agrupamiento eficientes sin la restricción de los requisitos de latencia orientados al usuario.

La elección entre modos es una decisión de producto y arquitectura, no puramente técnica. Muchos casos de uso que inicialmente parecen requerir inferencia en tiempo real pueden rediseñarse como casi-en-tiempo-real o por lotes sin una pérdida significativa de valor empresarial, a un costo significativamente menor.

Lo que los líderes empresariales necesitan entender

Los términos de AI que reciben más atención, datos de entrenamiento, arquitectura del modelo, puntuaciones de benchmark, todos se relacionan con el potencial de un modelo. La inferencia es donde ese potencial se traduce en resultados empresariales o no lo hace.

Los líderes que toman decisiones de inversión en AI necesitan pensar en la economía de la inferencia desde el principio. Un modelo que funciona brillantemente en pruebas pero cuesta 10 veces el presupuesto proyectado para ejecutar en producción no es un éxito. Un modelo con precisión ligeramente menor pero latencia de inferencia que mantiene a los usuarios comprometidos puede entregar más valor.

Al evaluar proveedores de AI o opciones de construcción, pregunte sobre el costo de inferencia por llamada, la latencia al volumen de producción, cómo los costos de inferencia escalan con el uso y cuál es el enfoque del proveedor para la optimización de inferencia. Esos son los números que determinan si los casos de uso de AI son económicamente sostenibles.

Conceptos de AI relacionados

Optimización de Inferencia - Técnicas para hacer la inferencia más rápida y económica
MLOps - Gestionar el despliegue de modelos y los pipelines de inferencia
AI en el Edge - Ejecutar inferencia en hardware local en lugar de la nube
Monitoreo de Modelos - Rastrear el rendimiento de la inferencia a lo largo del tiempo
Ventana de Contexto - Impulsor clave del costo de inferencia para modelos de lenguaje
Arquitectura Transformer - Cómo la mayoría de los modelos modernos computan la inferencia
Cuantización - Reducir el tamaño del modelo para bajar el costo de inferencia

Recursos externos

NVIDIA Inference Platform - Infraestructura estándar de la industria para inferencia de modelos a gran escala
Hugging Face Inference Endpoints - Guía para el serving de modelos en producción y los compromisos de inferencia
Google AI Inference Best Practices - Guía práctica para la arquitectura y optimización de inferencia

Preguntas frecuentes

Victor Hoang

Co-Founder & CMO, Rework