Puede empezar con su problema de negocio y encontrar el patrón que lo resuelve. Esa es la ruta basada en el problema, cubierta en Elegir el Patrón de AI Correcto para su Problema.

O puede empezar con sus datos y encontrar qué es desplegable desde donde está realmente. Esa es la ruta basada en datos. Y a menudo es más honesta, porque los patrones que lucen emocionantes en las Demos de proveedores no siempre son los que sus datos actuales pueden soportar.

Este artículo es la ruta basada en datos. Si sabe qué tipos de datos tiene (y con qué calidad), puede reducir el campo rápidamente. Algunos patrones serán desplegables de inmediato. Otros requerirán trabajo de datos primero. Unos pocos estarán fuera de alcance hasta que resuelva problemas de prerrequisitos específicos. Para la taxonomía completa de tipos de datos antes de comenzar, los 7 tipos de datos que impulsan el AI empresarial es el punto de partida correcto.

La matriz de referencia

Compatibilidad Fuerte significa que el patrón usa este tipo de dato como entrada principal y está diseñado en torno a él. Compatibilidad Débil significa que el patrón puede usar este tipo pero es secundario o situacional. Imposible significa que el patrón no puede consumir este tipo de dato de manera significativa.

Tipo de Dato	RAG Asst	Score+Route	Vision Extract	Meeting Intel	Anomaly Agent	Gen Research	Doc Review	Workflow Copilot	Personalization	Autonomous Agent
Texto	Fuerte	Débil	Débil	Débil	Débil	Fuerte	Fuerte	Fuerte	Débil	Fuerte
Estructurado	Débil	Fuerte	Débil	Débil	Fuerte	Débil	Débil	Débil	Fuerte	Fuerte
Imagen	Imposible	Imposible	Fuerte	Imposible	Débil	Imposible	Débil	Imposible	Débil	Débil
Audio	Imposible	Imposible	Imposible	Fuerte	Imposible	Imposible	Imposible	Imposible	Imposible	Débil
Video	Imposible	Imposible	Imposible	Fuerte	Imposible	Imposible	Imposible	Imposible	Imposible	Débil
Código	Débil	Imposible	Imposible	Imposible	Débil	Débil	Fuerte	Fuerte	Imposible	Fuerte
Series de tiempo	Imposible	Fuerte	Imposible	Imposible	Fuerte	Imposible	Imposible	Imposible	Fuerte	Débil

Lea esto como un filtro de primera pasada. Si sus datos principales disponibles son grabaciones de audio, está mirando Meeting Intelligence. Si son registros de CRM estructurados con etiquetas de resultados, Scoring and Routing y Anomaly Agent son sus opciones más desplegables. Tener el tipo de dato es necesario pero no suficiente. La calidad y accesibilidad de esos datos determinan si el patrón realmente funciona. La investigación de Gartner sobre los elementos esenciales de datos listos para AI hace esta distinción clara: los datos de "alta calidad" por los estándares tradicionales no son lo mismo que datos listos para AI, porque el entrenamiento de AI requiere datos representativos, incluyendo casos extremos que la limpieza de datos tradicional elimina. Gartner predice que hasta 2026, las organizaciones abandonarán el 60% de los proyectos de AI debido a una preparación de datos inadecuada.

Key Facts: Datos Empresariales y Preparación para AI

El 80-90% de los datos empresariales no están estructurados, mientras que solo el 10-20% está estructurado, según Gartner. La mayoría de las empresas sobrestiman enormemente cuántos datos estructurados listos para AI tienen realmente.

Solo el 10% de las empresas se siente completamente preparada para adoptar AI, y el 54% admite que no tiene la infraestructura de bases de datos necesaria en su lugar. (Typedef AI Unstructured Data Report, 2025)

Gartner predice que hasta 2026, las organizaciones abandonarán el 60% de los proyectos de AI debido a una preparación de datos inadecuada, no a limitaciones del modelo.

Datos de texto

El texto es la entrada más versátil. Cuatro patrones lo usan como su tipo de dato principal.

RAG Assistant vive completamente en texto. Ingiere su base de conocimiento (políticas, SOPs, documentación de producto, tickets pasados), recupera documentos relevantes y genera respuestas. Para que RAG funcione, su texto debe ser localizable (indexado, no disperso en unidades de red), reciente (los documentos desactualizados producen respuestas incorrectas con confianza) y no contradictorio (dos documentos que dicen cosas opuestas producirán salidas inconsistentes). El patrón tolera bien la prosa desordenada pero falla con documentos fuente contradictorios.

Generative Research consume texto de múltiples fuentes (web, documentos internos, bases de datos propietarias) y lo sintetiza. El requisito de calidad aquí es diferente al de RAG: necesita amplitud más que estructura. El patrón puede manejar fuentes heterogéneas. Lo que necesita es acceso a esas fuentes, ya sea mediante API, scraping o carga directa de documentos.

Document Review requiere texto estructurado, no texto conversacional. Un NDA o un MSA tiene secciones consistentes y patrones de cláusulas conocidos. Generative Research puede trabajar con una entrada de blog. Document Review necesita documentos que sigan plantillas o estándares. Aliméntelo con correos electrónicos de forma libre y su marcado se convierte en ruido.

Workflow Copilot usa el texto que esté en el contexto actual del usuario: el correo electrónico que está redactando, el ticket que está resolviendo, las notas del CRM sobre la cuenta que tiene abierta. El requisito de calidad es la frescura contextual, no el volumen histórico. El copiloto necesita acceso en tiempo real al texto del estado actual, no un archivo histórico.

Datos estructurados

Los datos estructurados son números, categorías, fechas y registros consistentes con un esquema. Tres patrones dependen de ellos más directamente.

"Las empresas que intentan desplegar modelos de Scoring and Routing en conjuntos de datos de CRM con menos del 80% de completitud de campo en las etiquetas de resultados producen modelos que funcionan como ruido en lugar de señal. Los leads con puntuación alta cierran a la misma tasa que los leads con puntuación baja. El problema no es el modelo. Es la entrada." (Rework Data Readiness Analysis, 2026)

Scoring and Routing necesita datos estructurados con tres propiedades: volumen suficiente (típicamente 1.000+ registros históricos), etiquetas de resultados (negocios marcados como ganados/perdidos, leads marcados como convertidos/no, reclamaciones marcadas como fraudulentas/legítimas) y completitud de campos (si el 40% de los registros tienen valores nulos para características clave, el modelo aprende de una señal incompleta). Este es el patrón más directamente bloqueado por una higiene incompleta del CRM. Un conjunto de datos estructurado y limpio con resultados etiquetados es uno de los activos de AI más valiosos que una empresa puede tener. La descripción de Wikipedia sobre datos estructurados proporciona la distinción fundamental útil aquí: los datos estructurados se conforman a un esquema predefinido, mientras que aproximadamente el 90% de los datos empresariales no están estructurados. La mayoría de las empresas tienen mucho más de los últimos y mucho menos de los primeros de lo que asumen cuando planifican proyectos de AI.

Anomaly Agent necesita datos estructurados con una referencia estable. Métricas de series de tiempo, registros transaccionales, logs de eventos. El modelo aprende cómo luce lo "normal" y marca las desviaciones. Requisitos de calidad: los datos de referencia deben estar limpios (las anomalías en el período de entrenamiento confunden al modelo), consistentes (los mismos campos, el mismo esquema, a lo largo del tiempo) y suficientemente largos (mínimo 60 días, un año completo para negocios estacionales).

Personalization Engine usa datos de comportamiento estructurados: qué hizo clic un usuario, qué compró, cuánto tiempo permaneció en una página, qué calificó. El patrón funciona mejor cuando los eventos de comportamiento se rastrean de manera consistente, cada evento tiene un identificador de usuario y hay suficiente volumen por usuario para construir un perfil individual. Los productos con poco tráfico o B2B con pocos usuarios a menudo no pueden desplegar este patrón de manera efectiva porque no hay suficiente comportamiento por usuario para personalizar.

Datos de imagen

La imagen es el tipo de dato más restringido. Un patrón está construido alrededor de ella. Algunos otros la tocan situacionalmente.

Vision Extract es el patrón canónico de imagen. Ingiere imágenes o documentos escaneados, extrae campos estructurados y envía registros a un sistema de registro. Los requisitos de calidad aquí son específicos e irrenunciables: la resolución de la imagen debe ser lo suficientemente alta como para leer el texto claramente, las variantes de documentos deben estar representadas en los datos de entrenamiento (una factura del Proveedor A luce diferente a la del Proveedor B) y los campos objetivo deben ser suficientemente consistentes como para que el modelo pueda localizarlos de manera confiable. Vea Vision Extract: Convirtiendo Imágenes en Datos Estructurados para estándares detallados de calidad.

Personalization Engine puede usar imágenes de productos como señales para recomendaciones (si vio esta zapatilla azul, aquí hay estilos similares). Pero esto es más una funcionalidad que una capacidad independiente. La mayoría de los despliegues de Personalization Engines en el mercado medio usan datos de comportamiento estructurados, no señales de imagen sin procesar.

Anomaly Agent puede marcar anomalías visuales (un estante de productos con un espacio, una pieza de fabricación con un defecto) en despliegues especializados. Pero esto requiere un Pipeline de visión por computadora dedicado, no un despliegue estándar de AI empresarial.

Datos de audio

El audio es casi de propósito único en el AI empresarial.

Meeting Intelligence es el patrón de audio. Ingiere grabaciones de audio de llamadas y reuniones, las transcribe, extrae temas y tareas pendientes, genera resúmenes y envía datos estructurados al CRM. Los requisitos de calidad son prácticos: la grabación de llamadas debe estar habilitada (lo que requiere el consentimiento de los participantes en muchas jurisdicciones), la calidad del audio debe ser suficiente para la transcripción (las malas conexiones móviles producen transcripciones deficientes, que se propagan a través de cada paso posterior) y la diarización de oradores (saber a qué voz pertenece qué persona) importa para la atribución.

La distinción importante: los archivos de audio y las transcripciones de audio son cosas diferentes. Un despliegue de Meeting Intelligence que ingiere audio sin procesar está ejecutando un Pipeline más complejo que uno que ingiere texto pre-transcrito. Muchos equipos omiten la ingesta de audio sin procesar y usan servicios de transcripción (Otter.ai, transcripción de Zoom, transcripción de Teams) como un paso previo, luego alimentan la transcripción en la capa de análisis. Esa es una arquitectura válida y a menudo más rentable.

Autonomous Agent puede en principio consumir audio (un agente con interfaz de voz), pero esto es raro en los despliegues empresariales estándar. La mayoría del trabajo de agente autónomo funciona con entradas de texto o datos estructurados.

Datos de video

El video es el tipo de dato con mayor sobrecarga de procesamiento y es principalmente relevante como un superconjunto de audio.

Meeting Intelligence maneja las videollamadas. El componente de video añade información visual (¿está asintiendo el prospecto? ¿la cámara está apagada?) pero la mayoría de las herramientas de Meeting Intelligence desplegadas analizan la pista de audio y la transcripción, no el flujo de video. Las características específicas de video (señales de compromiso, señales visuales) están presentes en productos como Gong pero son secundarias al análisis del contenido de la llamada. Si está eligiendo entre grabación de audio y grabación de video para Meeting Intelligence, el audio es suficiente para la mayoría de los casos de uso.

La sobrecarga importa: los archivos de video son 10-100 veces más grandes que los archivos de audio para la misma duración. Almacenar, procesar e indexar video a escala requiere significativamente más infraestructura que los Pipelines solo de audio. La mayoría de los equipos que implementan Meeting Intelligence por primera vez deberían comenzar con audio.

Autonomous Agent en contextos de navegación visual (un agente de control de navegador que necesita ver una pantalla) usa video o capturas de pantalla como entradas. Este es un patrón de despliegue especializado, no un flujo de trabajo de AI empresarial estándar.

Datos de código

El código es texto, pero no es prosa. Los patrones que trabajan con código lo tratan de manera diferente.

Workflow Copilot es el patrón canónico de código. GitHub Copilot, Cursor y herramientas similares son Workflow Copilots especializados para un contexto de codificación. Ingieren el archivo abierto en el editor, el contexto del repositorio y las ediciones en progreso del usuario, y generan sugerencias de completado, refactorizaciones y nuevas funciones. Requisitos de calidad: el código debe ser accesible para la herramienta (repositorio local, integración con IDE) y la ventana de contexto importa más que con los copilotos de prosa porque las dependencias de código abarcan archivos.

Document Review se aplica al código en contextos de cumplimiento o seguridad. Una auditoría de seguridad que revisa código para vulnerabilidades OWASP, o una revisión legal que verifica que una integración de API no viola los términos de un proveedor, es un flujo de trabajo de Document Review aplicado al código como documento. Las herramientas estándar de revisión de documentos no soportan esto. Necesita herramientas creadas específicamente para el análisis de código.

Autonomous Agent en el extremo de codificación del espectro (agentes que leen issues, escriben código, ejecutan pruebas y abren pull requests) trata el código tanto como entrada como salida. El agente Ingiere un issue de GitHub (texto + contexto de código), Analiza el alcance, Genera una corrección y Ejecuta el commit y la ejecución de pruebas. Esta es una de las aplicaciones de agente autónomo más maduras en 2026.

Datos de series de tiempo

Los datos de series de tiempo son cualquier medición indexada al tiempo: métricas, lecturas de sensores, logs de transacciones, eventos de uso. Tres patrones los usan.

Anomaly Agent es el patrón principal de series de tiempo. Está construido para aprender cómo luce una serie de tiempo estable y marcar las desviaciones. La frescura y la consistencia son los dos requisitos de calidad que más importan. Una secuencia de métricas que cambia la instrumentación a mitad del período crea falsas anomalías en el cambio de instrumentación. Los puntos de datos faltantes (huecos en la secuencia) crean falsos negativos. El modelo trata el hueco como normal, por lo que las anomalías que ocurren durante un hueco pasan desapercibidas.

Scoring + Routing puede incorporar características de series de tiempo (¿cuántos tickets de soporte en los últimos 30 días? ¿cómo ha evolucionado el NPS en los últimos cuatro trimestres?) como entradas a un modelo de puntuación. Pero necesita que esas series de tiempo sean resumidas en características estructuradas primero. La serie de tiempo sin procesar debe ser pre-procesada (agregada, con ventana, resumida) antes de ser útil como entrada de puntuación.

Personalization Engine usa series de tiempo implícitamente. El historial de navegación de un usuario a lo largo del tiempo, su frecuencia de compra, sus patrones estacionales: estas son señales de comportamiento de series de tiempo. El patrón funciona mejor cuando puede ver tendencias de comportamiento, no solo una instantánea en un punto del tiempo.

Combinaciones multi-modales

Algunos de los despliegues más capaces combinan tipos de datos.

Meeting Intelligence + datos estructurados del CRM: Saber qué se dijo en una llamada (audio) es más poderoso cuando se combina con lo que dice el CRM sobre la cuenta (estructurado). Un resumen de llamada que muestra "el prospecto mencionó una preocupación por los precios" es más útil cuando el sistema también puede mostrar "esta cuenta ha estado en etapa de riesgo durante 30 días." La combinación permite que el paso de Generate produzca un contexto más enriquecido.

Personalization Engine + contenido de texto: Los datos de comportamiento estructurados (qué hizo clic un usuario) combinados con metadatos de texto (de qué tema trataba ese contenido) permite al motor personalizar a nivel de contenido, no solo a nivel de elemento. En lugar de "usuarios como usted compraron este producto", obtiene "los usuarios con su patrón de lectura tienden a preocuparse más por el cumplimiento que por los precios."

Vision Extract + plantillas de sistema de registro estructurado: Saber cómo luce una factura en su modelo de extracción funciona mejor cuando el modelo también puede consultar su maestro de proveedores para verificar el nombre del proveedor que extrajo. La base de datos estructurada valida la salida de extracción de imagen.

Las combinaciones multi-modales amplían lo que es posible pero multiplican los requisitos de preparación de datos. Necesita el acceso, la calidad y los permisos para cada tipo de dato que está combinando.

La Matriz Dato-Patrón

La Matriz Dato-Patrón es una herramienta de decisión que mapea siete tipos de datos empresariales (texto, estructurado, imagen, audio, video, código, series de tiempo) a diez patrones de AI a través de tres calificaciones de compatibilidad: Compatibilidad Fuerte (el patrón usa este tipo de dato como entrada principal), Compatibilidad Débil (uso secundario o situacional) e Imposible (el patrón no puede consumir este tipo de dato de manera significativa). La matriz funciona como un filtro de primera pasada: si sus mejores datos disponibles no aparecen como entrada de Compatibilidad Fuerte para el patrón que está planeando, su despliegue tendrá bajo rendimiento independientemente de la calidad del modelo.

Rework Analysis: Basado en el hallazgo de Gartner de que el 80-90% de los datos empresariales no están estructurados y que el 60% de los proyectos de AI que carecen de datos listos para AI se abandonan, la Matriz Dato-Patrón aborda el error de planificación de AI más común: seleccionar un patrón basándose en su capacidad de salida en lugar de sus requisitos de entrada. En la experiencia de implementación de Rework, los equipos que ejecutan la matriz contra sus datos disponibles reales antes de comprometerse con un patrón reducen su tiempo hasta obtener valor en un promedio de 8 semanas, porque evitan el descubrimiento durante la integración de que su tipo de dato principal no soporta el patrón elegido.

La ruta rápida de preparación de datos

Si está buscando el patrón más rápidamente desplegable de cada tipo de dato:

Si sus mejores datos son...	Empiece con...	Porque...
Documentos de texto limpios (políticas, SOPs, contenido de producto)	RAG Assistant	Baja sobrecarga de preparación de datos; alto valor inmediato para los trabajadores del conocimiento
Registros del CRM con 12+ meses de resultados etiquetados	Scoring + Routing	ROI claro en priorización de leads; el modelo se entrena con datos que ya tiene
Facturas, recibos o formularios escaneados	Vision Extract	La salida estructurada es útil de inmediato; el ROI es medible en tiempo de procesamiento
Grabaciones de llamadas de ventas o soporte	Meeting Intelligence	La transcripción es confiable; la integración con el CRM ofrece valor desde el primer día
Logs de transacciones o flujos de métricas con 90+ días de historial	Anomaly Agent	La referencia está establecida; el marcado puede comenzar casi de inmediato
Documentos web y de múltiples fuentes internas	Generative Research	No se necesitan datos estructurados; la calidad de la investigación mejora de inmediato
Repositorios de código con backlogs de issues abiertos	Workflow Copilot	Las herramientas para desarrolladores son maduras; la adopción es alta cuando se integra en el IDE

Estos son puntos de partida, no arquitecturas finales. El patrón que se despliega más rápido no siempre es el que tiene el mayor ROI a largo plazo. Pero empezar con sus datos más sólidos genera confianza organizacional, produce resultados medibles y crea los resultados etiquetados que necesitará para patrones más complejos más adelante.

Lo que esta matriz no le dice

Tener un tipo de dato no significa que esté listo para desplegar el patrón correspondiente. Verificación de Preparación de Datos por Patrón de AI profundiza en los umbrales de calidad específicos que necesita cada patrón. Por ejemplo, los datos estructurados del CRM son necesarios para Scoring + Routing, pero los datos estructurados que tienen solo el 60% de completitud en el campo de resultados no están listos.

La matriz tampoco aborda las dependencias entre patrones. Meeting Intelligence es desplegable desde datos de audio, pero si quiere que su salida alimente a Scoring + Routing, también necesita la capa estructurada funcionando. Dependencias y Prerrequisitos de Patrones cubre cómo los patrones se construyen unos sobre otros.

Y si es nuevo en ¿Qué es un Patrón de AI?, ese es el punto de partida correcto antes de usar esta matriz como herramienta de selección.

Los datos son la base. La matriz le dice qué puertas están abiertas desde donde está. Las verificaciones de preparación le dicen si realmente puede atravesarlas.

Preguntas Frecuentes

¿Cuál es el error más común en la selección de patrones de AI?

Seleccionar un patrón basándose en su salida prometida en lugar de sus entradas requeridas. Un modelo de Scoring and Routing necesita datos estructurados del CRM con resultados históricos etiquetados. Un Anomaly Agent necesita 60-90 días de datos de series de tiempo de referencia. Un RAG Assistant necesita una base de conocimiento mantenida y actualizada. Empezar con los datos que tiene en lugar de la salida que quiere es el camino más confiable hacia un primer patrón desplegable.

¿Qué patrones de AI pueden desplegarse sin datos de entrenamiento históricos?

RAG Assistant, Generative Research, Document Review y Workflow Copilot pueden todos desplegarse sin datos de entrenamiento históricos porque usan modelos de lenguaje pre-entrenados en lugar de modelos entrenados en su historial de resultados específico. Vision Extract requiere ejemplos de entrenamiento para sus tipos de documentos específicos pero no etiquetas de resultados. Scoring, Routing, Anomaly Agent y Personalization Engine requieren todos datos históricos específicos de su entorno.

¿Qué porcentaje de los datos empresariales están realmente estructurados?

Gartner estima que entre el 80-90% de los datos empresariales no están estructurados, lo que significa que solo el 10-20% está estructurado. Esta brecha es la razón por la que la mayoría de las empresas tienen mucho menos datos listos para AI de lo que asumen cuando planifican su primer despliegue. Los patrones más dependientes de datos estructurados (Scoring and Routing, Anomaly Agent, Personalization Engine) son también los que los equipos más a menudo planean desplegar primero, antes de confirmar que los datos estructurados realmente existen y tienen calidad suficiente.

¿Puede Meeting Intelligence funcionar con texto pre-transcrito en lugar de audio sin procesar?

Sí. Muchos despliegues usan servicios de transcripción (Zoom, Teams, Otter.ai) como paso previo, luego alimentan la transcripción en la capa de análisis. Esa es una arquitectura válida y a menudo más rentable. La diferencia de calidad entre los Pipelines de audio sin procesar y los pre-transcritos es modesta para la mayoría de los casos de uso. La compensación principal es que los Pipelines pre-transcritos dependen de la calidad del servicio de transcripción, mientras que los Pipelines de audio sin procesar le dan más control sobre la calidad de la transcripción.

¿Qué tipo de dato tiene la mayor compatibilidad de patrones?

El texto y los datos estructurados tienen cada uno la compatibilidad de patrones más amplia. El texto es la entrada principal para RAG Assistant, Generative Research, Document Review y Workflow Copilot, con uso secundario en varios otros. Los datos estructurados son la entrada principal para Scoring and Routing, Anomaly Agent y Personalization Engine. La mayoría de los portfolios de AI empresarial terminan combinando ambos, razón por la que las combinaciones de texto más estructurado producen los conjuntos de patrones más ricos posibles.

Aprenda más

About the author

Victor Hoang

Co-Founder, Rework.com

Victor Hoang is Co-Founder and CMO of Rework. He spent 12+ years scaling B2B SaaS growth, building a lead engine that generated over 1 million leads and $10M+ in annual recurring revenue. Today he builds AI agents and MCP servers into Rework's products to empower customers across growth and operations. He writes about what actually works.

View full profile LinkedIn