Qué cree la gente que es un agente y qué son en realidad.

dic 15, 2024

El objetivo de este artículo es profundizar en cada concepto, explicar su función dentro del ecosistema de agentes de IA, y finalmente ofrecer una organización coherente que ayude a entender cómo todos estos componentes se relacionan entre sí. Conforme a la instrucción solicitada, este será un texto muy extenso por su complejidad.

Este artículo está extraído de una publicación de Rakesh Gohel que me ha dado la claridad suficiente para tratarlo de forma profunda.

Lado izquierdo de la imagen (lo que la gente piensa que son los agentes de IA):

Agentic RAG
Cursor
Agent GPT
Jasper
Amazon Q
Copilot
Agentforce
01 Model
Computer Use

Lado derecho (Lo que realmente son los agentes de IA):

Long term Memory (Memoria a largo plazo)
Episodic Memory (Memoria episódica)
Short term Memory (Memoria a corto plazo)
Vector Search (Búsqueda vectorial)
Information Retrieval (Recuperación de información)
Knowledge Base Retrieval (Recuperación de bases de conocimiento)
Ethics and responsible AI (Ética e IA responsable)
Regulatory and Compliance (Cumplimiento normativo y regulaciones)
Agentic Evaluation (Evaluación agéntica)
Real-time Feedback Loop (Bucle de retroalimentación en tiempo real)
Interoperability (Interoperabilidad)
Tool Integration (Integración de herramientas)
Response Generation (Generación de respuestas)
Entity Linking (Vinculación de entidades)
Semantic Matching (Emparejamiento semántico)
Contextual Re-ranking (Re-ordenamiento contextual)
UI Integration (Integración con interfaces de usuario)
Cross-platform Connectivity (Conectividad multiplataforma)
NLP (Procesamiento del Lenguaje Natural)
Self Improvement (Mejora continua/automejora)
Safety and Control (Seguridad y control)
Task Automation (Automatización de tareas)
Dynamic Task Allocation (Asignación dinámica de tareas)
Goal Oriented Planning (Planificación orientada a objetivos)
Hierarchical Task Management (Gestión jerárquica de tareas)
Dataset Refinement (Refinamiento de conjuntos de datos)
Vision Agents (Agentes de visión)
Collaborative Agents (Agentes colaborativos)
Multi-Agents (Multiagentes)
Dynamic Query Processing (Procesamiento dinámico de consultas)
Content Management (Gestión de contenido)
Adaptive Tuning (Ajuste adaptativo)
Autonomous Agents (Agentes autónomos)
Workflow Optimization (Optimización del flujo de trabajo)
Precision Task Execution (Ejecución precisa de tareas)
Data Annotation (Anotación de datos)
Human in Loop (Humano en el ciclo)
Semantic Matching (listado de nuevo, ya mencionado arriba, posiblemente como un enlace a las capacidades de re-ranking)
Graph-based Retrieval (Recuperación basada en grafos)
Agentic Orchestration (Orquestación agéntica)

Se asume que las burbujas azules y negras representan diferentes categorías o subcapacidades.

Explicación de los elementos del lado izquierdo (lo que la gente cree que son los agentes de IA)

Estos elementos en la parte izquierda representan la visión superficial y de “marca” que muchas personas tienen sobre los agentes de IA. Es decir, se centran en nombres comerciales, herramientas específicas o soluciones puntuales que se describen a sí mismas como "agentes de IA", pero que en realidad suelen ser interfaces a modelos lingüísticos, chatbots inteligentes o plataformas con ciertas capacidades limitadas. A continuación se describen:

Agentic RAG:
Probablemente hace referencia a una herramienta o concepto de "Retrieval Augmented Generation" (RAG) aplicado en un agente. La gente suele pensar que un "agente de IA" es simplemente un modelo RAG envuelto con cierta lógica para responder preguntas.
Cursor:
Cursor es una herramienta de desarrollo asistido por IA (un editor de código inteligente basado en IA). La gente podría pensar que esto ya es un "agente de IA" completo, cuando en realidad es solo una aplicación especializada.
Agent GPT:
"Agent GPT" es un experimento o plataforma basada en modelos GPT que generan cadenas de pensamiento y acciones. La gente asume que "Agent GPT" es un agente completo, pero a menudo solo se queda en la interacción conversacional con un modelo de lenguaje avanzado.
Jasper:
Jasper es una plataforma comercial de redacción asistida por IA. Aunque ofrece contenido generado por IA, no es un agente de IA integral con todas las capacidades cognitivas y organizativas imaginables. Solo representa la punta del iceberg.
Amazon Q:
Posiblemente se refiera a alguna herramienta interna de Amazon (por ejemplo, “Q” podría ser un asistente interno) o un servicio que la gente asocia con agentes, pero en realidad es solo un sistema especializado.
Copilot:
GitHub Copilot es una herramienta de completado de código y asistente de programación basada en modelos de lenguaje. La gente piensa: “Copilot es un agente de IA”. Sin embargo, Copilot es un modelo especializado en sugerir código, no abarca todo el espectro de capacidades de un agente cognitivo autónomo.
Agentforce:
Una referencia a otra herramienta o plataforma que promete funciones de agente, pero generalmente es más bien un wrapper sobre LLMs con ciertas capacidades de ejecución de tareas limitadas.
01 Model:
Esto parece un nombre simbólico o un tipo de modelo base. La gente podría pensar que un simple modelo (como un LLM) es un “agente de IA” sin más.
Computer Use:
Podría ser una simplificación en la que la gente cree que permitir a un modelo acceder a un ordenador y ejecutar comandos ya lo convierte en un agente autónomo completo.

En resumen, el lado izquierdo se enfoca en la percepción popular: creer que un "agente de IA" es esencialmente un chatbot o una herramienta con una interfaz sofisticada. Estas soluciones suelen ser front-ends a modelos de lenguaje sin la compleja infraestructura cognitiva interna que definen a un verdadero agente de IA.

Explicación de los elementos del lado derecho (lo que realmente son los agentes de IA)

El lado derecho describe la compleja realidad de lo que es un agente de IA completo: un sistema multifacético con capacidades cognitivas, módulos especializados, integración con herramientas, control de seguridad, y muchas otras características que van más allá de meramente generar texto.

A continuación, se explican cada uno de los conceptos del lado derecho, organizándolos en subcategorías lógicas. Esto ayudará a entender cómo se relacionan entre sí y por qué un verdadero agente de IA es mucho más que un simple frontend para un LLM.

Memoria y recuperación de información

Long term Memory (Memoria a largo plazo):
Un agente de IA necesita retener información de forma persistente a lo largo del tiempo, recordar estados pasados, experiencias, conversaciones previas y resultados de tareas. Esto le permite aprender de la historia y no actuar de forma “amnésica” cada vez que se le consulta.
Episodic Memory (Memoria episódica):
La memoria episódica almacena eventos específicos en el tiempo, contextos y experiencias pasadas, similares a los recuerdos humanos de situaciones concretas. Esto permite al agente razonar con contexto histórico, referirse a sucesos pasados con detalles y actualizar su entendimiento de acuerdo a la evolución de sus interacciones.
Short term Memory (Memoria a corto plazo):
La memoria a corto plazo maneja el contexto inmediato, como el último intercambio en una conversación o las variables relevantes del estado actual. Es esencial para mantener coherencia en diálogos y tareas en curso.
Vector Search (Búsqueda vectorial):
Una técnica para recuperar información relevante a partir de embeddings vectoriales, permitiendo a los agentes encontrar y relacionar contenido semánticamente similar, no solo palabras clave. Esto es fundamental para navegar conocimiento no estructurado.
Information Retrieval (Recuperación de información):
Los agentes no solo generan texto: también buscan, filtran y recuperan datos relevantes de múltiples fuentes. Esto puede incluir documentos internos, bases de datos, API externas, la web, etc.
Knowledge Base Retrieval (Recuperación de bases de conocimiento):
Similar a la recuperación de información, pero enfocado en bases de conocimiento estructuradas (tipo wikis internos, sistemas de FAQ, repositorios). Permite al agente acceder a conocimiento autorizado y verificado.
Graph-based Retrieval (Recuperación basada en grafos):
Implica el uso de grafos de conocimiento, donde la información está representada como nodos y relaciones, permitiendo inferencias más complejas y encontrar información relacionada a través de conexiones semánticas.

Ética, cumplimiento y evaluación

Ethics and responsible AI (Ética e IA responsable):
Un agente de IA real debe tener integrados principios éticos, guías de comportamiento y mecanismos para evitar sesgos dañinos, desinformación o acciones no éticas. También debe cumplir con normativas y estándares responsables.
Regulatory and Compliance (Cumplimiento normativo):
Los agentes deben operar respetando las leyes y regulaciones del dominio donde se aplican. Por ejemplo, en el sector salud, deben proteger la información del paciente; en el financiero, cumplir regulaciones KYC, AML, etc.
Safety and Control (Seguridad y control):
Mecanismos para prevenir acciones perjudiciales, fugas de información sensible, violación de políticas internas y externas. Un agente no debería descontrolarse ni cometer actos peligrosos por falta de restricciones o supervisión.
Agentic Evaluation (Evaluación agéntica):
El agente debe ser evaluado en términos de sus capacidades, su desempeño en tareas, su alineamiento con objetivos y su adherencia a normas. Esta evaluación continua permite mejorar sus operaciones y corregir desvíos.

Integración, herramientas y funcionalidades

Real-time Feedback Loop (Bucle de retroalimentación en tiempo real):
Un agente no es un ente estático; recibe retroalimentación de su entorno (del usuario, de las herramientas, de los datos) y ajusta su comportamiento en tiempo real.
Interoperability (Interoperabilidad):
Capacidad de trabajar con múltiples sistemas, herramientas, APIs, plataformas, integrándose en entornos tecnológicos complejos.
Tool Integration (Integración de herramientas):
El agente puede conectarse con herramientas externas: buscadores, calculadoras, bases de datos, sistemas CRM, software de análisis de datos, etc. Esto le permite ejecutar acciones complejas, no solo generar texto.
UI Integration (Integración con interfaces de usuario):
Los agentes no viven en el vacío. Deben presentarse en interfaces web, móviles o de escritorio, interactuar con usuarios a través de interfaces gráficas, chatbots embebidos en páginas, etc.
Cross-platform Connectivity (Conectividad multiplataforma):
Capacidad de funcionar en distintos entornos (web, móvil, escritorio, sistemas embebidos) y comunicarse a través de múltiples medios con usuarios y otras máquinas.

Procesamiento del lenguaje e interacción semántica

NLP (Procesamiento del Lenguaje Natural):
Una capacidad central: comprender, interpretar y generar lenguaje natural, ya sea texto o voz. Esto implica reconocimiento de entidades, análisis semántico, comprensión de preguntas, etc.
Response Generation (Generación de respuestas):
El agente no solo recupera información; produce respuestas contextuales, coherentes y útiles para el usuario. Esto puede incluir explicación, razonamiento y justificación.
Entity Linking (Vinculación de entidades):
Capacidad de identificar entidades en el texto (personas, lugares, objetos, conceptos) y vincularlas a referencias unívocas en una base de conocimiento, lo que aumenta la precisión semántica.
Semantic Matching (Emparejamiento semántico):
Comparación inteligente entre consultas, documentos y contextos, para identificar qué información es más relevante a la intención del usuario, más allá de la coincidencia de palabras clave.
Contextual Re-ranking (Re-ordenamiento contextual):
Después de obtener un conjunto de resultados, el agente los reordena basándose en el contexto, relevancia semántica y calidad, para presentar primero la respuesta más pertinente.

Tareas, automatización y mejora continua

Task Automation (Automatización de tareas):
Un agente de IA debe ser capaz de ejecutar tareas repetitivas o complejas sin intervención humana constante, ya sea extracción de datos, formateo de reportes, envío de correos, etc.
Dynamic Task Allocation (Asignación dinámica de tareas):
La capacidad de distribuir y reasignar tareas entre múltiples subagentes o módulos según las cargas de trabajo, prioridades y disponibilidad de recursos.
Goal Oriented Planning (Planificación orientada a objetivos):
Un agente real no solo responde preguntas; establece metas, define planes para alcanzarlas, descompone el problema en subtareas y elige la mejor estrategia para lograr el objetivo final.
Hierarchical Task Management (Gestión jerárquica de tareas):
El agente maneja tareas a múltiples niveles de abstracción, desde objetivos generales hasta subtareas concretas, organizándolas en una jerarquía lógica y temporal.
Self Improvement (Mejora continua/automejora):
El agente aprende de su experiencia, datos nuevos y retroalimentación externa, mejorando su rendimiento a lo largo del tiempo, optimizando sus estrategias y refinando sus modelos internos.
Workflow Optimization (Optimización del flujo de trabajo):
Capacidad para analizar y mejorar continuamente la secuencia de acciones internas, haciendo más eficiente la resolución de problemas y la ejecución de tareas.
Precision Task Execution (Ejecución precisa de tareas):
El agente no solo debe intentar cumplir objetivos, sino hacerlo con precisión, exactitud y confiabilidad, minimizando errores y desviaciones.

Datos, colaboración y adaptabilidad

Dataset Refinement (Refinamiento de conjuntos de datos):
El agente mejora y cura su propio conjunto de datos, eliminando información obsoleta, corrigiendo errores y estructurando datos para mejorar la calidad de sus entradas y salidas.
Vision Agents (Agentes de visión):
Integración de capacidades de visión por computadora: reconocimiento de imágenes, análisis de video, clasificación de objetos, etc. Esto extiende el campo de acción más allá del texto.
Collaborative Agents (Agentes colaborativos):
Capacidad de trabajar con otros agentes (de IA u operadores humanos), coordinándose, compartiendo conocimiento y distribuyendo tareas especializadas.
Multi-Agents (Multiagentes):
Arquitecturas en las que varios agentes interactúan entre sí, cada uno con roles especializados, para lograr objetivos complejos y emergentes que un solo agente no podría.
Dynamic Query Processing (Procesamiento dinámico de consultas):
Ajuste de cómo el agente procesa consultas en tiempo real, refinando las estrategias de búsqueda, filtrado y presentación de resultados según el contexto cambiante.
Content Management (Gestión de contenido):
Mantenimiento, clasificación, indexación y actualización del contenido disponible. El agente se asegura de que la información que maneja esté actualizada, sea accesible y organizada.
Adaptive Tuning (Ajuste adaptativo):
Ajustar parámetros internos, modelos y heurísticas según el rendimiento y la retroalimentación del entorno, sin intervención humana manual constante.
Autonomous Agents (Agentes autónomos):
Capaces de operar con independencia, sin supervisión continua. Pueden tomar decisiones, iniciar acciones y adaptarse por sí mismos, dentro de los límites establecidos.
Data Annotation (Anotación de datos):
El agente puede ayudar a anotar datos, clasificar ejemplos, etiquetar entidades, todo con miras a mejorar la calidad del conocimiento y entrenar otros modelos.
Human in Loop (Humano en el ciclo):
Aunque el agente es autónomo, a menudo existe un humano supervisando o interviniendo en momentos críticos, aportando control, retroalimentación o aprobaciones para garantizar calidad y seguridad.
Agentic Orchestration (Orquestación agéntica):
La capacidad de coordinar múltiples componentes agénticos, integrarlos, priorizar y secuenciar sus actividades, asegurando que la operación del sistema global sea coherente y efectiva.

Ordenamiento lógico de los elementos

A continuación, se propone un orden lógico que agrupe los elementos desde las capacidades fundamentales (memorias, recuperación de información, NLP) hacia las capacidades más complejas (planificación, orquestación y mejora continua):

Fundamentos Cognitivos Internos:
- Memorias:
  - Short term Memory
  - Episodic Memory
  - Long term Memory
- Mecanismos de Recuperación:
  - Information Retrieval
  - Knowledge Base Retrieval
  - Vector Search
  - Graph-based Retrieval
Procesamiento del Lenguaje y Entendimiento:
- NLP
- Semantic Matching
- Entity Linking
- Contextual Re-ranking
- Response Generation
Integración de Herramientas y Entornos Externos:
- Tool Integration
- UI Integration
- Cross-platform Connectivity
- Interoperability
Control de Calidad, Seguridad y Cumplimiento:
- Safety and Control
- Ethics and responsible AI
- Regulatory and Compliance
- Agentic Evaluation
- Human in Loop (para supervisión y control)
Automatización, Tareas y Planificación:
- Task Automation
- Dynamic Task Allocation
- Goal Oriented Planning
- Hierarchical Task Management
- Workflow Optimization
- Precision Task Execution
Mejora Continua y Adaptabilidad:
- Self Improvement
- Adaptive Tuning
- Dataset Refinement
- Data Annotation
- Real-time Feedback Loop
Colaboración, Escalabilidad y Complejidad Estructural:
- Multi-Agents
- Collaborative Agents
- Autonomous Agents
- Vision Agents (ampliación sensorial)
- Agentic Orchestration
Gestión de Contenido y Consultas:
- Content Management
- Dynamic Query Processing
Dimensión Ética y Evaluación Continua (ya mencionados arriba, pero integrados a toda la arquitectura):
- Ethics and responsible AI
- Agentic Evaluation
- Safety and Control

Este orden ilustra cómo un agente de IA se construye desde lo más básico (memorias, recuperación de información y NLP) hacia lo más complejo (orquestación agéntica, multiagentes, cumplimiento regulatorio y mejora continua). La dimensión ética y de control se entreteje a lo largo de todo el proceso, no es un apéndice, sino un eje transversal.

Resumen

Lo que la gente comúnmente asocia con “agentes de IA” suele ser apenas la punta del iceberg: herramientas específicas (Copilot, Jasper, Agent GPT) o modelos individuales presentados como interfaces conversacionales. Sin embargo, en la práctica, un verdadero agente de IA es un sistema sumamente complejo que integra múltiples componentes:

Memorias en varios horizontes temporales (corto, largo, episódico)
Capacidades de recuperación de información avanzada (búsqueda vectorial, grafos)
Procesamiento semántico del lenguaje (NLP, matching semántico, generación de respuestas)
Integración con herramientas, interfaces y plataformas
Cumplimiento de normas éticas, legales y de seguridad
Planificación orientada a objetivos, asignación dinámica de tareas, automatización
Mejora continua y adaptación
Colaboración entre múltiples agentes y tipos de datos (texto, visión)
Orquestación compleja de módulos internos y externos

Este panorama integral muestra que un agente de IA es, más que un simple chatbot, un ecosistema cognitivo dinámico, adaptable, seguro, ético y estratégico, capaz de colaborar, aprender y optimizar su desempeño a lo largo del tiempo.

David Macías (Accionables IA)

Discusión sobre este post