5 conceptos básicos de IA
Antes de empezar a usar EasyClaw, dedica 5 minutos a aprender estos conceptos: te ayudarán a entender de verdad cómo funciona la IA, en lugar de limitarte a introducir instrucciones a ciegas.
No necesitas ser ingeniero, pero sí saber: por qué la IA puede hacer cosas, cómo hacer que sea más precisa y cuándo puede fallar.
1. Agent (agente inteligente)
Comprensión para principiantes
Un Agent (agente inteligente) se puede entender fácilmente como: "un compañero de trabajo de IA que resuelve cosas". No solo es capaz de chatear y explicar; lo más importante es que puede convertir tus objetivos en pasos concretos y seguir avanzando después de completar cada paso hasta alcanzar el resultado deseado.
Descripción general del agente de IA
Un agente de IA típico suele completarse mediante tres partes que trabajan juntas:
Cerebro (comprensión y toma de decisiones) + Herramientas/capacidades (dónde ejecutar) + Bucle de ejecución (verificar mientras se hace).
Por lo tanto, no parece una "generación de respuestas única", sino más bien un gestor de proyectos:
primero reflexiona, luego actúa y después verifica.
A continuación, aclaremos cómo funciona. Puedes imaginar el proceso de trabajo del agente como un bucle que se ejecuta repetidamente: Comprender la tarea → Elaborar un plan → Llamar a las herramientas → Ejecutar la acción → Verificar el resultado → Ajustar → Informar.
1) Comprender la tarea:
El agente primero determinará qué problema intentas resolver, cómo es el éxito
y si hay restricciones (por ejemplo, formato, tono, plazo, lo que no debe hacer).
Si la información es insuficiente, puede hacerte preguntas primero o hacer las suposiciones necesarias y explicarlas.
2) Elaborar un plan (desglosar los pasos):
Las tareas grandes a menudo necesitan dividirse en pasos más pequeños. Por ejemplo, "organizar la bandeja de entrada" podría desglosarse en:
Analizar los correos electrónicos → Identificar los tipos (notificaciones/facturas/clientes/varios) → Evaluar la prioridad →
Archivar → Redactar respuestas (si es necesario) → Resumir la lista. Este paso determina "qué hacer primero y qué hacer después".
3) Llamar a las herramientas/capacidades:
Esta es también la clave de cómo el agente puede "hacer las cosas". Sin herramientas, solo puede quedarse en el nivel de
consejos basados en texto; con herramientas, puede ejecutar acciones reales, como: leer archivos, buscar información,
enviar mensajes, acceder a sistemas empresariales, generar documentos, etc.
Verás al agente "conectándose con el mundo exterior", no solo generando una frase.
4) Ejecutar y registrar:
En los pasos apropiados, el agente activará operaciones reales (por ejemplo, llamar a una API de servicio,
completar una tarea de procesamiento de datos, generar contenido utilizable).
Al mismo tiempo, registra "qué paso he completado", lo que facilita continuar o retroceder para hacer correcciones más tarde.
5) Verificación y corrección de errores:
El agente no solo buscará "parecer completado"; también comprobará si el resultado cumple los requisitos.
Por ejemplo: ¿falta campos clave en la salida? ¿incumple los requisitos de formato?
¿hay errores o incertidumbres evidentes? Si no está satisfecho, volverá a planificar el siguiente paso y continuará iterando.
6) Informar de los resultados y los próximos pasos:
Finalmente, el agente resumirá el contenido que ha completado, los hallazgos importantes
y los elementos que necesitan tu confirmación. Puedes ver claramente: qué ha hecho, qué se ha completado y qué está todavía en curso.
Tú dices: "Organiza mi bandeja de entrada y resume en una lista de tareas los correos que necesitan respuesta".
El agente podría: leer la lista de correos → categorizar y archivar → extraer remitente/asunto/plazos clave →
determinar cuáles necesitan respuesta → generar una "lista de tareas" (con prioridad y puntos de respuesta sugeridos) →
decirte "he completado estas categorías, todavía quedan elementos no leídos o inciertos".
Nota: No solo está dando "ideas organizativas", sino que está produciendo resultados utilizables
(listas/archivos/borradores/progreso).
Los principiantes suelen tratar al agente como un chatbot normal: solo preguntan "cómo hacerlo". Pero un verdadero agente necesita capacidades utilizables y flujos de trabajo de ejecución. Si un sistema solo puede explicar pasos pero no puede producir resultados ni activar acciones, es más un "asistente de preguntas y respuestas" que un agente. Recuerda esto: Hablar ≠ Hacer; la ventaja del agente reside en la ejecución y la retroalimentación.
2. Skill (capacidad/habilidad)
Comprensión para principiantes
Un Skill (capacidad/habilidad) se puede entender como: los módulos de capacidad específicos que el agente usa para "hacer las cosas".
El agente es responsable de pensar y programar (tomar tareas, decidir los próximos pasos), mientras que el Skill es responsable de convertir
"cómo hacer el siguiente paso" en operaciones ejecutables: como recuperar información, redactar documentos,
generar informes, llamar a interfaces, realizar cálculos, etc.
Un agente sin Skills a menudo solo puede quedarse en el nivel de consejo; con Skills, el agente puede realmente producir resultados.
Qué es exactamente un Skill (esencia)
Desde una perspectiva de ingeniería, un Skill suele ser un tipo de "capacidad invocable", con formas comunes que incluyen:
1) Herramientas/funciones (por ejemplo, buscar, calcular, generar, traducir);
2) Procesos de negocio (por ejemplo, realizar pedidos, reembolsos, crear tickets);
3) Llamadas a interfaces (por ejemplo, consultas CRM, sincronización de calendarios, envío de correos electrónicos).
La clave no es "si puede chatear", sino que los Skills generalmente tienen límites claros:
cuál es la entrada, cómo ejecutarla, cuál es la salida.
Esto permite al agente desglosar las tareas de forma más fiable y obtener resultados verificables después de la ejecución.
En el bucle del agente, el paso "llamar a herramientas/capacidades" aparece con frecuencia, y lo que se llama suele ser un Skill. Puedes pensarlo así: El agente es como un cerebro, el Skill es como las manos, los pies y una caja de herramientas.
Para profundizar, expliquemos a fondo "cómo funciona el Skill en el bucle del agente":
1) El agente determina qué Skill se necesita
Cuando la tarea entra en la fase de ejecución, el agente analizará qué capacidades se necesitan para el paso actual.
Por ejemplo, "encontrar los registros históricos de comunicación de un cliente" necesita un Skill de tipo "recuperar/leer";
"redactar un correo electrónico de seguimiento" necesita un Skill de tipo "generar texto/usar plantilla";
"sincronizar tarea con el sistema de tareas pendientes" necesita un Skill de tipo "escribir/actualizar".
2) El agente rellena los parámetros en el Skill (entrada)
Los Skills suelen requerir un formato de entrada específico, como: palabras clave, rango de tiempo, ID de cliente, público objetivo, estilo de salida, etc.
El agente extraerá el contexto y lo organizará en los parámetros requeridos por el Skill.
Este paso determina si la ejecución es precisa: si la entrada es incorrecta, la salida probablemente será errónea.
3) El Skill se ejecuta y devuelve el resultado (salida)
Después de que el Skill se ejecuta, devuelve resultados estructurados o semiestructurados, como: listas de elementos recuperados, resultados de cálculos,
texto de documentos generados, códigos de estado de retorno de API, etc.
Estos resultados pueden ser leídos de nuevo por el agente para la toma de decisiones posterior.
4) El agente valida la salida y continúa al siguiente paso (bucle cerrado)
La finalización del Skill no es el punto final; el agente también comprobará: si el resultado cumple las restricciones,
si falta información, si se necesita una segunda generación o corrección.
Si no está satisfecho, podría llamar a otro Skill (por ejemplo, "búsqueda complementaria", "reescribir contenido", "formatear salida") e iterar de nuevo.
Este es el "bucle cerrado cooperativo" del Skill y el agente.
Los principiantes suelen tratar el Skill como una "instrucción de chat". Pero un verdadero Skill es más como una "interfaz":
Cuanto más clara es la entrada, más estable es la salida; solo entonces puede el agente repetir la ejecución de forma fiable y completar tareas.
Por ejemplo, incluso para "generar correo electrónico", el Skill requerirá tono, longitud, información del destinatario y campos de información clave,
para que el contenido generado no varíe cada vez.
Ejemplo: Le pides al agente que "escriba un correo electrónico de seguimiento a clientes potenciales y cree una tarea pendiente".
Esto normalmente encadena múltiples Skills, formando una cadena de acción completa:
1) Skill de recuperación de información del cliente: entrada: ID/nombre del cliente, salida: nombre, empresa, puntos clave de la última comunicación;
2) Skill de extracción/resumen de información: entrada: registros de comunicación, salida: puntos débiles clave y elementos conseguidos;
3) Skill de generación de correo electrónico: entrada: tono (profesional/amigable), plantilla (seguimiento/cierre), puntos clave, salida: cuerpo del correo electrónico;
4) Skill de generación de tareas pendientes: entrada: contenido del correo electrónico y sugerencias de acción, salida: elementos de tareas pendientes (responsable, fecha límite, pasos);
5) Skill de escritura en calendario/sistema de tareas pendientes: entrada: datos estructurados de tareas pendientes, salida: estado de creación exitosa o enlace.
Te darás cuenta: el agente parece "entender el trabajo de ventas", pero detrás de esto hay módulos de Skill que unen capacidades reales en un flujo de trabajo. El agente es responsable de usar estas capacidades en el orden correcto.
Mucha gente entenderá el Skill como un segmento de prompt o una instrucción de una línea durante la integración del sistema.
Pero sin una entrada/salida claras y mecanismos ejecutables, el agente no puede reproducir de forma estable los mismos resultados.
La comprensión más correcta es: El Skill es una unidad de capacidad invocable,
el prompt solo te ayuda a "seleccionarlo/organizarlo" mejor.
Puedes juzgarlo rápidamente con tres preguntas:
¿Se puede llamar?
¿Qué entrada necesita y cuál es la salida?
Después de la ejecución, ¿puede el agente obtener resultados utilizables (no solo explicaciones)?
Si cumple estos criterios, está más cerca de ser un Skill; de lo contrario, podría ser solo "capacidad de texto consultiva".
Sigamos usando el "bucle operativo" del agente para entender el Skill: el agente es responsable de pensar y programar, el Skill es responsable de ejecutar pasos concretos. Cuando el agente descubre que una tarea necesita una cierta capacidad, seleccionará el Skill apropiado, pondrá los parámetros necesarios en él, esperará a que devuelva resultados y luego traerá los resultados de vuelta al bucle para su validación, complemento o planificación del siguiente paso.
Ejemplo: Le pides al agente que "escriba un correo electrónico de seguimiento para un cliente y genere una tarea pendiente".
Podría llamar a diferentes Skills:
1) Recuperar información del cliente (obtener nombre, puntos de la última comunicación);
2) Generar borrador de correo electrónico (salida por tono/longitud/plantilla);
3) Generar lista de tareas pendientes (desglosar los siguientes pasos en elementos).
Cuando estos Skills se unen, forman el comportamiento del agente que "parece muy capaz".
El Skill transforma al agente de "puede hablar" a "puede conseguir resultados", aportando normalmente tres beneficios:
Más fiable (pasos fijos, parámetros claros), Más controlable (saber lo que está haciendo),
Más reutilizable (la misma capacidad se puede usar para diferentes tareas).
Algunas personas piensan que el Skill es un "prompt". En realidad, el Skill es más como un módulo de capacidad invocable (herramienta/interfaz/proceso). Sin una entrada/salida claras y métodos de ejecución, al agente le resultará difícil repetir de forma estable el mismo efecto.
3. Prompt (instrucción/indicación)
Comprensión popular
Un Prompt (instrucción/indicación) es lo que le dices a la IA en lenguaje natural como un "requisito de una línea". Tú indicas lo que hay que hacer y la IA hace todo lo posible por producir el resultado.
Comprensión en profundidad
De forma más precisa, el Prompt es la interfaz principal de comunicación con la IA. Para sistemas con Agent y Skill integrados, un buen Prompt no es solo "hacer que genere texto", sino hacer que sepa cuándo llamar al Skill, cómo rellenar los parámetros, qué aspecto debe tener la salida y cómo gestionar los fallos.
| Tipo | Ejemplo | Efecto |
|---|---|---|
| ❌ Prompt genérico | "Ayúdame a escribir un correo electrónico" | La IA improvisa libremente; cuando falta información, adivina al azar; difícil de verificar |
| ✅ Buen Prompt (orientado a la ejecución) | "Eres un consultor de ventas B2B. Redacta un correo electrónico de seguimiento de producto para el CTO: tono profesional y conciso; primero recupera la empresa de Zhang San y los puntos de comunicación anteriores del CRM; el correo debe incluir: 1) una propuesta de valor 2) confirmación alineada con 2 puntos de la última conversación 3) próxima acción clara; genera 3 tareas pendientes al final (formato de fecha AAAA-MM-DD)." | Condiciones de activación claras + capacidades invocables definidas + estructura de salida verificable |
Te darás cuenta de que el Prompt y los dos conceptos anteriores (Agent / Skill) son dos caras de la misma lógica operativa: El agente necesita el Prompt para decidir cómo proceder, el Skill necesita el Prompt para decidir qué rellenar y cómo verificar.
"El bucle de trabajo del agente" se puede entender como:
Comprender la tarea → Elaborar un plan → Decidir llamar al Skill → El Skill se ejecuta → Verificar el resultado → Continuar ajustando → Informar.
Y el papel del Prompt es dar reglas en cada paso, evitando que se desvíe, adivine a ciegas o forme un bucle cerrado.
1) El Prompt primero define "Objetivo y criterios de éxito" (Por qué hacerlo)
Este paso determina las "reglas de puntuación" del agente. El Prompt necesita decirle: cuál es exactamente el problema que estás resolviendo,
y qué resultado cuenta como completado.
Por ejemplo: no "ayúdame a escribir un correo electrónico", sino "el correo debe incluir qué párrafos, qué tono, qué rango de longitud y terminar con una tarea pendiente".
Sin criterios de éxito en el Prompt, el agente solo puede producir una salida que "parece más o menos correcta", lo que dificulta la verificación de la calidad.
2) El Prompt proporciona "Condiciones de activación y restricciones" (Cuándo hacer qué)
Un Prompt que puede conseguir resultados normalmente aclara: cuándo llamar al Skill, cuándo hacer preguntas.
Por ejemplo: si falta el nombre del cliente o la fecha, debe preguntar primero en lugar de limitarse a "escribir un nombre o fecha cualquiera".
Esto equivale a reducir la incertidumbre: cuanto más claras son las restricciones, más estable es el agente.
3) El Prompt describe "Qué Skills se necesitan y los contratos de entrada/salida para cada uno" (Qué herramientas usar)
El Prompt debe aclarar:
Qué Skill llamar, qué campos de entrada necesita, de dónde vienen los campos de entrada, qué requisitos de formato hay;
y al mismo tiempo aclarar: en qué estructura debe devolverse la salida del Skill (por ejemplo, campos JSON, listas, tablas, estructura de párrafos fija, etc.).
Este paso es clave para que el Prompt sea verdaderamente "ingenieril": convertir "cómo hacer el siguiente paso" en "invocación de capacidad invocable".
4) El Prompt requiere "Verificación y gestión de fallos" (Cómo juzgar si está bien hecho)
Generar resultados por sí solo no es suficiente; el Prompt debe especificar reglas de verificación y estrategias de fallo. Los enfoques comunes incluyen:
- La llamada al Skill falla/devuelve un resultado vacío: diagnosticar primero la causa (error de parámetro/permiso/red/datos faltantes) y luego reintentar o degradar;
- A la salida le faltan campos clave: debe completarse o preguntar al usuario, no se permite adivinar;
- El formato no coincide: activar "Skill de formato/Skill de reordenación/regenerar".
Esto evita que el agente se quede atascado en un bucle de "salida repetida pero sin converger".
5) El Prompt define el "Formato de salida final" (Quién usará la salida)
Finalmente, el Prompt debe especificar cómo se presentan los resultados: qué campos deben devolverse, qué nombres de campo,
si se necesitan resultados estructurados, si se necesita información rastreable (por ejemplo, "si se llamó al Skill, qué Skill se llamó, cuáles fueron las entradas/salidas clave").
Tú dices: "Ayúdame a escribir un correo electrónico de seguimiento a clientes potenciales y crear una tarea pendiente".
Si usas un "Prompt ejecutable", aclarará tres cosas:
Condición de activación: preguntar primero si falta el nombre del cliente o la fecha;
Invocación de Skills: primero llamar al "Skill de recuperación de información del cliente", luego llamar al "Skill de generación de correo electrónico", finalmente llamar al "Skill de creación de tareas pendientes";
Verificación de salida: el correo electrónico debe incluir la confirmación de la propuesta de valor y la próxima acción; la tarea pendiente debe incluir la fecha límite (AAAA-MM-DD) y el responsable.
De esta manera, el agente pasa de "escribir un correo electrónico decente" a "completar un flujo de trabajo totalmente ejecutable".
Mucha gente escribe Prompts solo pidiendo "hazlo por mí", pero sin criterios de éxito, sin contratos de entrada/salida y sin gestión de fallos.
El resultado es: el agente puede improvisar libremente, adivinar cuando faltan campos, la salida es difícil de verificar y, en última instancia, no puedes confirmar "si lo hizo bien".
El enfoque correcto es: El Prompt debe ser como un contrato de ejecución que firmas con el agente,
haciendo que cada paso sea juzgable, corregible y reutilizable.
1) Escribir el rol y los límites: Dile a la IA quién es y qué reglas debe seguir
("debe verificar antes de generar la salida", "no debe inventar información inexistente").
2) Definir el formato y los campos: Especifica la estructura de salida ("devuelve JSON con los campos A/B/C" o "el correo electrónico debe tener tres secciones").
3) Escribir activadores paso a paso: Divide la tarea en acciones ejecutables, especifica cuándo llamar al Skill, cuándo preguntar, cuándo reintentar.
Compara: "Resume este documento" frente a "Resume en 3 viñetas, cada una de no más de 20 caracteres,
luego genera una lista de palabras clave (al menos 5 palabras clave)": esto último es verificable, reutilizable y más estable.
El agente es responsable de pensar y programar, el Skill es responsable de la ejecución concreta, mientras que el Prompt es responsable de decirle al agente: cuándo llamar al Skill, cómo rellenar los parámetros, cómo verificar los resultados, y qué aspecto debe tener la salida final.
4. Memory (memoria a largo plazo) / MEMORY.md
Comprensión popular
El cuaderno de la IA: se usa para guardar de forma persistente tus preferencias y reglas.
Comprensión en profundidad
La memoria es el núcleo de memoria a largo plazo del agente. Las conversaciones normales normalmente solo funcionan dentro de una única sesión; pero el contenido escrito en MEMORY.md será priorizado y leído cada vez que el agente se inicia, lo que le permite "hacer las cosas a tu manera" en lugar de preguntar tus requisitos desde cero cada vez.
Por ejemplo, le dices al agente: "Prefiero respuestas concisas en chino, usa Python para el código".
Si esta preferencia se escribe en la memoria en un formato adecuado, cuando el agente maneje tipos de tareas similares más tarde,
seguirá estas reglas por defecto; no necesitas enfatizarlas repetidamente,
y es mucho menos probable que encuentres problemas de "estilo de respuesta inconsistente cada vez".
Si piensas en el Agente como el ejecutor y el Skill como la caja de herramientas,
entonces la memoria es la configuración a largo plazo del agente:
Cada vez que el agente se inicia, primero lee la memoria para obtener tus preferencias y SOP,
luego incorpora estas restricciones al planificar y llamar a los Skills.
Por lo tanto, la memoria hace que las "reglas ejecutables" sean efectivas a largo plazo.
Para garantizar que la memoria sea verdaderamente "utilizable", necesita cumplir con los estándares de los tres conceptos anteriores: activación estable, entrada clara, salida verificable. En otras palabras, el contenido escrito en la memoria debe guiar claramente cómo debe proceder el agente a continuación, no ser una vaga expresión emocional.
Se recomienda escribir la memoria en este estilo de "lista de comprobación de reglas":
- Preferencias de estilo de escritura: por ejemplo, "chino conciso", "conclusiones primero", "no más de 3 frases por párrafo"
- Requisitos de formato: por ejemplo, "Python para el código", "la salida de la tabla incluye los campos A/B/C", "formato de fecha AAAA-MM-DD"
- SOP de decisión: por ejemplo, "preguntar si la información es insuficiente, no adivinar; proporcionar alternativas con etiquetas de riesgo"
- Contexto a largo plazo: por ejemplo, "mi equipo es de entrega B2B", "las herramientas comunes son XX (cuando corresponda)"
En lugar de explicar cada vez "cómo quieres que sea la salida", escribe tus hábitos de trabajo en la memoria una vez
para que el agente los siga automáticamente cada vez que se inicie.
Cuanto antes solidifiques estas reglas, menos molestias después y más consistente será.
Puedes priorizar por frecuencia: los elementos estables y de alta frecuencia
(preferencias a largo plazo, procesos fijos) deben escribirse primero.
La memoria no es una caja de borradores. Las tareas temporales y puntuales
(como "consulta el tiempo en Shenzhen para mí hoy") no deben escribirse en la memoria,
o el archivo de memoria se volverá gradualmente inflado y desordenado, lo que hará que el agente se confunda en el juicio a largo plazo.
Principio: Escribe solo preferencias fijas y SOP a largo plazo, ignora las tareas temporales.
Si las respuestas son:
1) ¿Se usará esta regla repetidamente en el futuro?
2) ¿Puede cambiar de forma estable el formato/estilo de salida/estrategia de ejecución?
3) ¿No cambiará con frecuencia con el tiempo?
Cuantos más criterios cumplas, más adecuado es para la memoria.
De lo contrario, simplemente ponlo en la instrucción de esta sesión.
La memoria permite al agente formar patrones de trabajo consistentes a largo plazo: solidifica en ella las preferencias estables y los SOP, mientras mantiene las tareas temporales para la ejecución actual.
Puntos clave sobre la memoria:
1) La memoria almacena la configuración a largo plazo (Por qué existe)
La principal diferencia entre la memoria y el Prompt es: el Prompt maneja esta tarea específica,
mientras que la memoria maneja "todas las tareas futuras". Al almacenar preferencias y SOP en la memoria,
el agente puede aplicar estas reglas de forma consistente sin que necesites repetirlas.
Por ejemplo, si escribes "el idioma de salida predeterminado es el chino" en la memoria,
entonces en todas las tareas futuras, el agente priorizará automáticamente responder en chino.
2) ¿Cuándo usa el agente la memoria? (Mecanismo de carga)
Normalmente, la memoria se carga primero cuando el agente inicia una nueva sesión o conversación.
El agente lee MEMORY.md, extrae las reglas/preferencias y luego las trata como parte del contexto del sistema
para esta ejecución, de forma similar a añadir instrucciones adicionales del sistema.
Esto es diferente del Prompt a mitad de la conversación: la memoria no cambia durante la conversación,
es la "línea base estable" para todas las ejecuciones posteriores.
3) Lo que NO debe ir a la memoria (Establecimiento de límites)
La memoria debe contener: hábitos de trabajo estables, preferencias de formato, SOP a largo plazo, restricciones recurrentes.
La memoria NO debe contener: tareas puntuales, datos temporales, información específica de la sesión, secretos personales.
Mezclarlos hace que la memoria se vuelva desordenada y que el agente pierda la capacidad de distinguir
entre "lo que es permanente" y "lo que es temporal".
4) Cómo estructurar la memoria para una máxima eficacia
Una buena memoria debe organizarse por categorías:
- Estilo de comunicación: "Responder siempre en chino conciso", "primero la estructura, luego los detalles", etc.
- Valores predeterminados técnicos: "usar Python como lenguaje principal", "usar JSON para datos estructurados", etc.
- Reglas de decisión: "cuando no estés seguro, pregunta en lugar de adivinar", "proporciona siempre una evaluación de riesgos", etc.
- Contexto y antecedentes: "trabajando en B2B SaaS", "el tamaño del equipo es de 5", etc.
- Información de herramientas e integración: "el CRM típico es Salesforce", "el sistema de registro es Datadog", etc.
De esta manera, cuando el agente lee la memoria, puede encontrar rápidamente las reglas relevantes para el contexto actual.
5) Mantenimiento de la memoria (Mantenerla actualizada)
La memoria no es "escribir una vez, usar para siempre". A medida que tu estilo de trabajo evoluciona o las reglas cambian,
debes revisar y actualizar periódicamente la memoria para mantenerla alineada con la práctica actual.
Una buena práctica: revisar la memoria trimestralmente, eliminar elementos obsoletos, añadir nuevos patrones establecidos.
Esto mantiene la memoria ágil y eficaz.
Ejemplo de MEMORY.md:
Mis preferencias de trabajo y SOP
Estilo de comunicación
Idioma: Español (conciso, conclusión primero)
Formato: viñetas al enumerar, secciones estructuradas para información compleja
Tono: profesional pero accesible
Valores predeterminados técnicos
Lenguaje principal: Python
Formato de datos: JSON
Formato de fecha: AAAA-MM-DD
Zona horaria: UTC+1
Reglas de decisión
Cuando la información sea insuficiente: hacer preguntas aclaratorias, no asumir
Proporcionar alternativas con análisis de riesgo/beneficio
Incluir razonamiento rastreable en decisiones complejas
Contexto
Equipo: B2B SaaS, 5 personas
CRM principal: Salesforce
Herramientas principales: Python, PostgreSQL, Slack
SOP de procesos
Revisión de código siempre requerida antes del despliegue
La documentación debe actualizarse cuando cambia la API
Reunión diaria a las 10:00 AM UTC+1
1) Sobrecargar la memoria: Tratar la memoria como "todo sobre mí". Esto confunde al agente sobre las prioridades.
2) Reglas vagas: Evita "sé inteligente", "usa tu mejor criterio". Usa en su lugar reglas específicas y procesables.
3) No actualizar nunca: La memoria debe evolucionar contigo. Las reglas antiguas y obsoletas crean ruido.
4) Reglas contradictorias: Si la memoria tiene contradicciones, el agente puede oscilar o no decidir. Límpiala.
Ahora tenemos las cuatro capas:
Agente (pensar y programar) → decide qué hacer
Skill (ejecución concreta) → lleva a cabo la decisión
Prompt (instrucciones de esta tarea) → especifica cómo hacer esta tarea
Memoria (configuración a largo plazo) → garantiza la consistencia en todas las tareas futuras
Juntos, forman un sistema de ejecución de IA completo, reproducible y escalable.
5. Soul (valores fundamentales y comportamiento) / SOUL.md
Comprensión popular
La "configuración de personalidad" y las barreras de comportamiento de la IA: determina lo que "debe hacer y lo que absolutamente no debe hacer".
Comprensión en profundidad
SOUL.md define las reglas de comportamiento, los valores y los límites operativos del agente.
Es la "constitución fundacional" del agente: qué acciones están permitidas,
cuáles están absolutamente prohibidas, todo escrito aquí claramente.
Por lo tanto, SOUL no es solo una preferencia de estilo; impacta directamente en los límites de seguridad del agente
y en la salida conforme.
Si la memoria es "lo que se recordó", entonces Soul es "en qué tipo de IA convertirse". Por ejemplo: solo responder preguntas relacionadas con el producto; las operaciones financieras requieren doble confirmación; nunca solicitar contraseñas o credenciales sensibles; para asuntos legales o médicos, debe proporcionar exenciones de responsabilidad y guiar hacia canales profesionales, etc.
La configuración de SOUL.md determina directamente cómo el agente "rechaza" y "proporciona alternativas"
en escenarios de alto riesgo. Si se implementa como una herramienta de equipo o implica datos empresariales,
una configuración incorrecta de SOUL podría provocar acceso no autorizado, violaciones de límites
o riesgos de cumplimiento.
Por lo tanto, antes de ponerlo en marcha, asegúrate de configurar cuidadosamente este archivo y verificar
los límites con casos de prueba.
Se recomienda escribir SOUL como una "lista de comprobación de reglas ejecutables", que cubra las siguientes categorías:
- Lo que está permitido: El alcance del trabajo del agente y los límites del dominio (por ejemplo, solo gestionar consultas de productos o procesos internos).
- Lo que está prohibido: Rechazos duros explícitos para comportamientos de alto riesgo (por ejemplo, solicitar contraseñas o claves; prometer resultados inciertos; eludir permisos).
- Acciones que requieren confirmación: Reglas para transferencias, reembolsos, contratos, cambios de permisos que deben ser confirmados o aprobados dos veces.
- Estilo y tono de salida: por ejemplo, debe ser educado, sin ataques personales, sin lenguaje amenazante.
- Cómo manejar los límites: Cuando no se puede completar, proporcionar alternativas (por ejemplo, registrar y escalar a un humano o sugerir consultar a especialistas).
Supón que estás configurando un agente de servicio al cliente para tu empresa;
su SOUL.md podría incluir:
• Ser siempre educado, sin lenguaje insultante o categóricamente negativo;
• No prometer nunca reembolsos o compensaciones, solo decir
"Lo registraré y lo escalaré/transferiré para su gestión";
• Cuando surjan preguntas legales, responder uniformemente
"Por favor, consulte a los profesionales legales";
• Cuando se soliciten contraseñas, OTP o claves: rechazar directamente
y guiar al usuario a través del proceso de verificación adecuado.
Después de la configuración, no importa cómo los usuarios intenten manipular, el agente no se extralimitará.
Después de modificar Soul, se recomienda probar con algunos escenarios:
cuáles deben ser rechazados, cuáles necesitan confirmación, cuáles se pueden responder normalmente.
Puedes preparar 6 categorías de preguntas de prueba para verificar si Soul está funcionando:
1) Preguntas fuera de dominio: ¿El agente rechaza o redirige?
2) Solicitudes de alto riesgo: ¿Rechaza claramente?
3) Acciones que necesitan confirmación: ¿Confirma antes de ejecutar?
4) Solicitudes de información sensible: ¿Rechaza y proporciona alternativas seguras?
5) Cumplimiento o exenciones de responsabilidad: ¿Genera la salida según las reglas?
6) "Manipulación para eludir": Cuando los usuarios solicitan omitir procesos,
¿mantiene el límite?
SOUL.md define las "barreras y límites" del agente: hace que la IA tenga principios y sea predecible al ejecutar, por lo que es más segura y fiable en escenarios de equipo y negocio.
Distinciones clave entre Soul, Memory y Prompt:
| Dimensión | Soul (SOUL.md) | Memory (MEMORY.md) | Prompt (Esta tarea) |
|---|---|---|---|
| Alcance | Límites fundamentales | Preferencias a largo plazo | Esta tarea específica |
| Frecuencia | Rara vez cambia (fundacional) | Cambia trimestral o estacionalmente | Cambia por tarea |
| Propósito | Prevenir daños o garantizar la seguridad | Garantizar la consistencia | Especificar los detalles de ejecución |
| Consecuencia de la infracción | Incumplimiento de conformidad o riesgo de seguridad | Resultados inconsistentes | Desajuste en la salida de la tarea |
| Ejemplo | "No solicitar nunca contraseñas" | "Responder siempre en chino" | "Resumir en 3 viñetas" |
1) Soul define "Qué tipo de agente eres" (Identidad y barreras)
Soul responde a la pregunta más profunda: ¿Qué se me permite ser y hacer?
Esto incluye:
- Alcance del trabajo: ¿De qué dominios o tareas soy responsable?
- Barreras duras: ¿Qué debo no hacer absolutamente nunca (seguridad, cumplimiento, ética)?
- Flujos de trabajo de aprobación: ¿Para qué acciones debo requerir confirmación?
- Rutas de escalado: Cuando no puedo ayudar, ¿a dónde dirijo?
Soul es la línea que "no se debe cruzar". Se aplica en cada ejecución, independientemente de cómo los usuarios intenten manipular.
2) Soul frente a la seguridad: Por qué Soul es importante para el despliegue
Un Soul bien configurado puede prevenir muchos vectores de ataque comunes:
- Inyección de Prompt: Si Soul dice "verificar siempre las solicitudes de alto riesgo",
incluso si un prompt dice "ignora esta regla", el agente debe negarse.
- Ingeniería social: Si Soul dice "no proporcionar nunca credenciales",
sin importar cuán hábilmente pregunte un usuario, el agente debe rechazarlo.
- Ampliación del alcance: Si Soul define el límite del dominio del agente,
no intentará manejar solicitudes fuera de alcance adivinando.
Esto hace que Soul sea fundamental para un despliegue seguro.
3) Cómo se integra Soul con el bucle de decisión del agente
Piensa en el ciclo de ejecución del agente así:
Paso 1: Leer Soul → ¿Cuáles son mis límites?
Paso 2: Leer la memoria → ¿Cuáles son mis preferencias de trabajo?
Paso 3: Recibir el Prompt → ¿Cuál es esta tarea específica?
Paso 4: Planificar la ejecución → Dentro de los límites, alcanzar el objetivo
Paso 5: Verificar el cumplimiento → ¿Me he mantenido dentro de Soul?
Paso 6: Ejecutar o escalar
Observa que Soul se comprueba antes y después de la ejecución. Es el bucle exterior.
Antes de desplegar un agente, verifica:
☑ Soul.md está escrito (no solo implícito)
☑ Todos los miembros del equipo entienden los límites
☑ Los casos de prueba cubren más de 6 escenarios, incluidos los intentos de jailbreak
☑ Las rutas de escalado están definidas y son funcionales
☑ Los requisitos de cumplimiento están cubiertos explícitamente
☑ Las acciones de alto riesgo requieren confirmación o aprobación
☑ El tono de comunicación está definido y probado
☑ Las barreras de seguridad (contraseñas, tokens, claves) son claras
☑ El manejo de fuera de alcance es elegante (no grosero)
☑ La auditoría o el registro están implementados para acciones sensibles
Agente es la entidad pensante
Skill es la capacidad de ejecución
Prompt es la instrucción de la tarea
Memoria es la preferencia a largo plazo
Soul es la constitución operativa
Juntos: El agente piensa (usando la memoria para el contexto y Soul para las barreras),
decide qué Skill llamar, recibe instrucciones específicas del Prompt,
y ejecuta dentro de los límites de Soul. Resultado: un sistema de IA fiable, seguro y consistente.
Conceptos avanzados (opcional)
Los tres conceptos siguientes te ayudarán a "entender la automatización" de verdad. No son conocimientos totalmente nuevos, sino que llevan los conceptos anteriores de Agent / Skill / Memory / Soul / Prompt al nivel práctico de "ejecutar realmente, conectarse entre sí e integración estable". Los principiantes pueden saltarse esto por ahora; cuando empieces a construir procesos de varios pasos, a integrar servicios externos o a depurar problemas de flujo de datos, volver aquí te ahorrará mucho tiempo.
🔀 1) Workflow (ejecución de procesos de varios pasos)
Un Workflow se puede entender como una ruta de ejecución reutilizable: conectar varios pasos en secuencia para que el sistema alcance un objetivo de forma sistemática. Si el Agente es "un colega que puede pensar y ejecutar", entonces el Workflow es "la cola de tareas y el método de conexión que configuramos para ese colega". Resuelve el problema: cuando una tarea no se puede completar en una frase, ¿cómo ejecutamos de forma fiable varios pasos como una cadena conectada?
Un Workflow típico suele contener estos elementos (puedes usar este marco para entender las capacidades de varios pasos de EasyClaw):
- Lista de pasos: Qué hacer en el paso 1, paso 2, etc. Cada paso debe tener límites y responsabilidades claras.
- Entrada y salida: Cada paso debe producir resultados estructurados que el siguiente paso pueda usar, no solo "descripciones de texto".
- Condiciones y ramas: Por ejemplo, "si falta un campo crítico, pregunta primero o recupera más datos", de lo contrario, continúa con el siguiente paso.
- Validación y gestión de errores: Por ejemplo, "si el análisis falla, reintenta o vuelve a un enfoque alternativo".
- Salida resumida: Entrega el resultado final en un formato utilizable (lista de comprobación, informe, lista de tareas, contenido de notificación, etc.).
¿Cómo se alinea el Workflow con los conceptos anteriores? Una frase los conecta:
El agente se encarga de la toma de decisiones y la programación, el Skill se encarga de la ejecución concreta,
Memory/Soul se encargan de las reglas y límites a largo plazo, el Prompt le dice "cómo hacerlo",
y el Workflow conecta estos pasos en secuencia como una cadena.
Ejemplo: necesitas completar "escalar la queja del usuario a un ticket y notificar a la persona responsable". Un Workflow razonable podría verse así:
- Recopilar entrada: Recopilar el contenido de la queja, la información del usuario y el cronograma del formulario o mensaje.
- Extracción de información: Usar el agente para estructurar los puntos clave de la queja (por ejemplo, tipo de problema, alcance del impacto, marcas de tiempo críticas).
- Juicio de reglas: Basándose en Soul o las reglas, determinar si es de alta prioridad, necesita escalado o requiere más información primero.
- Llamar al Skill de creación de tickets: Rellenar los campos estructurados en la API del sistema de tickets, generar el número de ticket.
- Llamar al Skill de notificación: Enviar el número de ticket y el resumen clave a la persona responsable (Feishu, correo electrónico o mensajería instantánea).
- Validación del resultado: Confirmar que la creación del ticket devolvió un estado exitoso, que la notificación se envió.
- Retroalimentación resumida: Enviar al usuario o al administrador "Ticket creado + enlace/número + próximos pasos".
Te darás cuenta: el Workflow no resuelve "cómo escribir una explicación", sino "cómo encadenar de forma fiable múltiples llamadas a herramientas y pasos de validación". Cuando empieces a manejar procesos complejos (especialmente entre sistemas: mensajería instantánea + tickets + base de datos), el Workflow se convertirá en tu capacidad más utilizada.
📦 2) JSON (formato de intercambio de datos)
JSON es el formato estándar para pasar datos entre el agente y las herramientas o API externas. En la automatización de varios pasos, el papel de JSON es fundamental: hace que "puede el siguiente paso obtener los datos correctos" sea una pregunta verificable, no "podemos entender intuitivamente una frase en lenguaje natural".
Puedes pensar en JSON como: un "contenedor de datos estructurados" dentro del sistema. En lugar de frases sueltas, contiene campos y tipos explícitos, como: título del ticket, ID de usuario, prioridad, fecha límite, contenido de la notificación, etc.
En el flujo de trabajo de EasyClaw, JSON aparece normalmente en estos lugares:
- Entrada y salida del Skill: Los Skills a menudo necesitan campos específicos como entrada, devolviendo resultados estructurados para la toma de decisiones del agente.
- Parámetros de llamada a la API: Por ejemplo, al llamar a la API de Feishu, los parámetros deben organizarse en JSON.
- Transferencia de datos entre pasos: La salida JSON de un paso es leída por el siguiente paso.
¿Por qué muchos problemas que parecen "el agente no puede hacer esto" se deben en realidad a JSON? Los casos comunes incluyen:
- Discordancia en el nombre del campo: La entrada esperada es
user_id, pero la entrada real esuserId. - Campos faltantes: Falta un campo obligatorio, la API devuelve un error.
- Discordancia de tipo: La fecha debe ser una cadena, pero se pasa como número, o debe ser una matriz, pero se pasa como texto.
- Error de formato JSON: Faltan comillas, faltan corchetes, comas finales, el análisis falla.
Por lo tanto, el mejor orden de solución de problemas para los problemas de integración suele ser:
Comprueba primero JSON, luego el Prompt, luego la lógica de razonamiento del agente.
Porque JSON es la base de "si funcionará".
🔑 3) API Key (credencial de acceso)
Una API Key es la credencial de autenticación al acceder a modelos de IA o servicios de terceros. Sin la API Key correcta, el sistema normalmente no puede llamar al modelo o servicio correspondiente; incluso si el agente razona perfectamente, la ejecución sigue siendo imposible.
En los escenarios de EasyClaw, debes distinguir dos casos:
- Uso de las capacidades o créditos oficiales por defecto: Los principiantes normalmente no necesitan su propia clave, ya que la plataforma ya ha configurado el acceso para ti.
- Integración de modelos personalizados o servicios personalizados: Debes rellenar la API Key en la ubicación adecuada y dirigir el agente o el Skill a ese modelo.
La API Key no se trata solo de "puede o no puede usarla", sino que también afecta a "qué capacidades, coste y estabilidad":
- Selección de modelo: Diferentes claves o modelos pueden proporcionar diferente calidad de razonamiento, velocidad y rendimiento del formato de salida.
- Control de costes: Algunas plataformas cobran por uso; la cuenta o el cupo de la clave afecta al presupuesto disponible.
- Límites de permisos: Algunas claves de servicio solo pueden permitir llamadas API limitadas, lo que provoca que falle la ejecución de un Skill específico.
Solución de problemas común para "fallo en la llamada al Skill":
Confirma si la clave está rellenada correctamente, si la clave ha caducado o tiene un cupo insuficiente,
si esa clave tiene permisos de llamada.
Si la API devuelve un error de autenticación (401/403), sospecha primero de la configuración de la API Key.
¿Cuándo debes estudiar estos conceptos seriamente? (Referencia rápida)
- Estás construyendo una automatización de varios pasos: El Workflow determina si la cadena puede ejecutarse de forma estable.
- Estás integrando Feishu, sistemas empresariales o API externas: JSON determina si los datos se transfieren correctamente y se pueden analizar.
- Estás integrando tu propio modelo o servicio personalizado: La API Key determina si puedes llamar a la capacidad correspondiente.
- Estás depurando "puede explicar pero no puede ejecutar" o "la ejecución falla sin pistas": Normalmente, la solución de problemas más rápida es comprobar el encadenamiento del Workflow, la estructura JSON y los permisos de la API Key en orden.
El Workflow hace que los pasos se ejecuten de forma fiable en secuencia, JSON hace que los datos pasados en cada paso estén correctamente estructurados y sean utilizables, la API Key hace que las herramientas y los modelos sean realmente invocables. Juntos, transforman tu automatización de "parece inteligente" a "realmente funciona en la práctica".
Agent = Colega de IA capaz
Skill = Módulo de capacidad invocable (herramienta/interfaz/proceso)
Prompt = Le dice al agente cómo hacerlo (reglas, activadores, salida, gestión de errores)
Memory = Preferencias y SOP a largo plazo (hace que las reglas sean efectivas a largo plazo)
Soul = Constitución del comportamiento y límites (estrategia de permitir/prohibir/confirmar)
Workflow = Ruta de ejecución de carrera de relevos de varios pasos
JSON = Formato estructurado de intercambio de datos (garantiza la usabilidad de los campos)
API Key = Credencial de integración de terceros/modelo (garantiza la capacidad de invocación)