5 concepts clés de l'IA
Avant de commencer à utiliser EasyClaw, prenez 5 minutes pour apprendre ces concepts — ils vous aideront à vraiment comprendre comment fonctionne l'IA, plutôt que de saisir des instructions à l'aveugle.
Vous n'avez pas besoin d'être ingénieur, mais vous devez savoir : pourquoi l'IA peut faire les choses, comment la rendre plus précise et quand elle peut échouer.
1. Agent (Agent intelligent)
Ce que comprennent les débutants
L'Agent (Agent intelligent) peut être simplement compris comme : « un collègue IA qui fait avancer les choses ». Il n'est pas seulement capable de discuter et d'expliquer ; plus important encore, il peut transformer vos objectifs en étapes concrètes, et continuer à progresser après chaque étape jusqu'à atteindre le résultat souhaité.
Aperçu du cœur de l'agent IA
Un agent IA typique est généralement composé de trois parties fonctionnant ensemble :
Cerveau (Compréhension et prise de décision) + Outils/Capacités (Où exécuter) + Boucle d'exécution (Vérifier en faisant).
Par conséquent, il ne ressemble pas à une « génération de réponse unique », mais plutôt à un chef de projet :
d'abord réfléchir, puis agir, ensuite vérifier.
Ensuite, clarifions son mode de fonctionnement. Vous pouvez imaginer le processus de travail de l'Agent comme une boucle exécutée de manière répétée : Comprendre la tâche → Élaborer un plan → Appeler des outils → Exécuter l'action → Vérifier le résultat → Ajuster → Rapporter.
1) Comprendre la tâche :
L'Agent déterminera d'abord quel problème vous essayez de résoudre, à quoi ressemble le succès,
et s'il existe des contraintes (par exemple, format, ton, délai, ce qu'il ne doit pas faire).
Si les informations sont insuffisantes, il peut d'abord vous poser des questions, ou faire les hypothèses nécessaires en les expliquant.
2) Élaborer un plan (décomposer les étapes) :
Les grandes tâches doivent souvent être décomposées en étapes plus petites. Par exemple, « organiser la boîte de réception » pourrait être décomposé en :
Analyser les e-mails → Identifier les types (notifications/factures/clients/divers) → Évaluer la priorité →
Archiver → Rédiger des brouillons de réponse (si nécessaire) → Résumer la liste. Cette étape détermine « que faire en premier, que faire ensuite ».
3) Appeler des outils/capacités :
C'est aussi la clé qui permet à l'Agent de « faire avancer les choses ». Sans outils, il ne peut en rester qu'au niveau
du conseil textuel ; avec des outils, il peut effectivement exécuter des actions, telles que : lire des fichiers, rechercher des informations,
envoyer des messages, accéder à des systèmes d'entreprise, générer des documents, etc.
Vous verrez l'Agent « se connecter au monde extérieur », et pas seulement générer une phrase.
4) Exécuter et enregistrer :
Aux étapes appropriées, l'Agent déclenchera réellement des opérations (par exemple, appeler une API de service,
terminer une tâche de traitement de données, générer du contenu utilisable).
En même temps, il enregistre « quelle étape j'ai terminée », ce qui facilite la poursuite ou le retour en arrière pour corrections.
5) Vérification et correction d'erreur :
L'Agent ne vise pas seulement à « sembler terminé » ; il vérifie également si le résultat répond aux exigences.
Par exemple : la sortie manque-t-elle des champs clés, enfreint-elle vos exigences de format,
y a-t-il des erreurs ou incertitudes évidentes ? S'il n'est pas satisfait, il replanifiera l'étape suivante et continuera d'itérer.
6) Rapporter les résultats et les prochaines étapes :
Enfin, l'Agent résumera le contenu qu'il a terminé, les constatations importantes,
et les éléments nécessitant votre confirmation. Vous pouvez voir clairement : ce qu'il a fait, ce qui est terminé, ce qui est encore en cours.
Vous dites : « Veuillez organiser ma boîte de réception et résumer les e-mails nécessitant une réponse dans une liste de tâches. »
L'Agent pourrait : lire la liste des e-mails → catégoriser et archiver → extraire l'expéditeur/le sujet/les dates clés →
déterminer lesquels nécessitent une réponse → générer une « liste de tâches » (avec priorité et suggestions de points de réponse) →
vous dire « ces catégories sont terminées, il reste des éléments non lus/incertains. »
Remarque : Il ne se contente pas de donner des « idées d'organisation », mais produit des résultats utilisables
(listes/archives/brouillons/progression).
Les débutants traitent souvent l'Agent comme un chatbot ordinaire : ne demandant que « comment faire ». Mais un véritable Agent a besoin de capacités utilisables et de flux de travail d'exécution. Si un système ne peut qu'expliquer les étapes mais ne peut pas produire de résultats ni déclencher d'actions, il s'agit plutôt d'un « assistant de questions-réponses » que d'un Agent. Rappelez-vous ceci : Pouvoir parler ≠ Pouvoir faire ; l'avantage de l'Agent réside dans l'exécution et le retour d'information.
2. Compétence (Capacité/Aptitude)
Ce que comprennent les débutants
La compétence (Capacité/Aptitude) peut être comprise comme : les modules de capacité spécifiques que l'Agent utilise pour « faire avancer les choses ».
L'Agent est responsable de la réflexion et de la planification (prendre des tâches, décider des prochaines étapes), tandis que la compétence est responsable de transformer
« comment faire la prochaine étape » en opérations exécutables : telles que récupérer des informations, rédiger des documents,
générer des rapports, appeler des interfaces, effectuer des calculs, etc.
Un Agent sans compétences ne peut souvent rester qu'au niveau du conseil ; avec des compétences, l'Agent peut vraiment produire des résultats.
Qu'est-ce qu'une compétence exactement (essence)
D'un point de vue technique, une compétence est généralement une sorte de « capacité appelable », dont les formes courantes incluent :
1) Outils/Fonctions (ex. rechercher, calculer, générer, traduire) ;
2) Processus métier (ex. passer commande, remboursement, création de ticket) ;
3) Appels d'interface (ex. requêtes CRM, synchronisation d'agenda, envoi d'e-mails).
La clé n'est pas « si elle peut discuter », mais plutôt que les compétences ont généralement des limites claires :
quelle est l'entrée, comment elle est exécutée, quelle est la sortie.
Cela permet à l'Agent de décomposer les tâches de manière plus fiable et d'obtenir des résultats vérifiables après exécution.
Dans la boucle de l'Agent, l'étape « appeler des outils/capacités » apparaît fréquemment, et ce qui est appelé est généralement une compétence. Vous pouvez y penser comme : L'Agent est comme un cerveau, la compétence est comme les mains, les pieds et une boîte à outils.
Pour approfondir, expliquons en détail « comment la compétence fonctionne dans la boucle de l'Agent » :
1) L'Agent détermine quelle compétence est nécessaire
Lorsque la tâche entre dans la phase d'exécution, l'Agent analyse les capacités nécessaires pour l'étape en cours.
Par exemple, « trouver l'historique des communications d'un client » nécessite une compétence de type « récupérer/lire » ;
« rédiger un e-mail de suivi » nécessite une compétence de type « générer du texte/utiliser un modèle » ;
« synchroniser la tâche avec le système de tâches » nécessite une compétence de type « écrire/mettre à jour ».
2) L'Agent remplit les paramètres dans la compétence (Entrée)
Les compétences nécessitent généralement un format d'entrée spécifique, comme : mots-clés, plage de temps, identifiant client, public cible, style de sortie, etc.
L'Agent extrait le contexte et l'organise dans les paramètres requis par la compétence.
Cette étape détermine si l'exécution est précise : si l'entrée est erronée, la sortie sera probablement incorrecte.
3) La compétence s'exécute et retourne le résultat (Sortie)
Après exécution, la compétence retourne des résultats structurés ou semi-structurés, tels que : listes d'éléments récupérés, résultats de calcul,
texte de document généré, codes de statut de retour d'API, etc.
Ces résultats peuvent être lus par l'Agent pour la prise de décision ultérieure.
4) L'Agent valide la sortie et passe à l'étape suivante (boucle fermée)
L'achèvement de la compétence n'est pas le point final ; l'Agent vérifie également : si le résultat respecte les contraintes,
s'il manque des informations, si une deuxième génération ou correction est nécessaire.
S'il n'est pas satisfait, il pourrait appeler une autre compétence (ex. « recherche complémentaire », « réécrire le contenu », « formater la sortie ») et itérer à nouveau.
C'est la « boucle fermée coopérative » de la compétence et de l'Agent.
Les débutants traitent souvent la compétence comme une « instruction de chat ». Mais une vraie compétence ressemble davantage à une « interface » :
Plus l'entrée est claire, plus la sortie est stable ; alors seulement l'Agent peut répéter l'exécution de manière fiable et terminer les tâches.
Par exemple, même pour « générer un e-mail », la compétence exigera le ton, la longueur, les informations sur le destinataire et les champs d'information clés,
afin que le contenu généré ne dérive pas à chaque fois.
Exemple : Vous demandez à l'Agent de « rédiger un e-mail de suivi aux prospects et de créer un élément de tâche. »
Ceci enchaîne généralement plusieurs compétences, formant une chaîne d'actions complète :
1) Compétence de récupération des informations client : entrée ID/nom du client, sortie nom, entreprise, points clés de la dernière communication ;
2) Compétence d'extraction/résumé d'information : entrée enregistrements de communication, sortie points de douleur clés et éléments réalisés ;
3) Compétence de génération d'e-mail : entrée ton (professionnel/amical), modèle (suivi/clôture), points clés, sortie corps de l'e-mail ;
4) Compétence de génération de tâche : entrée contenu de l'e-mail et suggestions d'action, sortie éléments de tâche (responsable, échéance, étapes) ;
5) Compétence d'écriture dans l'agenda/système de tâches : entrée données structurées de tâche, sortie statut de création réussi ou lien.
Vous remarquerez : l'Agent semble « comprendre le travail de vente », mais derrière cela, des modules de compétence assemblent des capacités réelles en un flux de travail. L'Agent est responsable d'utiliser ces capacités dans le bon ordre.
Beaucoup de gens comprendront la compétence comme un segment de prompt ou une instruction d'une ligne lors de l'intégration système.
Mais sans entrée/sortie claire et mécanismes exécutables, l'Agent ne peut pas reproduire stablement les mêmes résultats.
La compréhension la plus correcte est : la compétence est une unité de capacité appelable,
le prompt sert juste à vous aider à mieux la « sélectionner/organiser ».
Vous pouvez rapidement juger avec trois questions :
Peut-elle être appelée ?
De quelle entrée a-t-elle besoin et quelle est la sortie ?
Après exécution, l'Agent peut-il obtenir des résultats utilisables (pas seulement des explications) ?
Si cela répond à ces critères, c'est plus proche d'une compétence ; sinon, il pourrait s'agir simplement d'une « capacité textuelle consultative ».
Continuez à utiliser la « boucle de fonctionnement » de l'Agent pour comprendre la compétence : l'Agent est responsable de la réflexion et de la planification, la compétence est responsable de l'exécution des étapes concrètes. Lorsque l'Agent découvre qu'une tâche nécessite une certaine capacité, il sélectionnera la compétence appropriée, y mettra les paramètres nécessaires, attendra qu'elle retourne les résultats, puis ramènera les résultats dans la boucle pour validation, complément ou planification de l'étape suivante.
Exemple : Vous demandez à l'Agent de « rédiger un e-mail de suivi client pour moi et de générer une tâche. »
Il pourrait appeler différentes compétences :
1) Récupérer les informations client (obtenir le nom, les points de la dernière communication) ;
2) Générer un brouillon d'e-mail (sortie selon le ton/longueur/modèle) ;
3) Générer une liste de tâches (décomposer les prochaines étapes en éléments).
Lorsque ces compétences sont assemblées, elles forment un comportement d'Agent qui « semble très compétent. »
La compétence transforme l'Agent de « pouvoir parler » à « pouvoir produire des résultats », apportant généralement trois avantages :
Plus fiable (étapes fixes, paramètres clairs), Plus contrôlable (savoir ce qu'il fait),
Plus réutilisable (la même capacité peut être utilisée pour différentes tâches).
Certaines personnes pensent que la compétence est un « prompt ». En réalité, la compétence ressemble davantage à un module de capacité appelable (outil/interface/processus). Sans entrée/sortie claire et méthodes d'exécution, l'Agent aura du mal à répéter stablement le même effet.
3. Prompt (Instruction/Consigne)
Compréhension populaire
Le Prompt (Instruction/Consigne) est ce que vous dites à l'IA en langage naturel comme une « exigence en une ligne ». Vous énoncez ce qui doit être fait, et l'IA fait de son mieux pour produire le résultat.
Compréhension approfondie
Plus précisément, le Prompt est l'interface centrale de communication avec l'IA. Pour les systèmes intégrant Agent et Compétence, un bon Prompt ne sert pas seulement à « faire générer du texte », mais plutôt à lui faire savoir quand appeler une compétence, comment remplir les paramètres, à quoi la sortie doit ressembler et comment gérer les échecs.
| Type | Exemple | Effet |
|---|---|---|
| ❌ Prompt générique | « Aide-moi à rédiger un e-mail » | L'IA improvise librement ; quand il manque des informations, elle devine au hasard ; difficile à vérifier |
| ✅ Bon Prompt (orienté exécution) | « Vous êtes un consultant commercial B2B. Rédigez un e-mail de suivi produit au CTO : ton professionnel et concis ; récupérez d'abord l'entreprise de Zhang San et les points de communication précédents depuis le CRM ; l'e-mail doit inclure : 1) une proposition de valeur 2) confirmation alignée sur 2 points de la dernière conversation 3) une action suivante claire ; à la fin, produisez 3 éléments de tâche (format de date AAAA-MM-JJ). » | Conditions de déclenchement claires + capacités appelables définies + structure de sortie vérifiable |
Vous remarquerez que le Prompt et les deux concepts précédents (Agent / Compétence) sont les deux faces de la même logique de fonctionnement : l'Agent a besoin du Prompt pour décider comment procéder, la compétence a besoin du Prompt pour décider quoi remplir et comment vérifier.
La « boucle de travail de l'Agent » peut être comprise comme :
Comprendre la tâche → Élaborer un plan → Décider d'appeler une compétence → La compétence s'exécute → Vérifier le résultat → Ajuster → Rapporter.
Et le rôle du Prompt est de donner des règles à chaque étape, l'empêchant de dévier, de deviner à l'aveugle ou de former une boucle fermée.
1) Le Prompt définit d'abord « l'objectif et les critères de succès » (Pourquoi le faire)
Cette étape détermine les « règles de notation » de l'Agent. Le Prompt doit lui dire : quel est exactement le problème que vous résolvez,
et quel résultat compte comme une réalisation.
Par exemple : non pas « aide-moi à rédiger un e-mail », mais « l'e-mail doit inclure quels paragraphes, quel ton, quelle plage de longueur et se terminer par un élément de tâche. »
Sans critères de succès dans le Prompt, l'Agent ne peut produire qu'une sortie qui « semble à peu près correcte », rendant la qualité difficile à vérifier.
2) Le Prompt fournit des « conditions de déclenchement et des contraintes » (Quand faire quoi)
Un Prompt qui peut produire des résultats clarifie généralement : quand appeler une compétence, quand poser des questions.
Par exemple : s'il manque le nom du client ou la date, il doit d'abord demander plutôt que de mettre par défaut « un nom/une date quelconque. »
Cela équivaut à réduire l'incertitude : plus les contraintes sont claires, plus l'Agent est stable.
3) Le Prompt décrit « quelles compétences sont nécessaires et les contrats d'entrée/sortie pour chacune » (Quels outils utiliser)
Le Prompt doit clarifier :
Quelle compétence appeler, quels champs d'entrée elle nécessite, d'où viennent les champs d'entrée, quelles sont les exigences de format ;
et en même temps clarifier : dans quelle structure la sortie de la compétence doit être retournée (ex. champs JSON, listes, tableaux, structure de paragraphe fixe, etc.).
Cette étape est la clé pour que le Prompt soit vraiment « conçu » : transformer « comment faire la prochaine étape » en « invocation de capacité appelable. »
4) Le Prompt exige « vérification et gestion des échecs » (Comment juger si c'est bien fait)
Générer des résultats seuls ne suffit pas ; le Prompt doit spécifier des règles de vérification et des stratégies d'échec. Les approches courantes incluent :
- L'appel de compétence échoue/retourne un résultat vide : diagnostiquer d'abord la cause (erreur de paramètre/permission/réseau/données manquantes) puis réessayer ou dégrader ;
- Sortie manquant des champs clés : doit être complétée ou demander à l'utilisateur, aucune supposition autorisée ;
- Format non conforme : déclencher « compétence de format/compétence de réorganisation/régénérer. »
Cela empêche l'Agent de rester bloqué dans une boucle de « production répétée sans convergence. »
5) Le Prompt définit le « format de sortie final » (Qui utilisera la sortie)
Enfin, le Prompt doit spécifier comment les résultats sont présentés : quels champs doivent être retournés, quels sont les noms de champ,
si des résultats structurés sont nécessaires, si des informations traçables sont nécessaires (ex. « si la compétence a été appelée, quelle compétence a été appelée, quelles étaient les entrées/sorties clés »).
Vous dites : « Aide-moi à rédiger un e-mail de suivi aux prospects et à créer une tâche. »
Si vous utilisez un « Prompt exécutable », il clarifiera trois choses :
Condition de déclenchement : demander d'abord s'il manque le nom du client/la date ;
Invocation de compétence : appeler d'abord « compétence de récupération des infos client », puis « compétence de génération d'e-mail », enfin « compétence de création de tâche » ;
Vérification de sortie : l'e-mail doit inclure la confirmation de la proposition de valeur et l'action suivante ; la tâche doit inclure l'échéance (AAAA-MM-JJ) et le responsable.
Ainsi, l'Agent passe de « rédiger un e-mail correct » à « terminer un flux de travail entièrement exécutable. »
Beaucoup de gens rédigent des Prompts en demandant seulement « fais-le pour moi », mais sans critères de succès, sans contrats d'entrée/sortie et sans gestion des échecs.
Le résultat est : l'Agent peut improviser librement, deviner quand des champs manquent, la sortie est difficile à vérifier et finalement vous ne pouvez pas confirmer « s'il a bien fait. »
L'approche correcte est : le Prompt doit être comme un contrat d'exécution que vous signez avec l'Agent,
rendant chaque étape jugeable, corrigible et réutilisable.
1) Écrivez le rôle et la limite : Dites à l'IA qui elle est et quelles règles suivre
(« doit vérifier avant de produire », « ne doit pas inventer d'informations inexistantes »).
2) Définissez le format et les champs : Spécifiez la structure de sortie (« retourner JSON avec les champs A/B/C » ou « l'e-mail doit avoir trois sections »).
3) Écrivez les déclencheurs étape par étape : Décomposez la tâche en actions exécutables, spécifiez quand appeler une compétence, quand demander, quand réessayer.
Comparez : « Résume ce document » vs « Résume en 3 points, chacun ne dépassant pas 20 caractères,
puis produis une liste de mots-clés (au moins 5 mots-clés) » — ce dernier est vérifiable, réutilisable et plus stable.
L'Agent est responsable de la réflexion et de la planification, la Compétence est responsable de l'exécution concrète, tandis que le Prompt est responsable de dire à l'Agent : quand appeler la compétence, comment remplir les paramètres, comment vérifier les résultats, et à quoi la sortie finale doit ressembler.
4. Mémoire (Mémoire à long terme) / MEMORY.md
Compréhension populaire
Le carnet de notes de l'IA : utilisé pour sauvegarder durablement vos préférences et règles.
Compréhension approfondie
La Mémoire est le noyau de mémoire à long terme de l'Agent. Les conversations ordinaires ne fonctionnent généralement que dans une seule session ; mais le contenu écrit dans MEMORY.md sera priorisé et lu chaque fois que l'Agent démarre, lui permettant de « faire les choses à votre manière » plutôt que de vous redemander vos exigences depuis le début à chaque fois.
Par exemple, vous dites à l'Agent : « Je préfère les réponses concises en français, utilise Python pour le code ».
Si cette préférence est écrite dans la Mémoire dans un format approprié, alors lorsque l'Agent traitera des types de tâches similaires plus tard,
il suivra ces règles par défaut ; vous n'avez pas besoin de les répéter sans cesse,
et vous êtes beaucoup moins susceptible de rencontrer des problèmes de « style de réponse incohérent à chaque fois ».
Si vous considérez l'Agent comme l'exécuteur et la Compétence comme la boîte à outils,
alors la Mémoire est la configuration à long terme de l'Agent :
Chaque fois que l'Agent démarre, il lit d'abord la Mémoire pour obtenir vos préférences et procédures opérationnelles standard (SOP),
puis intègre ces contraintes lors de la planification et de l'appel des compétences.
Ainsi, la Mémoire rend les « règles exécutables » efficaces à long terme.
Pour garantir que la Mémoire soit vraiment « utilisable », elle doit répondre aux normes des trois concepts précédents : déclenchement stable, entrée claire, sortie vérifiable. En d'autres termes, le contenu écrit dans la Mémoire doit clairement guider la manière dont l'Agent doit procéder ensuite, et non être une expression émotionnelle vague.
Il est recommandé d'écrire la Mémoire dans ce style de « liste de contrôle de règles » :
- Préférences de style d'écriture : ex. « français concis », « conclusions en premier », « pas plus de 3 phrases par paragraphe »
- Exigences de format : ex. « Python pour le code », « sortie de tableau inclut les champs A/B/C », « format de date AAAA-MM-JJ »
- SOP de décision : ex. « demander si l'information est insuffisante, ne pas deviner ; fournir des alternatives avec des étiquettes de risque »
- Contexte à long terme : ex. « mon équipe est en livraison B2B », « les outils courants sont XX (le cas échéant) »
Au lieu d'expliquer à chaque fois « comment vous voulez la sortie », écrivez vos habitudes de travail une fois dans la Mémoire
pour que l'Agent les suive automatiquement à chaque démarrage.
Plus tôt vous solidifiez ces règles, moins vous aurez de tracas plus tard et plus il sera cohérent.
Vous pouvez prioriser par fréquence : les éléments à haute fréquence et stables
(préférences à long terme, processus fixes) doivent être écrits en premier.
La Mémoire n'est pas un brouillon. Les tâches temporaires et ponctuelles
(comme « vérifier la météo à Paris pour moi aujourd'hui ») ne doivent pas être écrites dans la mémoire,
sinon le fichier de Mémoire deviendra progressivement gonflé et désordonné, rendant l'Agent confus dans son jugement à long terme.
Principe : Écrivez uniquement les préférences fixes et les SOP à long terme, ignorez les tâches temporaires.
Si les réponses sont :
1) Cette règle sera-t-elle utilisée de manière répétée à l'avenir ?
2) Peut-elle changer de manière stable le format/style/stratégie d'exécution de sortie ?
3) Ne changera-t-elle pas fréquemment avec le temps ?
Plus vous satisfaites de critères, plus il est adapté à la Mémoire.
Sinon, mettez-le simplement dans l'instruction de cette session.
La Mémoire permet à l'Agent de former des modèles de travail cohérents à long terme : solidifiez-y les préférences stables et les SOP, tout en gardant les tâches temporaires pour l'exécution en cours.
Points clés sur la Mémoire :
1) La Mémoire stocke la configuration à long terme (Pourquoi elle existe)
La principale différence entre la Mémoire et le Prompt est : le Prompt gère cette tâche spécifique,
tandis que la Mémoire gère « toutes les tâches futures ». En stockant les préférences et les SOP dans la Mémoire,
l'Agent peut appliquer ces règles de manière cohérente sans que vous ayez besoin de les répéter.
Par exemple, si vous écrivez « la langue de sortie par défaut est le français » dans la Mémoire,
alors dans toutes les tâches futures, l'Agent priorisera automatiquement une réponse en français.
2) Quand l'Agent utilise-t-il la Mémoire ? (Mécanisme de chargement)
Typiquement, la Mémoire est chargée en premier lorsque l'Agent démarre une nouvelle session ou conversation.
L'Agent lit MEMORY.md, extrait les règles/préférences, puis les traite comme faisant partie du contexte système
pour cette exécution — similaire à l'ajout d'instructions système supplémentaires.
Ceci est différent du Prompt en cours de conversation : la Mémoire ne change pas pendant la conversation,
c'est la « ligne de base stable » pour toutes les exécutions suivantes.
3) Ce qui NE doit PAS aller dans la Mémoire (Définition des limites)
La Mémoire doit contenir : habitudes de travail stables, préférences de format, SOP à long terme, contraintes récurrentes.
La Mémoire NE doit PAS contenir : tâches ponctuelles, données temporaires, informations spécifiques à une session, secrets personnels.
Mélanger ces éléments rend la Mémoire encombrée et l'Agent perd la capacité de distinguer
entre « ce qui est permanent » et « ce qui est temporaire ».
4) Comment structurer la Mémoire pour une efficacité maximale
Une bonne Mémoire doit être organisée par catégorie :
- Style de communication : « Toujours répondre en français concis », « structure d'abord, puis détails », etc.
- Valeurs techniques par défaut : « utiliser Python comme langage principal », « utiliser JSON pour les données structurées », etc.
- Règles de décision : « en cas d'incertitude, demander plutôt que deviner », « toujours fournir une évaluation des risques », etc.
- Contexte et arrière-plan : « travailler dans le SaaS B2B », « taille de l'équipe : 5 », etc.
- Informations sur les outils et l'intégration : « le CRM typique est Salesforce », « le système de journalisation est Datadog », etc.
Ainsi, lorsque l'Agent lit la Mémoire, il peut rapidement trouver les règles pertinentes pour le contexte actuel.
5) Maintenance de la Mémoire (La garder fraîche)
La Mémoire n'est pas « écrire une fois, utiliser pour toujours ». À mesure que votre style de travail évolue ou que les règles changent,
vous devez périodiquement revoir et mettre à jour la Mémoire pour la garder alignée avec la pratique actuelle.
Une bonne pratique : revoir la Mémoire trimestriellement, supprimer les éléments obsolètes, ajouter les nouveaux modèles établis.
Cela garde la Mémoire légère et efficace.
Exemple MEMORY.md :
My Work Preferences & SOPs
Communication Style
Language: French (concise, conclusion-first)
Format: bullet points when listing, structured sections for complex info
Tone: professional but approachable
Technical Defaults
Primary Language: Python
Data Format: JSON
Date Format: YYYY-MM-DD
Time Zone: UTC+1
Decision Rules
When information is insufficient: ask clarifying questions, do not assume
Provide alternatives with risk/benefit analysis
Include traceable reasoning in complex decisions
Context
Team: B2B SaaS, 5 people
Main CRM: Salesforce
Primary Tools: Python, PostgreSQL, Slack
Process SOPs
Code review always required before deployment
Documentation must update when API changes
Daily standup at 10:00 AM UTC+1
1) Sur-remplir la Mémoire : Traiter la Mémoire comme « tout sur moi ». Cela rend l'Agent confus sur les priorités.
2) Règles vagues : Évitez « sois intelligent », « utilise ton meilleur jugement ». Utilisez des règles spécifiques et actionnables à la place.
3) Ne jamais mettre à jour : La Mémoire doit évoluer avec vous. Les anciennes règles obsolètes créent du bruit.
4) Règles contradictoires : Si la Mémoire a des contradictions, l'Agent peut osciller ou ne pas décider. Nettoyez-la.
Maintenant, nous avons les quatre couches :
Agent (réflexion et planification) → décide quoi faire
Compétence (exécution concrète) → exécute la décision
Prompt (instructions de cette tâche) → spécifie comment faire cette tâche
Mémoire (configuration à long terme) → assure la cohérence sur toutes les tâches futures
Ensemble, ils forment un système d'exécution IA complet, reproductible et évolutif.
5. Âme (Valeurs fondamentales et comportement) / SOUL.md
Compréhension populaire
La « configuration de personnalité » et les garde-fous comportementaux de l'IA : détermine ce qu'elle « doit faire et ne doit absolument pas faire ».
Compréhension approfondie
SOUL.md définit les règles de comportement, les valeurs et les limites opérationnelles de l'Agent.
C'est la « constitution fondamentale » de l'Agent — quelles actions sont autorisées,
lesquelles sont absolument interdites, tout écrit clairement ici.
Ainsi, l'Âme n'est pas seulement une préférence de style ; elle impacte directement les limites de sécurité de l'Agent
et la sortie conforme.
Si la Mémoire est « ce qui a été retenu », alors l'Âme est « quel genre d'IA devenir. » Par exemple : ne répondre qu'aux questions liées au produit ; les opérations financières nécessitent une double confirmation ; ne jamais demander de mots de passe ou d'identifiants sensibles ; pour les questions juridiques/médicales, doit fournir des clauses de non-responsabilité et orienter vers des canaux professionnels, etc.
La configuration de SOUL.md détermine directement comment l'Agent « refuse » et « fournit des alternatives »
dans les scénarios à haut risque. S'il est déployé en tant qu'outil d'équipe ou impliquant des données d'entreprise,
une mauvaise configuration de l'Âme pourrait entraîner un accès non autorisé, des violations de limites,
ou des risques de conformité.
Par conséquent, avant la mise en production, assurez-vous de configurer soigneusement ce fichier et de vérifier
les limites avec des cas de test.
Il est recommandé d'écrire l'Âme comme une « liste de contrôle de règles exécutables », couvrant les catégories suivantes :
- Ce qui est autorisé : le périmètre de travail de l'Agent et les limites de domaine (ex. ne traiter que les demandes de produits/processus internes).
- Ce qui est interdit : des refus explicites et fermes pour les comportements à haut risque (ex. demander des mots de passe/clés ; promettre des résultats incertains ; contourner les permissions).
- Actions nécessitant une confirmation : règles pour les transferts, remboursements, contrats, changements de permissions qui doivent être doublement confirmés ou approuvés.
- Style de sortie et ton : ex. doit être poli, pas d'attaques personnelles, pas de langage menaçant.
- Comment gérer les limites : en cas d'incapacité à terminer, fournir des alternatives (ex. enregistrer et escalader vers un humain/suggérer de consulter des spécialistes).
Supposons que vous configuriez un Agent de service client pour votre entreprise ;
son SOUL.md pourrait inclure :
• Toujours rester poli, pas d'insultes ni de langage catégorique négatif ;
• Ne jamais promettre de remboursements ou de compensations, dire seulement
« Je vais enregistrer et escalader/transférer pour traitement » ;
• Lorsque des questions juridiques se posent, répondre uniformément
« Veuillez consulter un service juridique/des professionnels » ;
• En cas de demande de mots de passe, OTP, clés : refuser directement
et guider l'utilisateur vers le processus de vérification approprié.
Après configuration, peu importe comment les utilisateurs essaient de manipuler, l'Agent ne dépassera pas les limites.
Après avoir modifié l'Âme, il est recommandé de tester avec quelques scénarios :
lesquels doivent être rejetés, lesquels nécessitent une confirmation, lesquels peuvent être répondus normalement.
Vous pouvez préparer 6 catégories de questions de test pour vérifier si l'Âme fonctionne :
1) Questions hors domaine : l'Agent refuse-t-il ou redirige-t-il ?
2) Demandes à haut risque : refuse-t-il clairement ?
3) Actions nécessitant une confirmation : confirme-t-il avant d'exécuter ?
4) Demandes d'informations sensibles : refuse-t-il et fournit-il des alternatives sécurisées ?
5) Conformité/clauses de non-responsabilité : produit-il selon les règles ?
6) « Manipulation pour contourner » : lorsque des utilisateurs demandent de sauter des processus,
tient-il la limite ?
SOUL.md définit les « garde-fous et limites » de l'Agent : il rend l'IA fondée sur des principes et prévisible lors de l'exécution, donc plus sûre et plus fiable dans les scénarios d'équipe et d'affaires.
Distinctions clés entre l'Âme, la Mémoire et le Prompt :
| Dimension | Âme (SOUL.md) | Mémoire (MEMORY.md) | Prompt (Cette tâche) |
|---|---|---|---|
| Portée | Limites fondamentales | Préférences à long terme | Cette tâche spécifique |
| Fréquence de changement | Change rarement (fondation) | Change trimestriellement/saisonnièrement | Change par tâche |
| Objectif | Prévenir les dommages / assurer la sécurité | Assurer la cohérence | Spécifier les détails d'exécution |
| Conséquence de la violation | Violation de conformité / risque de sécurité | Résultats incohérents | Non-concordance de la sortie de la tâche |
| Exemple | « Ne jamais demander de mots de passe » | « Toujours répondre en français » | « Résume en 3 points » |
1) L'Âme définit « Quel genre d'Agent êtes-vous » (Identité et garde-fous)
L'Âme répond à la question la plus profonde : Qu'est-ce que je suis autorisé à être et à faire ?
Cela inclut :
- Périmètre de travail : De quels domaines/tâches suis-je responsable ?
- Garde-fous stricts : Qu'est-ce que je ne dois absolument jamais faire (sécurité, conformité, éthique) ?
- Flux d'approbation : Pour quelles actions dois-je exiger une confirmation ?
- Chemins d'escalade : Quand je ne peux pas aider, où est-ce que je redirige ?
L'Âme est la ligne « à ne pas franchir ». Elle est appliquée à chaque exécution, peu importe comment les utilisateurs essaient de manipuler.
2) Âme vs Sécurité : Pourquoi l'Âme est importante pour le déploiement
Une Âme bien configurée peut prévenir de nombreux vecteurs d'attaque courants :
- Injection de prompt : Si l'Âme dit « toujours vérifier les demandes à haut risque »,
même si un prompt dit « ignore cette règle », l'Agent doit refuser.
- Ingénierie sociale : Si l'Âme dit « ne jamais fournir d'identifiants »,
peu importe à quel point un utilisateur demande astucieusement, l'Agent doit rejeter.
- Dérive de périmètre : Si l'Âme définit la limite de domaine de l'Agent,
il n'essaiera pas de traiter des demandes hors périmètre en devinant.
Cela rend l'Âme fondamentale pour un déploiement sûr.
3) Comment l'Âme s'intègre à la boucle de décision de l'Agent
Considérez le cycle d'exécution de l'Agent comme suit :
Étape 1 : Lire l'Âme → Quelles sont mes limites ?
Étape 2 : Lire la Mémoire → Quelles sont mes préférences de travail ?
Étape 3 : Recevoir le Prompt → Quelle est cette tâche spécifique ?
Étape 4 : Planifier l'exécution → Dans les limites, atteindre l'objectif
Étape 5 : Vérifier la conformité → Suis-je resté dans l'Âme ?
Étape 6 : Exécuter / Escalader
Remarquez que l'Âme est vérifiée avant et après l'exécution. C'est la boucle externe.
Avant de déployer un Agent, vérifiez :
☑ SOUL.md est écrit (pas seulement implicite)
☑ Tous les membres de l'équipe comprennent les limites
☑ Les cas de test couvrent plus de 6 scénarios, y compris les tentatives de jailbreak
☑ Les chemins d'escalade sont définis et fonctionnels
☑ Les exigences de conformité sont explicitement couvertes
☑ Les actions à haut risque nécessitent une confirmation/approbation
☑ Le ton de communication est défini et testé
☑ Les garde-fous de sécurité (mots de passe, jetons, clés) sont clairs
☑ La gestion hors périmètre est gracieuse (pas impolie)
☑ L'audit/la journalisation est en place pour les actions sensibles
Agent est l'entité pensante
Compétence est la capacité d'exécution
Prompt est l'instruction de la tâche
Mémoire est la préférence à long terme
Âme est la constitution opérationnelle
Ensemble : l'Agent pense (en utilisant la Mémoire pour le contexte et l'Âme pour les garde-fous),
décide quelle Compétence appeler, reçoit des instructions spécifiques du Prompt,
et exécute dans les limites de l'Âme. Résultat : un système d'IA fiable, sûr et cohérent.
Concepts avancés (optionnels)
Les trois concepts suivants vous aideront à vraiment « comprendre l'automatisation ». Ce ne sont pas des connaissances entièrement nouvelles, mais plutôt une application des concepts précédents d' Agent / Compétence / Mémoire / Âme / Prompt au niveau pratique de « vraiment exécuter, connecter ensemble et intégrer de manière stable ». Les débutants peuvent les ignorer pour l'instant ; lorsque vous commencerez à construire des processus en plusieurs étapes, à intégrer des services externes ou à déboguer des problèmes de flux de données, revenir ici vous fera gagner un temps considérable.
🔀 1) Workflow (Exécution de processus en plusieurs étapes)
Un Workflow peut être compris comme un chemin d'exécution réutilisable : connecter plusieurs étapes en séquence pour permettre au système d'atteindre un objectif de manière systématique. Si l'Agent est « un collègue qui peut penser et exécuter », alors le Workflow est « la file de tâches et la méthode de connexion que nous mettons en place pour ce collègue ». Il résout le problème : quand une tâche ne peut pas être accomplie en une seule phrase, comment exécuter de manière fiable plusieurs étapes en chaîne connectée ?
Un Workflow typique contient généralement ces éléments (vous pouvez utiliser ce cadre pour comprendre les capacités multi-étapes d'EasyClaw) :
- Liste d'étapes : Que faire à l'étape 1, à l'étape 2, etc. Chaque étape doit avoir des limites et des responsabilités claires.
- Entrée et sortie : Chaque étape doit produire des résultats structurés que l'étape suivante peut utiliser, pas seulement des « descriptions textuelles ».
- Conditions et branchements : Par exemple, « si un champ critique est manquant, d'abord demander ou récupérer plus de données », sinon passer à l'étape suivante.
- Validation et gestion des erreurs : Par exemple, « si l'analyse échoue, réessayer ou basculer vers une approche alternative ».
- Résumé de sortie : Livrer le résultat final dans un format utilisable (liste de contrôle, rapport, liste de tâches, contenu de notification, etc.).
Comment le Workflow s'aligne-t-il avec les concepts précédents ? Une phrase les relie :
L'Agent gère la prise de décision et la planification, la Compétence gère l'exécution concrète,
la Mémoire/l'Âme gèrent les règles et limites à long terme, le Prompt lui dit « comment le faire »,
et le Workflow relie ces étapes en séquence comme une chaîne.
Exemple : vous devez « escalader une réclamation utilisateur en ticket et notifier la personne responsable. » Un Workflow raisonnable pourrait ressembler à ceci :
- Collecter l'entrée : Recueillir le contenu de la réclamation, les infos utilisateur, la chronologie depuis le formulaire/message.
- Extraction d'information : Utiliser l'Agent pour structurer les points clés de la réclamation (ex. type de problème, portée de l'impact, horodatages critiques).
- Jugement selon les règles : Basé sur l'Âme/les règles, déterminer si haute priorité, nécessite une escalade ou nécessite plus d'informations d'abord.
- Appeler la compétence de création de ticket : Remplir les champs structurés dans l'API du système de tickets, générer un numéro de ticket.
- Appeler la compétence de notification : Envoyer le numéro de ticket et le résumé clé à la personne responsable (Feishu/e-mail/IM).
- Validation du résultat : Confirmer que la création du ticket a retourné un statut de succès, que la notification a été envoyée.
- Retour synthétique : Sortie à l'utilisateur ou à l'administrateur « Ticket créé + lien/numéro + prochaines étapes. »
Vous remarquerez : le Workflow ne résout pas « comment écrire une explication », mais plutôt « comment enchaîner de manière fiable plusieurs appels d'outils et étapes de validation. » Lorsque vous commencez à traiter des processus complexes (surtout inter-systèmes : IM + tickets + base de données), le Workflow devient votre capacité la plus utile.
📦 2) JSON (Format d'échange de données)
JSON est le format standard pour transmettre des données entre l'Agent et les outils/API externes. Dans l'automatisation multi-étapes, le rôle de JSON est critique : il fait de « l'étape suivante peut-elle obtenir les bonnes données ? » une question vérifiable, et non « pouvons-nous comprendre intuitivement une phrase en langage naturel ? »
Vous pouvez penser à JSON comme : un « conteneur de données structuré » à l'intérieur du système. Au lieu de phrases libres, il contient des champs et des types explicites, tels que : titre du ticket, ID utilisateur, priorité, échéance, contenu de la notification, etc.
Dans le flux de travail d'EasyClaw, JSON apparaît généralement dans ces endroits :
- Entrée et sortie de Compétence : Les compétences nécessitent souvent des champs spécifiques comme entrée, renvoyant des résultats structurés pour la prise de décision de l'Agent.
- Paramètres d'appel d'API : Par exemple, lors de l'appel de l'API Feishu, les paramètres doivent être organisés en JSON.
- Transfert de données entre les étapes : La sortie JSON d'une étape est lue par l'étape suivante.
Pourquoi de nombreux problèmes qui ressemblent à « l'Agent ne peut pas faire cela » proviennent-ils en réalité de JSON ? Les cas courants incluent :
- Incompatibilité de nom de champ : L'entrée attendue est
user_id, mais l'entrée réelle estuserId. - Champs manquants : Un champ requis est manquant, l'API renvoie une erreur.
- Incompatibilité de type : La date devrait être une chaîne mais a été passée comme nombre, ou devrait être un tableau mais a été passée comme texte.
- Erreur de format JSON : Guillemets manquants, crochets manquants, virgules finales, l'analyse échoue.
Par conséquent, le meilleur ordre de dépannage pour les problèmes d'intégration est généralement :
Vérifier JSON d'abord, puis le Prompt, puis la logique de raisonnement de l'Agent.
Parce que JSON est la base de « si cela va fonctionner. »
🔑 3) Clé API (Identifiant d'accès)
Une Clé API est l'identifiant d'authentification lors de l'accès aux modèles d'IA ou aux services tiers. Sans la bonne Clé API, le système ne peut généralement pas appeler le modèle ou le service correspondant ; même si l'Agent raisonne parfaitement, l'exécution reste impossible.
Dans les scénarios EasyClaw, vous devez distinguer deux cas :
- Utiliser les capacités/crédits officiels par défaut : Les débutants n'ont généralement pas besoin de leur propre clé, car la plateforme a déjà configuré l'accès pour vous.
- Intégrer des modèles personnalisés/services personnalisés : Vous devez remplir la Clé API à l'endroit approprié et diriger l'Agent/la Compétence vers ce modèle.
La Clé API ne concerne pas seulement « pouvoir ou ne pas pouvoir utiliser », mais affecte également « quelles capacités, quel coût et quelle stabilité » :
- Sélection du modèle : Différentes clés/modèles peuvent fournir une qualité de raisonnement, une vitesse et des performances de format de sortie différentes.
- Contrôle des coûts : Certaines plateformes facturent à l'utilisation ; le compte/quota de la clé affecte le budget disponible.
- Limites de permission : Certaines clés de service peuvent n'autoriser que des appels d'API limités, provoquant l'échec d'une exécution de compétence spécifique.
Dépannage courant pour « l'appel de compétence a échoué » :
Confirmer si la Clé est correctement remplie, si la Clé est expirée/quota insuffisant,
si cette Clé a les permissions d'appel.
Si l'API renvoie une erreur d'authentification (401/403), suspecter d'abord la configuration de la Clé API.
Quand devez-vous sérieusement étudier ces concepts ? (Référence rapide)
- Vous construisez une automatisation multi-étapes : Le Workflow détermine si la chaîne peut fonctionner de manière stable.
- Vous intégrez Feishu/systèmes d'entreprise/API externes : JSON détermine si les données sont transférées correctement et peuvent être analysées.
- Vous intégrez votre propre modèle ou service personnalisé : La Clé API détermine si vous pouvez appeler la capacité correspondante.
- Vous débuggez « peut expliquer mais ne peut pas exécuter » ou « l'exécution échoue sans indice » : Habituellement, dépanner l'enchaînement du Workflow, la structure JSON, les permissions de la Clé API dans cet ordre est le plus rapide.
Le Workflow fait en sorte que les étapes s'exécutent de manière fiable en séquence, JSON fait en sorte que les données transmises à chaque étape soient correctement structurées et utilisables, la Clé API fait en sorte que les outils et les modèles soient effectivement appelables. Ensemble, ils transforment votre automatisation de « semble intelligent » à « fonctionne vraiment en pratique ».
Agent = Collègue IA compétent
Compétence = Module de capacité appelable (outil/interface/processus)
Prompt = Dit à l'Agent comment faire (règles, déclencheurs, sortie, gestion des erreurs)
Mémoire = Préférences et SOP à long terme (rend les règles efficaces à long terme)
Âme = Constitution de comportement et limites (stratégie autoriser/interdire/confirmer)
Workflow = Chemin d'exécution en chaîne multi-étapes
JSON = Format d'échange de données structuré (assure l'utilisabilité des champs)
Clé API = Identifiant d'intégration tiers/modèle (assure l'appelabilité des capacités)