5 Kernkonzepte der KI
Bevor Sie EasyClaw verwenden, nehmen Sie sich 5 Minuten Zeit, um diese Konzepte kennenzulernen â sie helfen Ihnen zu verstehen, wie KI wirklich funktioniert, anstatt blind Anweisungen einzugeben.
Sie mĂŒssen kein Ingenieur sein, aber Sie sollten wissen: warum KI Dinge tun kann, wie man sie prĂ€ziser macht und wann sie Fehler machen kann.
1. Agent (Intelligenter Agent)
Wie Einsteiger es verstehen
Ein Agent (Intelligenter Agent) lĂ€sst sich einfach so beschreiben: âein KIâKollege, der Dinge erledigtâ. Er kann nicht nur chatten und erklĂ€ren, sondern vor allem Ihre Ziele in konkrete Schritte umsetzen und nach jedem Schritt weitermachen, bis das gewĂŒnschte Ergebnis erreicht ist.
KernĂŒbersicht zum AIâAgenten
Ein typischer AIâAgent setzt sich aus drei Teilen zusammen:
Gehirn (Verstehen & Entscheiden) + Werkzeuge/FĂ€higkeiten (wo ausgefĂŒhrt wird) + AusfĂŒhrungsschleife (PrĂŒfen wĂ€hrend der AusfĂŒhrung).
Deshalb wirkt er nicht wie eine âeinmalige Antwortgenerierungâ, sondern eher wie ein Projektmanager:
erst durchdenken, dann handeln, dann ĂŒberprĂŒfen.
Als NĂ€chstes klĂ€ren wir, wie es funktioniert. Sie können sich den Arbeitsprozess des Agenten als eine wiederholt ausgefĂŒhrte Schleife vorstellen: Aufgabe verstehen â Plan erstellen â Werkzeuge aufrufen â Aktion ausfĂŒhren â Ergebnis prĂŒfen â Anpassen â Berichten.
1) Die Aufgabe verstehen:
Der Agent wird zunÀchst ermitteln, welches Problem Sie lösen möchten, wie Erfolg aussieht
und ob es EinschrĂ€nkungen gibt (z.âŻB. Format, Tonfall, Zeitrahmen, was er nicht tun soll).
Wenn die Informationen nicht ausreichen, stellt er möglicherweise zuerst Fragen oder trifft notwendige Annahmen und erklÀrt diese.
2) Einen Plan erstellen (Schritte zerlegen):
GroĂe Aufgaben mĂŒssen oft in kleinere Schritte zerlegt werden. Zum Beispiel könnte âPosteingang organisierenâ so unterteilt werden:
EâMails scannen â Typen identifizieren (Benachrichtigungen/Rechnungen/Kunden/Verschiedenes) â PrioritĂ€t bewerten â
Archivieren â AntwortentwĂŒrfe (falls nötig) â Liste zusammenfassen. Dieser Schritt legt fest, âwas zuerst und was als NĂ€chstes getan wirdâ.
3) Werkzeuge/FĂ€higkeiten aufrufen:
Das ist auch der SchlĂŒssel dazu, wie der Agent âDinge erledigenâ kann. Ohne Werkzeuge bleibt er auf der Ebene
textbasierter RatschlĂ€ge; mit Werkzeugen kann er tatsĂ€chlich Aktionen ausfĂŒhren, wie: Dateien lesen, Informationen suchen,
Nachrichten senden, auf Unternehmenssysteme zugreifen, Dokumente generieren usw.
Sie werden sehen, wie der Agent âmit der AuĂenwelt interagiertâ und nicht nur einen Satz generiert.
4) AusfĂŒhren und Aufzeichnen:
In geeigneten Schritten wird der Agent tatsĂ€chlich Operationen auslösen (z.âŻB. Aufruf einer ServiceâAPI,
Abschluss einer Datenverarbeitungsaufgabe, Generierung nutzbarer Inhalte).
Gleichzeitig zeichnet er auf, âwelchen Schritt ich abgeschlossen habeâ, sodass spĂ€ter leichter fortgefahren oder zur Korrektur zurĂŒckgerollt werden kann.
5) ĂberprĂŒfung und Fehlerkorrektur:
Der Agent strebt nicht nur danach, dass es âabgeschlossen aussiehtâ; er prĂŒft auch, ob das Ergebnis den Anforderungen entspricht.
Zum Beispiel: Fehlen dem Output SchlĂŒsselfelder, verstöĂt er gegen Ihre Formatvorgaben,
gibt es offensichtliche Fehler oder Unsicherheiten? Wenn es nicht zufriedenstellend ist, plant er den nÀchsten Schritt neu und iteriert weiter.
6) Ergebnisse und nÀchste Schritte berichten:
SchlieĂlich fasst der Agent die erledigten Inhalte, wichtige Erkenntnisse
und Punkte, die Ihre BestĂ€tigung benötigen, fĂŒr Sie zusammen. Sie können klar erkennen: was er getan hat, was abgeschlossen wurde und was noch in Bearbeitung ist.
You say: "Please organize my inbox and summarize emails that need my reply into a to-do list."
The Agent might: read email list â categorize and archive â extract sender/subject/key timeline â
determine which need replies â generate "to-do list" (with priority and suggested reply points) â
tell you "completed these categories, still have unread/uncertain items left."
Note: It's not just giving "organizing thoughts," but producing usable results
(lists/archives/drafts/progress).
AnfĂ€nger behandeln einen Agenten oft wie einen normalen Chatbot und fragen nur: âWie macht man das?â Ein echter Agent braucht jedoch nutzbare FĂ€higkeiten und AusfĂŒhrungsâWorkflows. Ein System, das nur Schritte erklĂ€ren kann, aber keine Ergebnisse produziert oder Aktionen auslöst, ist eher ein âFrageâAntwortâAssistentâ als ein Agent. Merken Sie sich: Reden â Handeln; der Vorteil eines Agenten liegt in AusfĂŒhrung und Feedback.
2. Skill (FĂ€higkeit)
Wie Einsteiger es verstehen
Skill (FÀhigkeit) lÀsst sich so verstehen: die konkreten FÀhigkeitsmodule, mit denen der Agent Dinge erledigt.
Der Agent ist fĂŒr das Denken und die Koordination zustĂ€ndig (Aufgaben annehmen, nĂ€chste Schritte festlegen), wĂ€hrend der Skill
âwie der nĂ€chste Schritt ausgefĂŒhrt wirdâ in ausfĂŒhrbare Aktionen umsetzt: etwa Informationen abrufen, Dokumente schreiben,
Berichte generieren, Schnittstellen aufrufen, Berechnungen durchfĂŒhren usw.
Ein Agent ohne Skills bleibt meist auf der Ratschlagsebene; erst mit Skills kann ein Agent wirklich Ergebnisse liefern.
Was ein Skill genau ist (das Wesentliche)
Aus technischer Sicht ist ein Skill in der Regel eine âaufrufbare FĂ€higkeitâ, die hĂ€ufig in folgenden Formen auftritt:
1) Werkzeuge/Funktionen (z.âŻB. suchen, berechnen, generieren, ĂŒbersetzen);
2) GeschĂ€ftsprozesse (z.âŻB. Bestellung aufgeben, Reisekostenabrechnung, Ticket erstellen);
3) Schnittstellenaufrufe (z.âŻB. CRMâAbfragen, Kalender synchronisieren, EâMails senden).
Die Frage ist nicht, âob er chatten kannâ, sondern dass Skills klare Grenzen haben:
was die Eingabe ist, wie sie ausgefĂŒhrt wird und was die Ausgabe ist.
Dadurch kann der Agent Aufgaben zuverlĂ€ssiger zerlegen und nach der AusfĂŒhrung nachprĂŒfbare Ergebnisse erhalten.
Im AgentenâKreislauf taucht hĂ€ufig der Schritt âWerkzeuge/FĂ€higkeiten aufrufenâ auf, und das, was dabei aufgerufen wird, ist meist ein Skill. Man kann es sich so vorstellen: Der Agent ist wie ein Gehirn, Skills sind wie HĂ€nde, FĂŒĂe und ein Werkzeugkasten.
Um tiefer zu gehen, erklĂ€ren wir ausfĂŒhrlich, âwie Skills im AgentenâKreislauf funktionierenâ:
1) Der Agent entscheidet, welcher Skill benötigt wird
Wenn die Aufgabe in die AusfĂŒhrungsphase eintritt, analysiert der Agent, welche FĂ€higkeiten fĂŒr den aktuellen Schritt erforderlich sind.
Zum Beispiel benötigt âhistorische Kommunikationsdaten eines Kunden findenâ einen Skill vom Typ âAbrufen/Lesenâ;
âeine FolgeâEâMail entwerfenâ braucht einen Skill vom Typ âText generieren/Vorlage verwendenâ;
âAufgabe mit dem ToâDoâSystem synchronisierenâ benötigt einen Skill vom Typ âSchreiben/Aktualisierenâ.
2) Der Agent fĂŒllt Parameter in den Skill ein (Eingabe)
Skills erfordern in der Regel ein bestimmtes Eingabeformat, zum Beispiel: Stichworte, Zeitrahmen, KundenâID, Zielgruppe, Ausgabestil usw.
Der Agent extrahiert den Kontext und bereitet ihn als die vom Skill benötigten Parameter auf.
Dieser Schritt entscheidet ĂŒber die Genauigkeit der AusfĂŒhrung: ist die Eingabe falsch, wird die Ausgabe mit hoher Wahrscheinlichkeit abweichen.
3) Der Skill fĂŒhrt aus und liefert ein Ergebnis (Ausgabe)
Nach der AusfĂŒhrung gibt der Skill strukturierte oder halbstrukturierte Ergebnisse zurĂŒck, etwa: abgerufene Listen, Berechnungsergebnisse,
generierten Dokumenttext, von der API zurĂŒckgegebene Statuscodes usw.
Diese Ergebnisse können vom Agenten erneut eingelesen und fĂŒr nachfolgende Entscheidungen verwendet werden.
4) Der Agent ĂŒberprĂŒft die Ausgabe und fĂ€hrt mit dem nĂ€chsten Schritt fort (geschlossener Kreislauf)
Der Abschluss eines Skills ist nicht der Endpunkt; der Agent prĂŒft auĂerdem: ErfĂŒllt das Ergebnis die Vorgaben?
Fehlen Informationen? Ist eine zweite Generierung oder Korrektur nötig?
Wenn es nicht zufriedenstellend ist, kann er einen weiteren Skill aufrufen (z.âŻB. âergĂ€nzende Sucheâ, âText umschreibenâ, âAusgabe formatierenâ) und erneut iterieren.
Das ist der âkooperative geschlossene Kreislaufâ von Skill und Agent.
AnfĂ€nger halten einen Skill oft fĂŒr eine âChatâAnweisungâ. Doch ein echter Skill gleicht eher einer âSchnittstelleâ:
Je klarer die Eingabe, desto stabiler die Ausgabe; nur so kann der Agent zuverlĂ€ssig wiederholt ausfĂŒhren und Aufgaben erledigen.
Selbst bei derselben âEâMail generierenâ verlangt ein Skill beispielsweise Tonfall, LĂ€nge, EmpfĂ€ngerinformationen und inhaltliche SchlĂŒsselfelder,
damit der generierte Inhalt nicht jedes Mal abweicht.
Beispiel: Sie bitten den Agenten, âeine FolgeâEâMail an potenzielle Kunden zu schreiben und ein ToâDo anzulegen.â
Das verknĂŒpft ĂŒblicherweise mehrere Skills zu einer vollstĂ€ndigen Handlungskette:
1) Skill zur Kundendatenabfrage: Eingabe KundenâID/Name, Ausgabe Name, Unternehmen, wichtigste Punkte der letzten Kommunikation;
2) Skill zur Informationsextraktion/Zusammenfassung: Eingabe Kommunikationsverlauf, Ausgabe Kernprobleme und erreichte Punkte;
3) Skill zur EâMailâGenerierung: Eingabe Tonfall (professionell/freundlich), Vorlage (Followâup/Abschluss), Kernpunkte, Ausgabe EâMailâText;
4) Skill zur ToâDoâErzeugung: Eingabe EâMailâInhalt und HandlungsvorschlĂ€ge, Ausgabe ToâDoâEintrĂ€ge (Verantwortlicher, Frist, Schritte);
5) Skill zum Schreiben in Kalender/ToâDoâSystem: Eingabe strukturierte ToâDoâDaten, Ausgabe Erfolgsstatus oder Link.
Sie werden feststellen: Der Agent scheint âVertriebsarbeit zu verstehenâ, aber dahinter stecken SkillâModule, die reale FĂ€higkeiten zu einem Workflow zusammensetzen. Der Agent ist dafĂŒr verantwortlich, diese FĂ€higkeiten in der richtigen Reihenfolge einzusetzen.
Viele verstehen einen Skill bei der Systemintegration als ein PromptâSegment oder eine EinâSatzâAnweisung.
Doch ohne klare Einâ/Ausgabe und ausfĂŒhrbare Mechanismen kann der Agent dieselben Ergebnisse nicht stabil reproduzieren.
Das treffendere VerstÀndnis lautet: Ein Skill ist eine aufrufbare FÀhigkeitseinheit,
der Prompt hilft nur dabei, ihn besser âauszuwĂ€hlen/zu organisierenâ.
Mit drei Fragen lÀsst sich das schnell beurteilen:
Kann es aufgerufen werden?
Welche Eingabe benötigt es und was ist die Ausgabe?
ErhĂ€lt der Agent nach der AusfĂŒhrung ein verwertbares Ergebnis (und nicht nur eine ErklĂ€rung)?
Treffen diese Punkte zu, handelt es sich eher um einen Skill; andernfalls ist es vielleicht nur eine âberatende TextfĂ€higkeitâ.
Verwenden Sie weiterhin den âArbeitskreislaufâ des Agenten, um Skill zu verstehen: Der Agent ist fĂŒr Denken und Koordination zustĂ€ndig, der Skill fĂŒr die AusfĂŒhrung konkreter Schritte. Wenn der Agent feststellt, dass eine Aufgabe eine bestimmte FĂ€higkeit erfordert, wĂ€hlt er den passenden Skill aus, ĂŒbergibt ihm die nötigen Parameter, wartet auf das Ergebnis und bringt es zurĂŒck in den Kreislauf â zur ĂberprĂŒfung, ErgĂ€nzung oder Planung des nĂ€chsten Schritts.
Beispiel: Sie bitten den Agenten, âeine KundenâFollowâupâMail zu schreiben und ein ToâDo zu generieren.â
Er könnte verschiedene Skills aufrufen:
1) Kundeninformationen abrufen (Name, letzte Kommunikationspunkte holen);
2) EâMailâEntwurf generieren (Ausgabe nach Tonfall/LĂ€nge/Vorlage);
3) ToâDoâListe erstellen (nĂ€chste Schritte in Einzelpunkte zerlegen).
Erst das Zusammenspiel dieser Skills erzeugt das Verhalten eines Agenten, das âsehr kompetent aussiehtâ.
Skills verwandeln den Agenten von âkann redenâ zu âkann Ergebnisse liefernâ und bringen meist drei Vorteile:
ZuverlĂ€ssiger (festgelegte Schritte, klare Parameter), besser kontrollierbar (man weiĂ, was er tut),
besser wiederverwendbar (dieselbe FĂ€higkeit fĂŒr unterschiedliche Aufgaben nutzbar).
Manche denken, Skill sei dasselbe wie âPromptâ. TatsĂ€chlich ist ein Skill eher ein aufrufbares FĂ€higkeitsmodul (Werkzeug/Schnittstelle/Prozess). Ohne klare Einâ/Ausgabe und AusfĂŒhrungsweise kann der Agent denselben Effekt nur schwer stabil wiederholen.
3. Prompt (Eingabeaufforderung)
Allgemeines VerstÀndnis
Ein Prompt (Eingabeaufforderung) ist das, was Sie der KI in natĂŒrlicher Sprache als âEin-Satz-Anforderungâ mitteilen. Sie sagen, was zu tun ist, und die KI gibt ihr Bestes, um das Ergebnis zu produzieren.
Tieferes VerstÀndnis
Genauer gesagt ist der Prompt die zentrale Schnittstelle fĂŒr die Kommunikation mit der KI. FĂŒr Systeme mit integriertem Agent und Skill ist ein guter Prompt nicht nur âlass es Text generierenâ, sondern er sorgt dafĂŒr, dass die KI weiĂ, wann ein Skill aufzurufen ist, wie Parameter auszufĂŒllen sind, wie die Ausgabe aussehen soll und wie mit Fehlern umzugehen ist.
| Typ | Beispiel | Wirkung |
|---|---|---|
| â Allgemeiner Prompt | âHilf mir, eine E-Mail zu schreibenâ | Die KI improvisiert frei; bei fehlenden Informationen rĂ€t sie; schwer zu ĂŒberprĂŒfen |
| â Guter Prompt (ausfĂŒhrungsorientiert) | âDu bist ein B2B-Vertriebsberater. Schreibe eine Produkt-Follow-up-E-Mail an den CTO: professioneller und prĂ€gnanter Ton; rufe zunĂ€chst Zhang Sans Unternehmen und frĂŒhere Kommunikationspunkte aus dem CRM ab; die E-Mail muss enthalten: 1) ein Wertversprechen 2) BestĂ€tigung abgestimmt auf 2 Punkte aus dem letzten GesprĂ€ch 3) klare nĂ€chste Aktion; gib am Ende 3 To-do-EintrĂ€ge aus (Datumsformat YYYY-MM-DD).â | Klare Auslösebedingungen + definierte aufrufbare FĂ€higkeiten + ĂŒberprĂŒfbare Ausgabestruktur |
Sie werden feststellen, dass Prompt und die beiden vorherigen Konzepte (Agent / Skill) zwei Seiten derselben Betriebslogik sind: Der Agent benötigt den Prompt, um zu entscheiden, wie er vorgeht; der Skill benötigt den Prompt, um zu entscheiden, was ausgefĂŒllt und wie ĂŒberprĂŒft wird.
âDer Arbeitsschleife des Agentenâ lĂ€sst sich so verstehen:
Aufgabe verstehen â Plan erstellen â Entscheiden, Skill aufzurufen â Skill ausfĂŒhren â Ergebnis ĂŒberprĂŒfen â Weiter anpassen â Berichten.
Und die Rolle des Prompts besteht darin, bei jedem Schritt Regeln vorzugeben, damit der Agent nicht abweicht, nicht blind rÀt und einen geschlossenen Kreislauf bildet.
1) Der Prompt definiert zuerst âZiel und Erfolgskriterienâ (Warum es tun)
Dieser Schritt legt die âBewertungsregelnâ des Agenten fest. Der Prompt muss ihm sagen: Welches Problem genau lösen Sie,
und welches Ergebnis gilt als abgeschlossen.
Zum Beispiel: nicht âhilf mir, eine E-Mail zu schreibenâ, sondern âdie E-Mail muss folgende AbsĂ€tze enthalten, welchen Ton haben, welche LĂ€nge, und am Ende einen To-do-Eintrag enthalten.â
Ohne Erfolgskriterien im Prompt kann der Agent nur eine Ausgabe produzieren, die âungefĂ€hr richtig aussiehtâ, was die QualitĂ€t schwer ĂŒberprĂŒfbar macht.
2) Der Prompt liefert âAuslösebedingungen und EinschrĂ€nkungenâ (Wann was zu tun ist)
Ein Prompt, der Ergebnisse liefern kann, klÀrt normalerweise: wann ein Skill aufzurufen ist, wann Fragen zu stellen sind.
Zum Beispiel: Wenn Kundenname oder Datum fehlen, muss zuerst nachgefragt werden, anstatt standardmĂ€Ăig âirgendeinen Namen/Datum zu schreibenâ.
Das ist gleichbedeutend mit der Reduzierung von Unsicherheit: Je klarer die EinschrÀnkungen, desto stabiler der Agent.
3) Der Prompt beschreibt âWelche Skills benötigt werden und die Eingabe-/AusgabevertrĂ€ge fĂŒr jedenâ (Welche Werkzeuge zu verwenden sind)
Der Prompt muss klarstellen:
Welcher Skill aufzurufen ist, welche Eingabefelder er benötigt, woher die Eingabefelder kommen, welche Formatanforderungen bestehen;
und gleichzeitig klĂ€ren: In welcher Struktur soll die Skill-Ausgabe zurĂŒckgegeben werden (z.âŻB. JSON-Felder, Listen, Tabellen, feste Absatzstruktur usw.).
Dieser Schritt ist entscheidend dafĂŒr, dass der Prompt wirklich âdurchgeplantâ ist: aus âwie der nĂ€chste Schritt zu tun istâ wird ein âaufrufbarer FĂ€higkeitsaufrufâ.
4) Der Prompt verlangt âĂberprĂŒfung und Fehlerbehandlungâ (Wie beurteilt man, ob es richtig gemacht wurde)
Ergebnisse zu generieren allein reicht nicht; der Prompt muss ĂberprĂŒfungsregeln und Fehlerstrategien vorgeben. Ăbliche AnsĂ€tze sind:
- Skill-Aufruf schlĂ€gt fehl / gibt leeres Ergebnis zurĂŒck: zuerst die Ursache diagnostizieren (Parameterfehler/Berechtigung/Netzwerk/fehlende Daten), dann erneut versuchen oder downgraden;
- Ausgabe ohne SchlĂŒsselfelder: muss vervollstĂ€ndigt oder der Benutzer gefragt werden, kein Raten erlaubt;
- Format passt nicht: âFormatierungs-Skill/Neuordnungs-Skill/neu generierenâ auslösen.
Das verhindert, dass der Agent in einer Schleife von âwiederholtem Ausgeben ohne Konvergenzâ stecken bleibt.
5) Der Prompt definiert das âEndgĂŒltige Ausgabeformatâ (Wer wird die Ausgabe verwenden)
SchlieĂlich muss der Prompt festlegen, wie die Ergebnisse prĂ€sentiert werden: welche Felder mĂŒssen zurĂŒckgegeben werden, wie die Feldnamen lauten,
ob strukturierte Ergebnisse benötigt werden, ob nachverfolgbare Informationen erforderlich sind (z.âŻB. âob ein Skill aufgerufen wurde, welcher Skill aufgerufen wurde, was die wichtigsten Ein-/Ausgaben warenâ).
Sie sagen: âHilf mir, eine Follow-up-E-Mail an potenzielle Kunden zu schreiben und ein To-do anzulegen.â
Wenn Sie einen âausfĂŒhrbaren Promptâ verwenden, klĂ€rt er drei Dinge:
Auslösebedingung: zuerst fragen, wenn Kundenname/Datum fehlt;
Skill-Aufruf: zuerst âKundeninfo abrufen Skillâ aufrufen, dann âE-Mail generieren Skillâ, schlieĂlich âTo-do anlegen Skillâ;
AusgabeĂŒberprĂŒfung: E-Mail muss BestĂ€tigung des Wertversprechens und nĂ€chste Aktion enthalten; To-do muss Frist (YYYY-MM-DD) und Verantwortlichen enthalten.
Auf diese Weise verwandelt sich der Agent von âeine anstĂ€ndige E-Mail schreibenâ in âeinen vollstĂ€ndig ausfĂŒhrbaren Workflow abschlieĂenâ.
Viele Leute schreiben einen Prompt nur mit der Bitte âmach das fĂŒr michâ, aber ohne Erfolgskriterien, ohne Ein-/AusgabevertrĂ€ge und ohne Fehlerbehandlung.
Das Ergebnis: Der Agent improvisiert möglicherweise frei, rĂ€t bei fehlenden Feldern, die Ausgabe ist schwer zu ĂŒberprĂŒfen, und letztlich können Sie nicht bestĂ€tigen, âob es richtig warâ.
Der richtige Ansatz ist: Der Prompt sollte wie ein AusfĂŒhrungsvertrag sein, den Sie mit dem Agenten schlieĂen,
damit jeder Schritt beurteilbar, korrigierbar und wiederverwendbar wird.
1) Rolle und Grenzen schreiben: Sagen Sie der KI, wer sie ist und welche Regeln sie befolgen soll
(âmuss vor der Ausgabe ĂŒberprĂŒfenâ, âdarf keine nicht existierenden Informationen erfindenâ).
2) Format und Felder definieren: Geben Sie die Ausgabestruktur vor (âJSON mit den Feldern A/B/C zurĂŒckgebenâ oder âE-Mail muss drei Abschnitte enthaltenâ).
3) Schritt-fĂŒr-Schritt-Auslöser schreiben: Zerlegen Sie die Aufgabe in ausfĂŒhrbare Aktionen, geben Sie an, wann ein Skill aufzurufen, wann zu fragen und wann ein erneuter Versuch zu starten ist.
Vergleichen Sie: âFassen Sie dieses Dokument zusammenâ vs. âFassen Sie es in 3 AufzĂ€hlungspunkten zusammen, jeder maximal 20 Zeichen,
und geben Sie dann eine Liste mit SchlĂŒsselwörtern aus (mindestens 5)â â letzteres ist ĂŒberprĂŒfbar, wiederverwendbar und stabiler.
Der Agent ist fĂŒr Denken und Koordination zustĂ€ndig, der Skill fĂŒr die konkrete AusfĂŒhrung, wĂ€hrend der Prompt dem Agenten sagt: wann ein Skill aufzurufen ist, wie Parameter auszufĂŒllen sind, wie Ergebnisse zu ĂŒberprĂŒfen sind und wie die endgĂŒltige Ausgabe aussehen soll.
4. Memory (LangzeitgedÀchtnis) / MEMORY.md
Allgemeines VerstÀndnis
Das Notizbuch der KI: dient dazu, Ihre PrÀferenzen und Regeln dauerhaft zu speichern.
Tieferes VerstÀndnis
Memory ist der LangzeitgedĂ€chtnis-Kern des Agenten. Gewöhnliche Konversationen gelten meist nur innerhalb einer einzelnen Sitzung; aber Inhalte, die in MEMORY.md geschrieben werden, werden bei jedem Start des Agenten vorrangig gelesen, sodass er âdie Dinge auf Ihre Weise erledigt", statt Sie jedes Mal von Grund auf nach Ihren Anforderungen zu fragen.
Zum Beispiel sagen Sie dem Agenten: âIch bevorzuge prĂ€gnante Antworten auf Deutsch, nutze Python fĂŒr Code".
Wenn diese PrÀferenz in einem geeigneten Format in Memory geschrieben wird, wird der Agent spÀter bei Àhnlichen Aufgabentypen
diese Regeln standardmĂ€Ăig befolgen; Sie mĂŒssen sie nicht jedes Mal wiederholen,
und es ist viel unwahrscheinlicher, dass âder Antwortstil jedes Mal inkonsistent ist".
Wenn Sie den Agenten als AusfĂŒhrenden und den Skill als Werkzeugkasten betrachten,
dann ist Memory die Langzeitkonfiguration des Agenten:
Jedes Mal, wenn der Agent startet, liest er zuerst Memory, um Ihre PrÀferenzen und SOPs zu erhalten,
und bringt diese EinschrÀnkungen dann bei der Planung und beim Aufruf von Skills ein.
So macht Memory âausfĂŒhrbare Regeln" langfristig wirksam.
Damit Memory wirklich ânutzbar" ist, muss es die Standards der vorherigen drei Konzepte erfĂŒllen: stabile Auslösung, klare Eingabe, ĂŒberprĂŒfbare Ausgabe. Anders gesagt: Inhalte, die in Memory geschrieben werden, sollten klar vorgeben, wie der Agent als NĂ€chstes vorgehen soll, und kein vager emotionaler Ausdruck sein.
Es wird empfohlen, Memory in dieser âRegel-Checkliste"-Form zu schreiben:
- PrĂ€ferenzen zum Schreibstil: z.âŻB. âprĂ€gnantes Deutsch", âFazit zuerst", ânicht mehr als 3 SĂ€tze pro Absatz"
- Formatvorgaben: z.âŻB. âPython fĂŒr Code", âTabellenausgabe enthĂ€lt Felder A/B/C", âDatumsformat YYYY-MM-DD"
- Entscheidungs-SOPs: z.âŻB. âbei unzureichenden Informationen nachfragen, nicht raten; Alternativen mit Risikohinweisen anbieten"
- Langfristiger Kontext: z.âŻB. âmein Team arbeitet im B2B-Bereich", âgĂ€ngige Tools sind XX (wo zutreffend)"
Statt jedes Mal zu erklĂ€ren, âwie Sie die Ausgabe wĂŒnschen", schreiben Sie Ihre Arbeitsgewohnheiten einmal in Memory,
sodass der Agent sie bei jedem Start automatisch befolgt.
Je frĂŒher Sie diese Regeln festigen, desto weniger Aufwand spĂ€ter und desto konsistenter wird es sein.
Sie können nach HÀufigkeit priorisieren: hÀufig verwendete und stabile Punkte
(langfristige PrÀferenzen, feste Prozesse) sollten zuerst geschrieben werden.
Memory ist kein Entwurfsordner. TemporÀre, einmalige Aufgaben
(wie âschau fĂŒr mich nach dem Wetter in Berlin") sollten nicht in Memory geschrieben werden,
sonst wird die Memory-Datei allmĂ€hlich aufgeblĂ€ht und unĂŒbersichtlich, was den Agenten bei langfristigen Entscheidungen verwirrt.
Prinzip: Nur feste PrÀferenzen und langfristige SOPs aufnehmen, temporÀre Aufgaben ignorieren.
Wenn die Antworten lauten:
1) Wird diese Regel in Zukunft wiederholt verwendet?
2) Kann sie das Ausgabeformat / den Stil / die AusfĂŒhrungsstrategie stabil verĂ€ndern?
3) Wird sie sich im Laufe der Zeit nicht hÀufig Àndern?
Je mehr Kriterien Sie erfĂŒllen, desto geeigneter ist es fĂŒr Memory.
Andernfalls fĂŒgen Sie es einfach in die Anweisung fĂŒr diese Sitzung ein.
Memory ermöglicht es dem Agenten, langfristig konsistente Arbeitsweisen zu entwickeln: stabile PrĂ€ferenzen und SOPs darin verfestigen, wĂ€hrend temporĂ€re Aufgaben fĂŒr die aktuelle AusfĂŒhrung bleiben.
Wichtige Punkte zu Memory:
1) Memory speichert die Langzeitkonfiguration (Warum es existiert)
Der Hauptunterschied zwischen Memory und Prompt ist: Prompt behandelt diese spezifische Aufgabe,
wĂ€hrend Memory sich um âalle zukĂŒnftigen Aufgaben" kĂŒmmert. Durch das Speichern von PrĂ€ferenzen und SOPs in Memory
kann der Agent diese Regeln konsistent anwenden, ohne dass Sie sie wiederholen mĂŒssen.
Wenn Sie zum Beispiel in Memory schreiben âStandard-Ausgabesprache ist Deutsch",
dann wird der Agent bei allen zukĂŒnftigen Aufgaben automatisch bevorzugt auf Deutsch antworten.
2) Wann verwendet der Agent Memory? (Lademechanismus)
In der Regel wird Memory zuerst geladen, wenn der Agent eine neue Sitzung oder Konversation startet.
Der Agent liest MEMORY.md, extrahiert die Regeln/PrÀferenzen und behandelt sie dann als Teil des Systemkontexts
fĂŒr diese AusfĂŒhrung â Ă€hnlich wie das HinzufĂŒgen zusĂ€tzlicher Systemanweisungen.
Das unterscheidet sich vom Prompt mitten in der Konversation: Memory Àndert sich wÀhrend der Konversation nicht,
es ist die âstabile Grundlinie" fĂŒr alle nachfolgenden AusfĂŒhrungen.
3) Was sollte NICHT in Memory (Grenzsetzung)
Memory sollte enthalten: stabile Arbeitsgewohnheiten, FormatprÀferenzen, langfristige SOPs, wiederkehrende EinschrÀnkungen.
Memory sollte NICHT enthalten: einmalige Aufgaben, temporÀre Daten, sitzungsspezifische Informationen, persönliche Geheimnisse.
Wenn diese vermischt werden, wird Memory unĂŒbersichtlich und der Agent verliert die FĂ€higkeit zu unterscheiden,
was âdauerhaft" und was âvorĂŒbergehend" ist.
4) Wie strukturiert man Memory fĂŒr maximale Wirksamkeit
Gutes Memory sollte nach Kategorien organisiert sein:
- Kommunikationsstil: âImmer in prĂ€gnantem Deutsch antworten", âzuerst Struktur, dann Details" usw.
- Technische Voreinstellungen: âPython als Hauptsprache verwenden", âJSON fĂŒr strukturierte Daten" usw.
- Entscheidungsregeln: âbei Unsicherheit nachfragen statt raten", âimmer eine Risikobewertung geben" usw.
- Kontext & Hintergrund: âArbeit im B2B-SaaS-Bereich", âTeamgröĂe ist 5" usw.
- Tool- & Integrationsinformationen: âĂŒbliches CRM ist Salesforce", âLog-System ist Datadog" usw.
Auf diese Weise kann der Agent beim Lesen von Memory schnell die relevanten Regeln fĂŒr den aktuellen Kontext finden.
5) Memory-Wartung (es frisch halten)
Memory ist nicht âeinmal schreiben, fĂŒr immer nutzen". Wenn sich Ihr Arbeitsstil weiterentwickelt oder Regeln Ă€ndern,
sollten Sie Memory regelmĂ€Ăig ĂŒberprĂŒfen und aktualisieren, um es an die aktuelle Praxis anzupassen.
Eine gute Praxis: vierteljĂ€hrlich Memory ĂŒberprĂŒfen, veraltete Punkte entfernen, neue etablierte Muster hinzufĂŒgen.
So bleibt Memory schlank und effektiv.
MEMORY.md Beispiel:
Meine ArbeitsprÀferenzen & SOPs
Kommunikationsstil
Sprache: Deutsch (prÀgnant, Fazit zuerst)
Format: AufzĂ€hlungspunkte bei Listen, strukturierte Abschnitte fĂŒr komplexe Informationen
Tonfall: professionell, aber zugÀnglich
Technische Voreinstellungen
Hauptsprache: Python
Datenformat: JSON
Datumsformat: YYYY-MM-DD
Zeitzone: UTC+1
Entscheidungsregeln
Bei unzureichenden Informationen: klÀrende Fragen stellen, nicht annehmen
Alternativen mit Risiko-/Nutzen-Analyse anbieten
Nachvollziehbare BegrĂŒndung bei komplexen Entscheidungen
Kontext
Team: B2B SaaS, 5 Personen
Haupt-CRM: Salesforce
Hauptwerkzeuge: Python, PostgreSQL, Slack
Prozess-SOPs
Code-Review immer vor dem Deployment erforderlich
Dokumentation muss bei API-Ănderungen aktualisiert werden
TĂ€gliches Standup um 10:00 Uhr UTC+1
1) Memory ĂŒberfĂŒllen: Memory wie âalles ĂŒber mich" behandeln. Das verwirrt den Agenten bei den PrioritĂ€ten.
2) Vage Regeln: Vermeiden Sie âsei schlau", ânutze dein bestes Urteilsvermögen". Verwenden Sie stattdessen konkrete, umsetzbare Regeln.
3) Niemals aktualisieren: Memory sollte sich mit Ihnen weiterentwickeln. Alte, veraltete Regeln erzeugen StörgerÀusche.
4) WidersprĂŒchliche Regeln: Wenn Memory WidersprĂŒche enthĂ€lt, kann der Agent schwanken oder keine Entscheidung treffen. RĂ€umen Sie es auf.
Jetzt haben wir alle vier Ebenen:
Agent (Denken & Koordination) â entscheidet, was zu tun ist
Skill (konkrete AusfĂŒhrung) â fĂŒhrt die Entscheidung aus
Prompt (Anweisungen fĂŒr diese Aufgabe) â legt fest, wie diese Aufgabe zu erledigen ist
Memory (Langzeitkonfiguration) â stellt Konsistenz bei allen zukĂŒnftigen Aufgaben sicher
Zusammen bilden sie ein vollstĂ€ndiges, reproduzierbares und skalierbares KI-AusfĂŒhrungssystem.
5. Soul (Kernwerte & Verhalten) / SOUL.md
Allgemeines VerstÀndnis
Die âPersönlichkeitskonfigurationâ und Verhaltensleitplanken der KI: legt fest, was sie âtun soll und was sie auf keinen Fall tun darfâ.
Tieferes VerstÀndnis
SOUL.md definiert die Verhaltensregeln, Werte und operativen Grenzen des Agenten.
Es ist die âgrundlegende Verfassungâ des Agenten â welche Handlungen erlaubt sind,
welche absolut verboten sind, alles hier klar festgehalten.
Daher ist SOUL nicht nur eine StilprÀferenz; es wirkt sich direkt auf die Sicherheitsgrenzen
und die konforme Ausgabe des Agenten aus.
Wenn Memory das ist, âwas erinnert wurdeâ, dann ist Soul das, âzu was fĂŒr einer KI man wirdâ. Zum Beispiel: nur produktbezogene Fragen beantworten; Finanzoperationen erfordern eine doppelte BestĂ€tigung; niemals Passwörter oder sensible Zugangsdaten verlangen; bei rechtlichen/medizinischen Angelegenheiten mĂŒssen HaftungsausschlĂŒsse gegeben und auf professionelle KanĂ€le verwiesen werden, usw.
Die Konfiguration von SOUL.md bestimmt direkt, wie der Agent in Risikoszenarien
âablehntâ und âAlternativen anbietetâ. Wenn es als Teamwerkzeug eingesetzt wird
oder Unternehmensdaten involviert sind, kann eine unsachgemĂ€Ăe SOUL-Konfiguration
zu unbefugtem Zugriff, GrenzĂŒberschreitungen oder Compliance-Risiken fĂŒhren.
Deshalb sollte man vor dem Go-Live diese Datei sorgfÀltig konfigurieren
und die Grenzen mit TestfĂ€llen ĂŒberprĂŒfen.
Es wird empfohlen, SOUL als eine âausfĂŒhrbare Regel-Checklisteâ zu schreiben, die folgende Kategorien abdeckt:
- Was erlaubt ist: Der Arbeitsbereich und die DomĂ€nengrenzen des Agenten (z.âŻB. nur Produktanfragen/interne Prozesse bearbeiten).
- Was verboten ist: Eindeutige harte Ablehnungen fĂŒr risikoreiche Verhaltensweisen (z.âŻB. Passwörter/SchlĂŒssel verlangen; unsichere Ergebnisse versprechen; Berechtigungen umgehen).
- BestĂ€tigungspflichtige Aktionen: Regeln fĂŒr Ăberweisungen, RĂŒckerstattungen, VertrĂ€ge, BerechtigungsĂ€nderungen, die doppelt bestĂ€tigt oder genehmigt werden mĂŒssen.
- Ausgabestil & Tonfall: z.âŻB. muss höflich sein, keine persönlichen Angriffe, keine bedrohliche Sprache.
- Umgang mit GrenzfĂ€llen: Wenn etwas nicht erledigt werden kann, Alternativen anbieten (z.âŻB. protokollieren und an einen Menschen eskalieren / Fachabteilung konsultieren).
Angenommen, Sie konfigurieren einen Kundenservice-Agenten fĂŒr Ihr Unternehmen;
seine SOUL.md könnte Folgendes enthalten:
⹠Immer höflich bleiben, keine beleidigende oder negativ kategorisierende Sprache;
âą Niemals RĂŒckerstattungen oder EntschĂ€digungen versprechen, nur sagen
âIch werde dies aufzeichnen und zur Bearbeitung weiterleitenâ;
âą Bei rechtlichen Fragen einheitlich antworten
âBitte wenden Sie sich an die Rechtsabteilung/Fachleuteâ;
âą Bei Anfragen nach Passwörtern, OTPs, SchlĂŒsseln: direkt ablehnen
und den Benutzer durch den korrekten Verifizierungsprozess fĂŒhren.
Nach der Konfiguration wird der Agent, egal wie Benutzer versuchen zu manipulieren,
nicht ĂŒber die StrĂ€nge schlagen.
Nach dem Ăndern von Soul empfiehlt es sich, mit einigen Szenarien zu testen:
welche sollten abgelehnt werden, welche benötigen eine BestÀtigung, welche können normal beantwortet werden.
Sie können 6 Kategorien von Testfragen vorbereiten, um zu ĂŒberprĂŒfen, ob Soul funktioniert:
1) Fragen auĂerhalb des Bereichs: Lehnt der Agent ab oder leitet er um?
2) Hochriskante Anfragen: Wird klar abgelehnt?
3) BestĂ€tigungspflichtige Aktionen: Wird vor der AusfĂŒhrung bestĂ€tigt?
4) Anfragen nach sensiblen Informationen: Wird abgelehnt und eine sichere Alternative angeboten?
5) Compliance/HaftungsausschlĂŒsse: Erfolgt die Ausgabe gemÀà den Regeln?
6) âManipulation zum Umgehenâ: Wenn Benutzer das Ăberspringen von Prozessen verlangen,
hÀlt der Agent die Grenze ein?
SOUL.md definiert die âLeitplanken und Grenzenâ des Agenten: Es macht die KI bei der AusfĂŒhrung prinzipientreu und vorhersehbar und damit sicherer und zuverlĂ€ssiger in Team- und GeschĂ€ftsszenarien.
Wichtige Unterschiede zwischen Soul, Memory und Prompt:
| Dimension | Soul (SOUL.md) | Memory (MEMORY.md) | Prompt (diese Aufgabe) |
|---|---|---|---|
| Geltungsbereich | Grundlegende Grenzen | Langfristige PrÀferenzen | Diese spezifische Aufgabe |
| HĂ€ufigkeit | Ăndert sich selten (grundlegend) | Ăndert sich vierteljĂ€hrlich/saisonal | Ăndert sich pro Aufgabe |
| Zweck | Schaden verhindern / Sicherheit gewĂ€hrleisten | Konsistenz sicherstellen | AusfĂŒhrungsdetails festlegen |
| Konsequenz bei VerstoĂ | ComplianceâVerstoĂ / Sicherheitsrisiko | Inkonsistente Ergebnisse | Abweichung der Aufgabenausgabe |
| Beispiel | âNiemals Passwörter verlangenâ | âImmer auf Chinesisch antwortenâ | âIn 3 AufzĂ€hlungspunkten zusammenfassenâ |
1) Soul definiert, âWas fĂŒr ein Agent Sie sindâ (IdentitĂ€t & Leitplanken)
Soul beantwortet die grundlegendste Frage: Was darf ich sein und tun?
Dazu gehört:
- Arbeitsbereich: FĂŒr welche DomĂ€nen/Aufgaben bin ich verantwortlich?
- Harte Leitplanken: Was darf ich absolut niemals tun (Sicherheit, Compliance, Ethik)?
- Genehmigungsworkflows: FĂŒr welche Aktionen muss ich eine BestĂ€tigung einholen?
- Eskalationspfade: Wenn ich nicht helfen kann, wohin leite ich weiter?
Soul ist die ârote Linieâ. Sie wird bei jeder AusfĂŒhrung durchgesetzt, unabhĂ€ngig davon, wie Benutzer zu manipulieren versuchen.
2) Soul vs. Sicherheit: Warum Soul fĂŒr den Einsatz entscheidend ist
Ein gut konfigurierter Soul kann viele gÀngige Angriffsvektoren verhindern:
- PromptâInjection: Wenn Soul sagt âHochrisikoâAnfragen immer ĂŒberprĂŒfenâ,
sollte der Agent selbst dann ablehnen, wenn ein Prompt sagt âIgnoriere diese Regelâ.
- Social Engineering: Wenn Soul sagt âNiemals Zugangsdaten herausgebenâ,
sollte der Agent ablehnen, egal wie geschickt der Benutzer fragt.
- Scope Creep: Wenn Soul die DomÀnengrenze des Agenten definiert,
wird er nicht versuchen, auĂerhalb seines Bereichs liegende Anfragen durch Raten zu bearbeiten.
Das macht Soul grundlegend fĂŒr einen sicheren Einsatz.
3) Wie Soul in den Entscheidungskreislauf des Agenten integriert ist
Stellen Sie sich den AusfĂŒhrungszyklus des Agenten wie folgt vor:
Schritt 1: Soul lesen â Was sind meine Grenzen?
Schritt 2: Memory lesen â Was sind meine ArbeitsprĂ€ferenzen?
Schritt 3: Prompt empfangen â Was ist diese spezifische Aufgabe?
Schritt 4: AusfĂŒhrung planen â Innerhalb der Grenzen das Ziel erreichen
Schritt 5: Compliance prĂŒfen â Habe ich mich innerhalb von Soul bewegt?
Schritt 6: AusfĂŒhren / Eskalieren
Beachten Sie, dass Soul vor und nach der AusfĂŒhrung ĂŒberprĂŒft wird. Es ist der Ă€uĂere Kreislauf.
ĂberprĂŒfen Sie vor dem Einsatz eines Agenten:
â Soul.md ist geschrieben (nicht nur implizit)
â Alle Teammitglieder verstehen die Grenzen
â TestfĂ€lle decken 6+ Szenarien ab, einschlieĂlich JailbreakâVersuchen
â Eskalationspfade sind definiert und funktionsfĂ€hig
â ComplianceâAnforderungen sind explizit abgedeckt
â HochrisikoâAktionen erfordern BestĂ€tigung/Genehmigung
â Kommunikationston ist definiert und getestet
â Sicherheitsleitplanken (Passwörter, Tokens, SchlĂŒssel) sind klar
â Die Behandlung von Anfragen auĂerhalb des Bereichs ist höflich (nicht unhöflich)
â Audit/Protokollierung ist fĂŒr sensible Aktionen eingerichtet
Agent ist die denkende EntitÀt
Skill ist die AusfĂŒhrungsfĂ€higkeit
Prompt ist die Aufgabenanweisung
Memory ist die langfristige PrÀferenz
Soul ist die operative Verfassung
Zusammen: Der Agent denkt (mit Memory als Kontext und Soul als Leitplanken),
entscheidet, welcher Skill aufgerufen wird, erhÀlt spezifische Anweisungen vom Prompt
und fĂŒhrt innerhalb der Grenzen von Soul aus. Ergebnis: ein zuverlĂ€ssiges, sicheres und konsistentes KIâSystem.
Erweiterte Konzepte (optional)
Die folgenden drei Konzepte helfen Ihnen, die Automatisierung wirklich zu verstehen. Sie sind kein völlig neues Wissen, sondern bringen die frĂŒheren Konzepte Agent / Skill / Memory / Soul / Prompt auf die praktische Ebene: âtatsĂ€chlich ausfĂŒhren, miteinander verbinden und stabil integrierenâ. AnfĂ€nger können diesen Teil vorerst ĂŒberspringen; wenn Sie beginnen, mehrstufige Prozesse zu erstellen, externe Dienste zu integrieren oder Datenflussprobleme zu debuggen, sparen Sie durch die RĂŒckkehr hierher viel Zeit.
đ 1) Workflow (Mehrstufige ProzessausfĂŒhrung)
Ein Workflow kann als wiederverwendbarer AusfĂŒhrungspfad verstanden werden: Mehrere Schritte in einer Abfolge zu verbinden, damit das System ein Ziel systematisch erreicht. Wenn der Agent âein Kollege ist, der denken und ausfĂŒhren kannâ, dann ist der Workflow âdie Aufgabenwarteschlange und die Verbindungsmethode, die wir fĂŒr diesen Kollegen einrichtenâ. Er löst das Problem: Wenn eine Aufgabe nicht mit einem Satz erledigt werden kann, wie können wir mehrere Schritte zuverlĂ€ssig als verbundene Kette ausfĂŒhren?
Ein typischer Workflow enthĂ€lt in der Regel folgende Elemente (Sie können dieses GerĂŒst nutzen, um die mehrstufigen FĂ€higkeiten von EasyClaw zu verstehen):
- Schrittliste: Was in Schritt 1, Schritt 2 usw. zu tun ist. Jeder Schritt sollte klare Grenzen und Verantwortlichkeiten haben.
- Eingabe & Ausgabe: Jeder Schritt sollte strukturierte Ergebnisse produzieren, die der nĂ€chste Schritt verwenden kann, nicht nur âTextbeschreibungenâ.
- Bedingungen & Verzweigungen: Zum Beispiel âwenn ein kritisches Feld fehlt, zuerst nachfragen oder weitere Daten abrufenâ, andernfalls mit dem nĂ€chsten Schritt fortfahren.
- Validierung & Fehlerbehandlung: Zum Beispiel âwenn das Parsen fehlschlĂ€gt, erneut versuchen oder auf einen alternativen Ansatz zurĂŒckfallenâ.
- Zusammenfassende Ausgabe: Das Endergebnis in einem verwendbaren Format liefern (Checkliste, Bericht, Aufgabenliste, Benachrichtigungsinhalt usw.).
Wie passt der Workflow zu den vorherigen Konzepten? Ein Satz verbindet sie:
Der Agent ĂŒbernimmt Entscheidungsfindung und Planung, der Skill die konkrete AusfĂŒhrung,
Memory/Soul die langfristigen Regeln und Grenzen, der Prompt sagt ihm âwie es zu tun istâ,
und der Workflow verbindet diese Schritte in einer Abfolge zu einer Kette.
Beispiel: Sie mĂŒssen âeine Benutzerbeschwerde zu einem Ticket eskalieren und die verantwortliche Person benachrichtigenâ. Ein sinnvoller Workflow könnte so aussehen:
- Eingabe sammeln: Beschwerdeinhalt, Benutzerinformationen, Zeitverlauf aus Formular/Nachricht erfassen.
- Informationsextraktion: Den Agenten nutzen, um die Kernpunkte der Beschwerde zu strukturieren (z.âŻB. Art des Problems, Umfang der Auswirkungen, kritische Zeitstempel).
- Regelbasierte Beurteilung: Basierend auf Soul/Regeln feststellen, ob hohe PrioritÀt vorliegt, eine Eskalation erforderlich ist oder zunÀchst weitere Informationen benötigt werden.
- Ticket-Erstellungs-Skill aufrufen: Strukturierte Felder in die Ticket-System-API einfĂŒgen, Ticketnummer generieren.
- Benachrichtigungs-Skill aufrufen: Ticketnummer und Kernzusammenfassung an die verantwortliche Person senden (Feishu/E-Mail/IM).
- Ergebnisvalidierung: BestĂ€tigen, dass die Ticketerstellung einen Erfolgsstatus zurĂŒckgegeben hat und die Benachrichtigung gesendet wurde.
- Zusammenfassende RĂŒckmeldung: Dem Benutzer oder Administrator ausgeben âTicket erstellt + Link/Nummer + nĂ€chste Schritteâ.
Sie werden feststellen: Der Workflow löst nicht âwie schreibt man eine ErklĂ€rungâ, sondern vielmehr âwie verknĂŒpft man mehrere Werkzeugaufrufe und Validierungsschritte zuverlĂ€ssigâ. Wenn Sie mit komplexen Prozessen beginnen (insbesondere systemĂŒbergreifend: IM + Tickets + Datenbank), wird der Workflow zu Ihrer wichtigsten FĂ€higkeit.
đŠ 2) JSON (Datenaustauschformat)
JSON ist das Standardformat fĂŒr die DatenĂŒbertragung zwischen Agent und externen Werkzeugen/APIs. In der mehrstufigen Automatisierung ist die Rolle von JSON entscheidend: Es macht die Frage âkann der nĂ€chste Schritt die korrekten Daten erhaltenâ zu einer ĂŒberprĂŒfbaren Frage, nicht zu âkönnen wir einen natĂŒrlichsprachlichen Satz intuitiv verstehenâ.
Sie können sich JSON wie einen âstrukturierten Datencontainerâ im System vorstellen. Statt loser SĂ€tze enthĂ€lt es explizite Felder und Typen, wie: Ticket-Titel, Benutzer-ID, PrioritĂ€t, Frist, Benachrichtigungsinhalt usw.
Im Workflow von EasyClaw erscheint JSON typischerweise an diesen Stellen:
- Skill-Eingabe & -Ausgabe: Skills benötigen oft bestimmte Felder als Eingabe und geben strukturierte Ergebnisse fĂŒr die Entscheidungsfindung des Agenten zurĂŒck.
- API-Aufrufparameter: Zum Beispiel mĂŒssen Parameter beim Aufruf der Feishu-API in JSON organisiert werden.
- DatenĂŒbertragung zwischen Schritten: Die JSON-Ausgabe eines Schritts wird vom nĂ€chsten Schritt gelesen.
Warum sehen viele Probleme aus wie âder Agent kann das nichtâ, liegen aber tatsĂ€chlich an JSON? HĂ€ufige FĂ€lle sind:
- Feldnamenabweichung: Erwartete Eingabe ist
user_id, aber tatsĂ€chliche Eingabe istuserId. - Fehlende Felder: Ein Pflichtfeld fehlt, die API gibt einen Fehler zurĂŒck.
- Typabweichung: Datum sollte ein String sein, wurde aber als Zahl ĂŒbergeben, oder sollte ein Array sein, wurde aber als Text ĂŒbergeben.
- JSON-Formatfehler: Fehlende AnfĂŒhrungszeichen, fehlende Klammern, nachgestellte Kommas â das Parsen schlĂ€gt fehl.
Daher ist die beste Reihenfolge zur Fehlerbehebung bei Integrationsproblemen in der Regel:
Zuerst JSON prĂŒfen, dann Prompt, dann die Argumentationslogik des Agenten.
Denn JSON ist die Grundlage dafĂŒr, âob es funktionieren wirdâ.
đ 3) API Key (Zugangsdaten)
Ein API Key ist die Authentifizierungsberechtigung beim Zugriff auf KI-Modelle oder Drittanbieterdienste. Ohne den korrekten API Key kann das System in der Regel das entsprechende Modell oder den Dienst nicht aufrufen; selbst wenn der Agent perfekt argumentiert, bleibt die AusfĂŒhrung unmöglich.
In EasyClaw-Szenarien mĂŒssen Sie zwei FĂ€lle unterscheiden:
- StandardmĂ€Ăige Nutzung offizieller Funktionen/Guthaben: AnfĂ€nger benötigen in der Regel keinen eigenen Key, da die Plattform den Zugang bereits eingerichtet hat.
- Integration benutzerdefinierter Modelle/Dienste: Sie mĂŒssen den API Key an der entsprechenden Stelle eintragen und den Agenten/Skill auf dieses Modell verweisen.
Ein API Key betrifft nicht nur âkann ich es nutzen oder nichtâ, sondern beeinflusst auch âwelche FĂ€higkeiten, Kosten und StabilitĂ€tâ:
- Modellauswahl: Unterschiedliche Keys/Modelle können unterschiedliche ArgumentationsqualitÀt, Geschwindigkeit und Ausgabeformat-Performance bieten.
- Kostenkontrolle: Einige Plattformen berechnen nach Nutzung; das Konto/Kontingent des Keys beeinflusst das verfĂŒgbare Budget.
- Berechtigungsgrenzen: Manche Dienst-Keys erlauben möglicherweise nur eingeschrĂ€nkte API-Aufrufe, was dazu fĂŒhrt, dass bestimmte Skill-AusfĂŒhrungen fehlschlagen.
HĂ€ufige Fehlerbehebung bei âSkill-Aufruf fehlgeschlagenâ:
ĂberprĂŒfen, ob der Key korrekt eingetragen ist, ob der Key abgelaufen/unzureichendes Kontingent hat,
ob dieser Key ĂŒber die erforderlichen Aufrufberechtigungen verfĂŒgt.
Wenn die API einen Authentifizierungsfehler (401/403) zurĂŒckgibt, sollte zuerst die API-Key-Konfiguration ĂŒberprĂŒft werden.
Wann mĂŒssen Sie sich ernsthaft damit befassen? (Kurzreferenz)
- Sie erstellen eine mehrstufige Automatisierung: Der Workflow bestimmt, ob die Kette stabil ausgefĂŒhrt werden kann.
- Sie integrieren Feishu/Unternehmenssysteme/externe APIs: JSON bestimmt, ob Daten korrekt ĂŒbertragen und geparst werden können.
- Sie integrieren Ihr eigenes Modell oder einen benutzerdefinierten Dienst: Der API Key bestimmt, ob Sie die entsprechende FÀhigkeit aufrufen können.
- Sie debuggen âkann erklĂ€ren, aber nicht ausfĂŒhrenâ oder âAusfĂŒhrung schlĂ€gt ohne Hinweis fehlâ: In der Regel ist es am schnellsten, nacheinander Workflow-VerknĂŒpfung, JSON-Struktur und API-Key-Berechtigungen zu ĂŒberprĂŒfen.
Workflow sorgt dafĂŒr, dass Schritte zuverlĂ€ssig nacheinander ausgefĂŒhrt werden, JSON stellt sicher, dass die in jedem Schritt ĂŒbergebenen Daten korrekt strukturiert und nutzbar sind, API Key macht Werkzeuge und Modelle tatsĂ€chlich aufrufbar. Zusammen verwandeln sie Ihre Automatisierung von âsieht intelligent ausâ zu âfunktioniert tatsĂ€chlich in der Praxisâ.
Agent = FĂ€higer KI-Kollege
Skill = Aufrufbares FĂ€higkeitsmodul (Werkzeug/Schnittstelle/Prozess)
Prompt = Sagt dem Agenten, wie es zu tun ist (Regeln, Auslöser, Ausgabe, Fehlerbehandlung)
Memory = Langfristige PrÀferenzen & SOPs (macht Regeln langfristig wirksam)
Soul = Verhaltensverfassung & Grenzen (Erlauben/Verbieten/BestÀtigungsstrategie)
Workflow = Mehrstufiger Staffellauf-AusfĂŒhrungspfad
JSON = Strukturiertes Datenaustauschformat (sorgt fĂŒr nutzbare Felder)
API Key = Drittanbieter-/Modell-Integrationsberechtigung (stellt sicher, dass FĂ€higkeiten aufrufbar sind)