📖 Erste Schritte · Kapitel 01

5 Kernkonzepte der KI

Bevor Sie EasyClaw verwenden, nehmen Sie sich 5 Minuten Zeit, um diese Konzepte kennenzulernen – sie helfen Ihnen zu verstehen, wie KI wirklich funktioniert, anstatt blind Anweisungen einzugeben.
Sie mĂŒssen kein Ingenieur sein, aber Sie sollten wissen: warum KI Dinge tun kann, wie man sie prĂ€ziser macht und wann sie Fehler machen kann.

EasyClaw Konzeptdiagramm

1. Agent (Intelligenter Agent)

🧠

Wie Einsteiger es verstehen

Ein Agent (Intelligenter Agent) lĂ€sst sich einfach so beschreiben: „ein KI‑Kollege, der Dinge erledigt“. Er kann nicht nur chatten und erklĂ€ren, sondern vor allem Ihre Ziele in konkrete Schritte umsetzen und nach jedem Schritt weitermachen, bis das gewĂŒnschte Ergebnis erreicht ist.

⚙

KernĂŒbersicht zum AI‑Agenten

Ein typischer AI‑Agent setzt sich aus drei Teilen zusammen:
Gehirn (Verstehen & Entscheiden) + Werkzeuge/FĂ€higkeiten (wo ausgefĂŒhrt wird) + AusfĂŒhrungsschleife (PrĂŒfen wĂ€hrend der AusfĂŒhrung).
Deshalb wirkt er nicht wie eine „einmalige Antwortgenerierung“, sondern eher wie ein Projektmanager: erst durchdenken, dann handeln, dann ĂŒberprĂŒfen.

Als NĂ€chstes klĂ€ren wir, wie es funktioniert. Sie können sich den Arbeitsprozess des Agenten als eine wiederholt ausgefĂŒhrte Schleife vorstellen: Aufgabe verstehen → Plan erstellen → Werkzeuge aufrufen → Aktion ausfĂŒhren → Ergebnis prĂŒfen → Anpassen → Berichten.

1) Die Aufgabe verstehen:
Der Agent wird zunĂ€chst ermitteln, welches Problem Sie lösen möchten, wie Erfolg aussieht und ob es EinschrĂ€nkungen gibt (z. B. Format, Tonfall, Zeitrahmen, was er nicht tun soll). Wenn die Informationen nicht ausreichen, stellt er möglicherweise zuerst Fragen oder trifft notwendige Annahmen und erklĂ€rt diese.

2) Einen Plan erstellen (Schritte zerlegen):
Große Aufgaben mĂŒssen oft in kleinere Schritte zerlegt werden. Zum Beispiel könnte „Posteingang organisieren“ so unterteilt werden: E‑Mails scannen → Typen identifizieren (Benachrichtigungen/Rechnungen/Kunden/Verschiedenes) → PrioritĂ€t bewerten → Archivieren → AntwortentwĂŒrfe (falls nötig) → Liste zusammenfassen. Dieser Schritt legt fest, „was zuerst und was als NĂ€chstes getan wird“.

3) Werkzeuge/FĂ€higkeiten aufrufen:
Das ist auch der SchlĂŒssel dazu, wie der Agent „Dinge erledigen“ kann. Ohne Werkzeuge bleibt er auf der Ebene textbasierter RatschlĂ€ge; mit Werkzeugen kann er tatsĂ€chlich Aktionen ausfĂŒhren, wie: Dateien lesen, Informationen suchen, Nachrichten senden, auf Unternehmenssysteme zugreifen, Dokumente generieren usw. Sie werden sehen, wie der Agent „mit der Außenwelt interagiert“ und nicht nur einen Satz generiert.

4) AusfĂŒhren und Aufzeichnen:
In geeigneten Schritten wird der Agent tatsĂ€chlich Operationen auslösen (z. B. Aufruf einer Service‑API, Abschluss einer Datenverarbeitungsaufgabe, Generierung nutzbarer Inhalte). Gleichzeitig zeichnet er auf, „welchen Schritt ich abgeschlossen habe“, sodass spĂ€ter leichter fortgefahren oder zur Korrektur zurĂŒckgerollt werden kann.

5) ÜberprĂŒfung und Fehlerkorrektur:
Der Agent strebt nicht nur danach, dass es „abgeschlossen aussieht“; er prĂŒft auch, ob das Ergebnis den Anforderungen entspricht. Zum Beispiel: Fehlen dem Output SchlĂŒsselfelder, verstĂ¶ĂŸt er gegen Ihre Formatvorgaben, gibt es offensichtliche Fehler oder Unsicherheiten? Wenn es nicht zufriedenstellend ist, plant er den nĂ€chsten Schritt neu und iteriert weiter.

6) Ergebnisse und nÀchste Schritte berichten:
Schließlich fasst der Agent die erledigten Inhalte, wichtige Erkenntnisse und Punkte, die Ihre BestĂ€tigung benötigen, fĂŒr Sie zusammen. Sie können klar erkennen: was er getan hat, was abgeschlossen wurde und was noch in Bearbeitung ist.

đŸ§Ș
A More Realistic Example

You say: "Please organize my inbox and summarize emails that need my reply into a to-do list."
The Agent might: read email list → categorize and archive → extract sender/subject/key timeline → determine which need replies → generate "to-do list" (with priority and suggested reply points) → tell you "completed these categories, still have unread/uncertain items left."
Note: It's not just giving "organizing thoughts," but producing usable results (lists/archives/drafts/progress).

⚠
HĂ€ufiges MissverstĂ€ndnis: Ein Agent ist nicht „besser im Chatten“

AnfĂ€nger behandeln einen Agenten oft wie einen normalen Chatbot und fragen nur: „Wie macht man das?“ Ein echter Agent braucht jedoch nutzbare FĂ€higkeiten und AusfĂŒhrungs‑Workflows. Ein System, das nur Schritte erklĂ€ren kann, aber keine Ergebnisse produziert oder Aktionen auslöst, ist eher ein „Frage‑Antwort‑Assistent“ als ein Agent. Merken Sie sich: Reden ≠ Handeln; der Vorteil eines Agenten liegt in AusfĂŒhrung und Feedback.

2. Skill (FĂ€higkeit)

đŸ§©

Wie Einsteiger es verstehen

Skill (FÀhigkeit) lÀsst sich so verstehen: die konkreten FÀhigkeitsmodule, mit denen der Agent Dinge erledigt.
Der Agent ist fĂŒr das Denken und die Koordination zustĂ€ndig (Aufgaben annehmen, nĂ€chste Schritte festlegen), wĂ€hrend der Skill „wie der nĂ€chste Schritt ausgefĂŒhrt wird“ in ausfĂŒhrbare Aktionen umsetzt: etwa Informationen abrufen, Dokumente schreiben, Berichte generieren, Schnittstellen aufrufen, Berechnungen durchfĂŒhren usw.
Ein Agent ohne Skills bleibt meist auf der Ratschlagsebene; erst mit Skills kann ein Agent wirklich Ergebnisse liefern.

🔧

Was ein Skill genau ist (das Wesentliche)

Aus technischer Sicht ist ein Skill in der Regel eine „aufrufbare FĂ€higkeit“, die hĂ€ufig in folgenden Formen auftritt:
1) Werkzeuge/Funktionen (z. B. suchen, berechnen, generieren, ĂŒbersetzen);
2) GeschĂ€ftsprozesse (z. B. Bestellung aufgeben, Reisekostenabrechnung, Ticket erstellen);
3) Schnittstellenaufrufe (z. B. CRM‑Abfragen, Kalender synchronisieren, E‑Mails senden).

Die Frage ist nicht, „ob er chatten kann“, sondern dass Skills klare Grenzen haben: was die Eingabe ist, wie sie ausgefĂŒhrt wird und was die Ausgabe ist. Dadurch kann der Agent Aufgaben zuverlĂ€ssiger zerlegen und nach der AusfĂŒhrung nachprĂŒfbare Ergebnisse erhalten.

Im Agenten‑Kreislauf taucht hĂ€ufig der Schritt „Werkzeuge/FĂ€higkeiten aufrufen“ auf, und das, was dabei aufgerufen wird, ist meist ein Skill. Man kann es sich so vorstellen: Der Agent ist wie ein Gehirn, Skills sind wie HĂ€nde, FĂŒĂŸe und ein Werkzeugkasten.

Um tiefer zu gehen, erklĂ€ren wir ausfĂŒhrlich, „wie Skills im Agenten‑Kreislauf funktionieren“:

1) Der Agent entscheidet, welcher Skill benötigt wird
Wenn die Aufgabe in die AusfĂŒhrungsphase eintritt, analysiert der Agent, welche FĂ€higkeiten fĂŒr den aktuellen Schritt erforderlich sind. Zum Beispiel benötigt „historische Kommunikationsdaten eines Kunden finden“ einen Skill vom Typ „Abrufen/Lesen“; „eine Folge‑E‑Mail entwerfen“ braucht einen Skill vom Typ „Text generieren/Vorlage verwenden“; „Aufgabe mit dem To‑Do‑System synchronisieren“ benötigt einen Skill vom Typ „Schreiben/Aktualisieren“.

2) Der Agent fĂŒllt Parameter in den Skill ein (Eingabe)
Skills erfordern in der Regel ein bestimmtes Eingabeformat, zum Beispiel: Stichworte, Zeitrahmen, Kunden‑ID, Zielgruppe, Ausgabestil usw. Der Agent extrahiert den Kontext und bereitet ihn als die vom Skill benötigten Parameter auf.
Dieser Schritt entscheidet ĂŒber die Genauigkeit der AusfĂŒhrung: ist die Eingabe falsch, wird die Ausgabe mit hoher Wahrscheinlichkeit abweichen.

3) Der Skill fĂŒhrt aus und liefert ein Ergebnis (Ausgabe)
Nach der AusfĂŒhrung gibt der Skill strukturierte oder halbstrukturierte Ergebnisse zurĂŒck, etwa: abgerufene Listen, Berechnungsergebnisse, generierten Dokumenttext, von der API zurĂŒckgegebene Statuscodes usw. Diese Ergebnisse können vom Agenten erneut eingelesen und fĂŒr nachfolgende Entscheidungen verwendet werden.

4) Der Agent ĂŒberprĂŒft die Ausgabe und fĂ€hrt mit dem nĂ€chsten Schritt fort (geschlossener Kreislauf)
Der Abschluss eines Skills ist nicht der Endpunkt; der Agent prĂŒft außerdem: ErfĂŒllt das Ergebnis die Vorgaben? Fehlen Informationen? Ist eine zweite Generierung oder Korrektur nötig? Wenn es nicht zufriedenstellend ist, kann er einen weiteren Skill aufrufen (z. B. „ergĂ€nzende Suche“, „Text umschreiben“, „Ausgabe formatieren“) und erneut iterieren. Das ist der „kooperative geschlossene Kreislauf“ von Skill und Agent.

🧠
Warum die „Eingabe und Ausgabe“ eines Skills wichtig ist

AnfĂ€nger halten einen Skill oft fĂŒr eine „Chat‑Anweisung“. Doch ein echter Skill gleicht eher einer „Schnittstelle“:
Je klarer die Eingabe, desto stabiler die Ausgabe; nur so kann der Agent zuverlĂ€ssig wiederholt ausfĂŒhren und Aufgaben erledigen. Selbst bei derselben „E‑Mail generieren“ verlangt ein Skill beispielsweise Tonfall, LĂ€nge, EmpfĂ€ngerinformationen und inhaltliche SchlĂŒsselfelder, damit der generierte Inhalt nicht jedes Mal abweicht.

Beispiel: Sie bitten den Agenten, „eine Folge‑E‑Mail an potenzielle Kunden zu schreiben und ein To‑Do anzulegen.“
Das verknĂŒpft ĂŒblicherweise mehrere Skills zu einer vollstĂ€ndigen Handlungskette:

1) Skill zur Kundendatenabfrage: Eingabe Kunden‑ID/Name, Ausgabe Name, Unternehmen, wichtigste Punkte der letzten Kommunikation;
2) Skill zur Informationsextraktion/Zusammenfassung: Eingabe Kommunikationsverlauf, Ausgabe Kernprobleme und erreichte Punkte;
3) Skill zur E‑Mail‑Generierung: Eingabe Tonfall (professionell/freundlich), Vorlage (Follow‑up/Abschluss), Kernpunkte, Ausgabe E‑Mail‑Text;
4) Skill zur To‑Do‑Erzeugung: Eingabe E‑Mail‑Inhalt und HandlungsvorschlĂ€ge, Ausgabe To‑Do‑EintrĂ€ge (Verantwortlicher, Frist, Schritte);
5) Skill zum Schreiben in Kalender/To‑Do‑System: Eingabe strukturierte To‑Do‑Daten, Ausgabe Erfolgsstatus oder Link.

Sie werden feststellen: Der Agent scheint „Vertriebsarbeit zu verstehen“, aber dahinter stecken Skill‑Module, die reale FĂ€higkeiten zu einem Workflow zusammensetzen. Der Agent ist dafĂŒr verantwortlich, diese FĂ€higkeiten in der richtigen Reihenfolge einzusetzen.

⚠
HĂ€ufiges MissverstĂ€ndnis: Skill als „gewöhnlicher Prompt“ betrachten

Viele verstehen einen Skill bei der Systemintegration als ein Prompt‑Segment oder eine Ein‑Satz‑Anweisung. Doch ohne klare Ein‑/Ausgabe und ausfĂŒhrbare Mechanismen kann der Agent dieselben Ergebnisse nicht stabil reproduzieren.
Das treffendere VerstĂ€ndnis lautet: Ein Skill ist eine aufrufbare FĂ€higkeitseinheit, der Prompt hilft nur dabei, ihn besser „auszuwĂ€hlen/zu organisieren“.

✅
Wie man beurteilt, ob etwas als Skill zÀhlt

Mit drei Fragen lÀsst sich das schnell beurteilen:
Kann es aufgerufen werden?
Welche Eingabe benötigt es und was ist die Ausgabe?
ErhĂ€lt der Agent nach der AusfĂŒhrung ein verwertbares Ergebnis (und nicht nur eine ErklĂ€rung)?

Treffen diese Punkte zu, handelt es sich eher um einen Skill; andernfalls ist es vielleicht nur eine „beratende TextfĂ€higkeit“.

Verwenden Sie weiterhin den „Arbeitskreislauf“ des Agenten, um Skill zu verstehen: Der Agent ist fĂŒr Denken und Koordination zustĂ€ndig, der Skill fĂŒr die AusfĂŒhrung konkreter Schritte. Wenn der Agent feststellt, dass eine Aufgabe eine bestimmte FĂ€higkeit erfordert, wĂ€hlt er den passenden Skill aus, ĂŒbergibt ihm die nötigen Parameter, wartet auf das Ergebnis und bringt es zurĂŒck in den Kreislauf – zur ÜberprĂŒfung, ErgĂ€nzung oder Planung des nĂ€chsten Schritts.

Beispiel: Sie bitten den Agenten, „eine Kunden‑Follow‑up‑Mail zu schreiben und ein To‑Do zu generieren.“
Er könnte verschiedene Skills aufrufen:
1) Kundeninformationen abrufen (Name, letzte Kommunikationspunkte holen);
2) E‑Mail‑Entwurf generieren (Ausgabe nach Tonfall/LĂ€nge/Vorlage);
3) To‑Do‑Liste erstellen (nĂ€chste Schritte in Einzelpunkte zerlegen).
Erst das Zusammenspiel dieser Skills erzeugt das Verhalten eines Agenten, das „sehr kompetent aussieht“.

🧠
Der Wert von Skills

Skills verwandeln den Agenten von „kann reden“ zu „kann Ergebnisse liefern“ und bringen meist drei Vorteile:
ZuverlĂ€ssiger (festgelegte Schritte, klare Parameter), besser kontrollierbar (man weiß, was er tut), besser wiederverwendbar (dieselbe FĂ€higkeit fĂŒr unterschiedliche Aufgaben nutzbar).

⚠
HÀufiges MissverstÀndnis

Manche denken, Skill sei dasselbe wie „Prompt“. TatsĂ€chlich ist ein Skill eher ein aufrufbares FĂ€higkeitsmodul (Werkzeug/Schnittstelle/Prozess). Ohne klare Ein‑/Ausgabe und AusfĂŒhrungsweise kann der Agent denselben Effekt nur schwer stabil wiederholen.

3. Prompt (Eingabeaufforderung)

đŸ—Łïž

Allgemeines VerstÀndnis

Ein Prompt (Eingabeaufforderung) ist das, was Sie der KI in natĂŒrlicher Sprache als „Ein-Satz-Anforderung“ mitteilen. Sie sagen, was zu tun ist, und die KI gibt ihr Bestes, um das Ergebnis zu produzieren.

🎯

Tieferes VerstÀndnis

Genauer gesagt ist der Prompt die zentrale Schnittstelle fĂŒr die Kommunikation mit der KI. FĂŒr Systeme mit integriertem Agent und Skill ist ein guter Prompt nicht nur „lass es Text generieren“, sondern er sorgt dafĂŒr, dass die KI weiß, wann ein Skill aufzurufen ist, wie Parameter auszufĂŒllen sind, wie die Ausgabe aussehen soll und wie mit Fehlern umzugehen ist.

TypBeispielWirkung
❌ Allgemeiner Prompt „Hilf mir, eine E-Mail zu schreiben“ Die KI improvisiert frei; bei fehlenden Informationen rĂ€t sie; schwer zu ĂŒberprĂŒfen
✅ Guter Prompt (ausfĂŒhrungsorientiert) „Du bist ein B2B-Vertriebsberater. Schreibe eine Produkt-Follow-up-E-Mail an den CTO: professioneller und prĂ€gnanter Ton; rufe zunĂ€chst Zhang Sans Unternehmen und frĂŒhere Kommunikationspunkte aus dem CRM ab; die E-Mail muss enthalten: 1) ein Wertversprechen 2) BestĂ€tigung abgestimmt auf 2 Punkte aus dem letzten GesprĂ€ch 3) klare nĂ€chste Aktion; gib am Ende 3 To-do-EintrĂ€ge aus (Datumsformat YYYY-MM-DD).“ Klare Auslösebedingungen + definierte aufrufbare FĂ€higkeiten + ĂŒberprĂŒfbare Ausgabestruktur

Sie werden feststellen, dass Prompt und die beiden vorherigen Konzepte (Agent / Skill) zwei Seiten derselben Betriebslogik sind: Der Agent benötigt den Prompt, um zu entscheiden, wie er vorgeht; der Skill benötigt den Prompt, um zu entscheiden, was ausgefĂŒllt und wie ĂŒberprĂŒft wird.

„Der Arbeitsschleife des Agenten“ lĂ€sst sich so verstehen:
Aufgabe verstehen → Plan erstellen → Entscheiden, Skill aufzurufen → Skill ausfĂŒhren → Ergebnis ĂŒberprĂŒfen → Weiter anpassen → Berichten.
Und die Rolle des Prompts besteht darin, bei jedem Schritt Regeln vorzugeben, damit der Agent nicht abweicht, nicht blind rÀt und einen geschlossenen Kreislauf bildet.

1) Der Prompt definiert zuerst „Ziel und Erfolgskriterien“ (Warum es tun)
Dieser Schritt legt die „Bewertungsregeln“ des Agenten fest. Der Prompt muss ihm sagen: Welches Problem genau lösen Sie, und welches Ergebnis gilt als abgeschlossen.
Zum Beispiel: nicht „hilf mir, eine E-Mail zu schreiben“, sondern „die E-Mail muss folgende AbsĂ€tze enthalten, welchen Ton haben, welche LĂ€nge, und am Ende einen To-do-Eintrag enthalten.“

Ohne Erfolgskriterien im Prompt kann der Agent nur eine Ausgabe produzieren, die „ungefĂ€hr richtig aussieht“, was die QualitĂ€t schwer ĂŒberprĂŒfbar macht.

2) Der Prompt liefert „Auslösebedingungen und EinschrĂ€nkungen“ (Wann was zu tun ist)
Ein Prompt, der Ergebnisse liefern kann, klÀrt normalerweise: wann ein Skill aufzurufen ist, wann Fragen zu stellen sind.
Zum Beispiel: Wenn Kundenname oder Datum fehlen, muss zuerst nachgefragt werden, anstatt standardmĂ€ĂŸig „irgendeinen Namen/Datum zu schreiben“.

Das ist gleichbedeutend mit der Reduzierung von Unsicherheit: Je klarer die EinschrÀnkungen, desto stabiler der Agent.

3) Der Prompt beschreibt „Welche Skills benötigt werden und die Eingabe-/AusgabevertrĂ€ge fĂŒr jeden“ (Welche Werkzeuge zu verwenden sind)
Der Prompt muss klarstellen:
Welcher Skill aufzurufen ist, welche Eingabefelder er benötigt, woher die Eingabefelder kommen, welche Formatanforderungen bestehen;
und gleichzeitig klĂ€ren: In welcher Struktur soll die Skill-Ausgabe zurĂŒckgegeben werden (z. B. JSON-Felder, Listen, Tabellen, feste Absatzstruktur usw.).

Dieser Schritt ist entscheidend dafĂŒr, dass der Prompt wirklich „durchgeplant“ ist: aus „wie der nĂ€chste Schritt zu tun ist“ wird ein „aufrufbarer FĂ€higkeitsaufruf“.

4) Der Prompt verlangt „ÜberprĂŒfung und Fehlerbehandlung“ (Wie beurteilt man, ob es richtig gemacht wurde)
Ergebnisse zu generieren allein reicht nicht; der Prompt muss ÜberprĂŒfungsregeln und Fehlerstrategien vorgeben. Übliche AnsĂ€tze sind:
- Skill-Aufruf schlĂ€gt fehl / gibt leeres Ergebnis zurĂŒck: zuerst die Ursache diagnostizieren (Parameterfehler/Berechtigung/Netzwerk/fehlende Daten), dann erneut versuchen oder downgraden;
- Ausgabe ohne SchlĂŒsselfelder: muss vervollstĂ€ndigt oder der Benutzer gefragt werden, kein Raten erlaubt;
- Format passt nicht: „Formatierungs-Skill/Neuordnungs-Skill/neu generieren“ auslösen.

Das verhindert, dass der Agent in einer Schleife von „wiederholtem Ausgeben ohne Konvergenz“ stecken bleibt.

5) Der Prompt definiert das „EndgĂŒltige Ausgabeformat“ (Wer wird die Ausgabe verwenden)
Schließlich muss der Prompt festlegen, wie die Ergebnisse prĂ€sentiert werden: welche Felder mĂŒssen zurĂŒckgegeben werden, wie die Feldnamen lauten, ob strukturierte Ergebnisse benötigt werden, ob nachverfolgbare Informationen erforderlich sind (z. B. „ob ein Skill aufgerufen wurde, welcher Skill aufgerufen wurde, was die wichtigsten Ein-/Ausgaben waren“).

đŸ§Ș
Ein realistisches Prompt-Beispiel (Von der Anforderung zur AusfĂŒhrbarkeit)

Sie sagen: „Hilf mir, eine Follow-up-E-Mail an potenzielle Kunden zu schreiben und ein To-do anzulegen.“
Wenn Sie einen „ausfĂŒhrbaren Prompt“ verwenden, klĂ€rt er drei Dinge:
Auslösebedingung: zuerst fragen, wenn Kundenname/Datum fehlt;
Skill-Aufruf: zuerst „Kundeninfo abrufen Skill“ aufrufen, dann „E-Mail generieren Skill“, schließlich „To-do anlegen Skill“;
AusgabeĂŒberprĂŒfung: E-Mail muss BestĂ€tigung des Wertversprechens und nĂ€chste Aktion enthalten; To-do muss Frist (YYYY-MM-DD) und Verantwortlichen enthalten.

Auf diese Weise verwandelt sich der Agent von „eine anstĂ€ndige E-Mail schreiben“ in „einen vollstĂ€ndig ausfĂŒhrbaren Workflow abschließen“.

⚠
HĂ€ufiges MissverstĂ€ndnis: Den Prompt als „einfach mal sagen“ behandeln

Viele Leute schreiben einen Prompt nur mit der Bitte „mach das fĂŒr mich“, aber ohne Erfolgskriterien, ohne Ein-/AusgabevertrĂ€ge und ohne Fehlerbehandlung. Das Ergebnis: Der Agent improvisiert möglicherweise frei, rĂ€t bei fehlenden Feldern, die Ausgabe ist schwer zu ĂŒberprĂŒfen, und letztlich können Sie nicht bestĂ€tigen, „ob es richtig war“.

Der richtige Ansatz ist: Der Prompt sollte wie ein AusfĂŒhrungsvertrag sein, den Sie mit dem Agenten schließen, damit jeder Schritt beurteilbar, korrigierbar und wiederverwendbar wird.

đŸ”„
3 schnelle Tipps zum Schreiben von „aufrufbaren Skill“-Prompts

1) Rolle und Grenzen schreiben: Sagen Sie der KI, wer sie ist und welche Regeln sie befolgen soll („muss vor der Ausgabe ĂŒberprĂŒfen“, „darf keine nicht existierenden Informationen erfinden“).
2) Format und Felder definieren: Geben Sie die Ausgabestruktur vor („JSON mit den Feldern A/B/C zurĂŒckgeben“ oder „E-Mail muss drei Abschnitte enthalten“).
3) Schritt-fĂŒr-Schritt-Auslöser schreiben: Zerlegen Sie die Aufgabe in ausfĂŒhrbare Aktionen, geben Sie an, wann ein Skill aufzurufen, wann zu fragen und wann ein erneuter Versuch zu starten ist.

Vergleichen Sie: „Fassen Sie dieses Dokument zusammen“ vs. „Fassen Sie es in 3 AufzĂ€hlungspunkten zusammen, jeder maximal 20 Zeichen, und geben Sie dann eine Liste mit SchlĂŒsselwörtern aus (mindestens 5)“ – letzteres ist ĂŒberprĂŒfbar, wiederverwendbar und stabiler.

✅
Prompt mit den beiden vorherigen Konzepten in einem Satz abgleichen

Der Agent ist fĂŒr Denken und Koordination zustĂ€ndig, der Skill fĂŒr die konkrete AusfĂŒhrung, wĂ€hrend der Prompt dem Agenten sagt: wann ein Skill aufzurufen ist, wie Parameter auszufĂŒllen sind, wie Ergebnisse zu ĂŒberprĂŒfen sind und wie die endgĂŒltige Ausgabe aussehen soll.

4. Memory (LangzeitgedÀchtnis) / MEMORY.md

đŸ—Łïž

Allgemeines VerstÀndnis

Das Notizbuch der KI: dient dazu, Ihre PrÀferenzen und Regeln dauerhaft zu speichern.

đŸ—„ïž

Tieferes VerstÀndnis

Memory ist der LangzeitgedĂ€chtnis-Kern des Agenten. Gewöhnliche Konversationen gelten meist nur innerhalb einer einzelnen Sitzung; aber Inhalte, die in MEMORY.md geschrieben werden, werden bei jedem Start des Agenten vorrangig gelesen, sodass er „die Dinge auf Ihre Weise erledigt", statt Sie jedes Mal von Grund auf nach Ihren Anforderungen zu fragen.

Zum Beispiel sagen Sie dem Agenten: „Ich bevorzuge prĂ€gnante Antworten auf Deutsch, nutze Python fĂŒr Code".
Wenn diese PrĂ€ferenz in einem geeigneten Format in Memory geschrieben wird, wird der Agent spĂ€ter bei Ă€hnlichen Aufgabentypen diese Regeln standardmĂ€ĂŸig befolgen; Sie mĂŒssen sie nicht jedes Mal wiederholen, und es ist viel unwahrscheinlicher, dass „der Antwortstil jedes Mal inkonsistent ist".

đŸ§©
Die „Position" von Memory im System (abgestimmt auf die vorherigen Konzepte)

Wenn Sie den Agenten als AusfĂŒhrenden und den Skill als Werkzeugkasten betrachten, dann ist Memory die Langzeitkonfiguration des Agenten:
Jedes Mal, wenn der Agent startet, liest er zuerst Memory, um Ihre PrÀferenzen und SOPs zu erhalten, und bringt diese EinschrÀnkungen dann bei der Planung und beim Aufruf von Skills ein.
So macht Memory „ausfĂŒhrbare Regeln" langfristig wirksam.

Damit Memory wirklich „nutzbar" ist, muss es die Standards der vorherigen drei Konzepte erfĂŒllen: stabile Auslösung, klare Eingabe, ĂŒberprĂŒfbare Ausgabe. Anders gesagt: Inhalte, die in Memory geschrieben werden, sollten klar vorgeben, wie der Agent als NĂ€chstes vorgehen soll, und kein vager emotionaler Ausdruck sein.

Es wird empfohlen, Memory in dieser „Regel-Checkliste"-Form zu schreiben:

  • PrĂ€ferenzen zum Schreibstil: z. B. „prĂ€gnantes Deutsch", „Fazit zuerst", „nicht mehr als 3 SĂ€tze pro Absatz"
  • Formatvorgaben: z. B. „Python fĂŒr Code", „Tabellenausgabe enthĂ€lt Felder A/B/C", „Datumsformat YYYY-MM-DD"
  • Entscheidungs-SOPs: z. B. „bei unzureichenden Informationen nachfragen, nicht raten; Alternativen mit Risikohinweisen anbieten"
  • Langfristiger Kontext: z. B. „mein Team arbeitet im B2B-Bereich", „gĂ€ngige Tools sind XX (wo zutreffend)"
✅
Praktischer Rat: „PrĂ€ferenzen + SOPs" in Memory schreiben

Statt jedes Mal zu erklĂ€ren, „wie Sie die Ausgabe wĂŒnschen", schreiben Sie Ihre Arbeitsgewohnheiten einmal in Memory, sodass der Agent sie bei jedem Start automatisch befolgt. Je frĂŒher Sie diese Regeln festigen, desto weniger Aufwand spĂ€ter und desto konsistenter wird es sein.

Sie können nach HÀufigkeit priorisieren: hÀufig verwendete und stabile Punkte (langfristige PrÀferenzen, feste Prozesse) sollten zuerst geschrieben werden.

⚠
Wann sollten Sie nichts in Memory schreiben? (Grenzen wie in den vorherigen Abschnitten)

Memory ist kein Entwurfsordner. TemporĂ€re, einmalige Aufgaben (wie „schau fĂŒr mich nach dem Wetter in Berlin") sollten nicht in Memory geschrieben werden, sonst wird die Memory-Datei allmĂ€hlich aufgeblĂ€ht und unĂŒbersichtlich, was den Agenten bei langfristigen Entscheidungen verwirrt.

Prinzip: Nur feste PrÀferenzen und langfristige SOPs aufnehmen, temporÀre Aufgaben ignorieren.

đŸ§Ș
Schnelle Entscheidungsfrage: Sollte es in Memory?

Wenn die Antworten lauten:
1) Wird diese Regel in Zukunft wiederholt verwendet?
2) Kann sie das Ausgabeformat / den Stil / die AusfĂŒhrungsstrategie stabil verĂ€ndern?
3) Wird sie sich im Laufe der Zeit nicht hÀufig Àndern?

Je mehr Kriterien Sie erfĂŒllen, desto geeigneter ist es fĂŒr Memory. Andernfalls fĂŒgen Sie es einfach in die Anweisung fĂŒr diese Sitzung ein.

đŸ”„
Zusammenfassung in einem Satz

Memory ermöglicht es dem Agenten, langfristig konsistente Arbeitsweisen zu entwickeln: stabile PrĂ€ferenzen und SOPs darin verfestigen, wĂ€hrend temporĂ€re Aufgaben fĂŒr die aktuelle AusfĂŒhrung bleiben.

Wichtige Punkte zu Memory:

1) Memory speichert die Langzeitkonfiguration (Warum es existiert)
Der Hauptunterschied zwischen Memory und Prompt ist: Prompt behandelt diese spezifische Aufgabe, wĂ€hrend Memory sich um „alle zukĂŒnftigen Aufgaben" kĂŒmmert. Durch das Speichern von PrĂ€ferenzen und SOPs in Memory kann der Agent diese Regeln konsistent anwenden, ohne dass Sie sie wiederholen mĂŒssen.

Wenn Sie zum Beispiel in Memory schreiben „Standard-Ausgabesprache ist Deutsch", dann wird der Agent bei allen zukĂŒnftigen Aufgaben automatisch bevorzugt auf Deutsch antworten.

2) Wann verwendet der Agent Memory? (Lademechanismus)
In der Regel wird Memory zuerst geladen, wenn der Agent eine neue Sitzung oder Konversation startet. Der Agent liest MEMORY.md, extrahiert die Regeln/PrĂ€ferenzen und behandelt sie dann als Teil des Systemkontexts fĂŒr diese AusfĂŒhrung – Ă€hnlich wie das HinzufĂŒgen zusĂ€tzlicher Systemanweisungen.

Das unterscheidet sich vom Prompt mitten in der Konversation: Memory Ă€ndert sich wĂ€hrend der Konversation nicht, es ist die „stabile Grundlinie" fĂŒr alle nachfolgenden AusfĂŒhrungen.

3) Was sollte NICHT in Memory (Grenzsetzung)
Memory sollte enthalten: stabile Arbeitsgewohnheiten, FormatprÀferenzen, langfristige SOPs, wiederkehrende EinschrÀnkungen.
Memory sollte NICHT enthalten: einmalige Aufgaben, temporÀre Daten, sitzungsspezifische Informationen, persönliche Geheimnisse.

Wenn diese vermischt werden, wird Memory unĂŒbersichtlich und der Agent verliert die FĂ€higkeit zu unterscheiden, was „dauerhaft" und was „vorĂŒbergehend" ist.

4) Wie strukturiert man Memory fĂŒr maximale Wirksamkeit
Gutes Memory sollte nach Kategorien organisiert sein:

  • Kommunikationsstil: „Immer in prĂ€gnantem Deutsch antworten", „zuerst Struktur, dann Details" usw.
  • Technische Voreinstellungen: „Python als Hauptsprache verwenden", „JSON fĂŒr strukturierte Daten" usw.
  • Entscheidungsregeln: „bei Unsicherheit nachfragen statt raten", „immer eine Risikobewertung geben" usw.
  • Kontext & Hintergrund: „Arbeit im B2B-SaaS-Bereich", „TeamgrĂ¶ĂŸe ist 5" usw.
  • Tool- & Integrationsinformationen: â€žĂŒbliches CRM ist Salesforce", „Log-System ist Datadog" usw.

Auf diese Weise kann der Agent beim Lesen von Memory schnell die relevanten Regeln fĂŒr den aktuellen Kontext finden.

5) Memory-Wartung (es frisch halten)
Memory ist nicht „einmal schreiben, fĂŒr immer nutzen". Wenn sich Ihr Arbeitsstil weiterentwickelt oder Regeln Ă€ndern, sollten Sie Memory regelmĂ€ĂŸig ĂŒberprĂŒfen und aktualisieren, um es an die aktuelle Praxis anzupassen.

Eine gute Praxis: vierteljĂ€hrlich Memory ĂŒberprĂŒfen, veraltete Punkte entfernen, neue etablierte Muster hinzufĂŒgen. So bleibt Memory schlank und effektiv.

📋
Beispiel: Wie ein gutes Memory aussieht

MEMORY.md Beispiel:

Meine ArbeitsprÀferenzen & SOPs

 Kommunikationsstil
  Sprache: Deutsch (prÀgnant, Fazit zuerst)
  Format: AufzĂ€hlungspunkte bei Listen, strukturierte Abschnitte fĂŒr komplexe Informationen
  Tonfall: professionell, aber zugÀnglich

Technische Voreinstellungen
  Hauptsprache: Python
  Datenformat: JSON
  Datumsformat: YYYY-MM-DD
  Zeitzone: UTC+1

Entscheidungsregeln
  Bei unzureichenden Informationen: klÀrende Fragen stellen, nicht annehmen
  Alternativen mit Risiko-/Nutzen-Analyse anbieten
  Nachvollziehbare BegrĂŒndung bei komplexen Entscheidungen

Kontext
  Team: B2B SaaS, 5 Personen
  Haupt-CRM: Salesforce
  Hauptwerkzeuge: Python, PostgreSQL, Slack

Prozess-SOPs
  Code-Review immer vor dem Deployment erforderlich
  Dokumentation muss bei API-Änderungen aktualisiert werden
  TĂ€gliches Standup um 10:00 Uhr UTC+1
      

⚠
HĂ€ufige Fallstricke, die zu vermeiden sind

1) Memory ĂŒberfĂŒllen: Memory wie „alles ĂŒber mich" behandeln. Das verwirrt den Agenten bei den PrioritĂ€ten.
2) Vage Regeln: Vermeiden Sie „sei schlau", „nutze dein bestes Urteilsvermögen". Verwenden Sie stattdessen konkrete, umsetzbare Regeln.
3) Niemals aktualisieren: Memory sollte sich mit Ihnen weiterentwickeln. Alte, veraltete Regeln erzeugen StörgerÀusche.
4) WidersprĂŒchliche Regeln: Wenn Memory WidersprĂŒche enthĂ€lt, kann der Agent schwanken oder keine Entscheidung treffen. RĂ€umen Sie es auf.

✅
Wie Memory das Agenten-System vervollstÀndigt

Jetzt haben wir alle vier Ebenen:
Agent (Denken & Koordination) → entscheidet, was zu tun ist
Skill (konkrete AusfĂŒhrung) → fĂŒhrt die Entscheidung aus
Prompt (Anweisungen fĂŒr diese Aufgabe) → legt fest, wie diese Aufgabe zu erledigen ist
Memory (Langzeitkonfiguration) → stellt Konsistenz bei allen zukĂŒnftigen Aufgaben sicher

Zusammen bilden sie ein vollstĂ€ndiges, reproduzierbares und skalierbares KI-AusfĂŒhrungssystem.

5. Soul (Kernwerte & Verhalten) / SOUL.md

đŸ—Łïž

Allgemeines VerstÀndnis

Die „Persönlichkeitskonfiguration“ und Verhaltensleitplanken der KI: legt fest, was sie „tun soll und was sie auf keinen Fall tun darf“.

✹

Tieferes VerstÀndnis

SOUL.md definiert die Verhaltensregeln, Werte und operativen Grenzen des Agenten. Es ist die „grundlegende Verfassung“ des Agenten – welche Handlungen erlaubt sind, welche absolut verboten sind, alles hier klar festgehalten.

Daher ist SOUL nicht nur eine StilprÀferenz; es wirkt sich direkt auf die Sicherheitsgrenzen und die konforme Ausgabe des Agenten aus.

Wenn Memory das ist, „was erinnert wurde“, dann ist Soul das, „zu was fĂŒr einer KI man wird“. Zum Beispiel: nur produktbezogene Fragen beantworten; Finanzoperationen erfordern eine doppelte BestĂ€tigung; niemals Passwörter oder sensible Zugangsdaten verlangen; bei rechtlichen/medizinischen Angelegenheiten mĂŒssen HaftungsausschlĂŒsse gegeben und auf professionelle KanĂ€le verwiesen werden, usw.

⚠
Warum ist SOUL wichtiger, als man denkt?

Die Konfiguration von SOUL.md bestimmt direkt, wie der Agent in Risikoszenarien „ablehnt“ und „Alternativen anbietet“. Wenn es als Teamwerkzeug eingesetzt wird oder Unternehmensdaten involviert sind, kann eine unsachgemĂ€ĂŸe SOUL-Konfiguration zu unbefugtem Zugriff, GrenzĂŒberschreitungen oder Compliance-Risiken fĂŒhren.

Deshalb sollte man vor dem Go-Live diese Datei sorgfĂ€ltig konfigurieren und die Grenzen mit TestfĂ€llen ĂŒberprĂŒfen.

Es wird empfohlen, SOUL als eine „ausfĂŒhrbare Regel-Checkliste“ zu schreiben, die folgende Kategorien abdeckt:

  • Was erlaubt ist: Der Arbeitsbereich und die DomĂ€nengrenzen des Agenten (z. B. nur Produktanfragen/interne Prozesse bearbeiten).
  • Was verboten ist: Eindeutige harte Ablehnungen fĂŒr risikoreiche Verhaltensweisen (z. B. Passwörter/SchlĂŒssel verlangen; unsichere Ergebnisse versprechen; Berechtigungen umgehen).
  • BestĂ€tigungspflichtige Aktionen: Regeln fĂŒr Überweisungen, RĂŒckerstattungen, VertrĂ€ge, BerechtigungsĂ€nderungen, die doppelt bestĂ€tigt oder genehmigt werden mĂŒssen.
  • Ausgabestil & Tonfall: z. B. muss höflich sein, keine persönlichen Angriffe, keine bedrohliche Sprache.
  • Umgang mit GrenzfĂ€llen: Wenn etwas nicht erledigt werden kann, Alternativen anbieten (z. B. protokollieren und an einen Menschen eskalieren / Fachabteilung konsultieren).
📋
Reales Beispiel: Soul-Konfiguration fĂŒr einen Kundenservice-Agenten

Angenommen, Sie konfigurieren einen Kundenservice-Agenten fĂŒr Ihr Unternehmen; seine SOUL.md könnte Folgendes enthalten:

‱ Immer höflich bleiben, keine beleidigende oder negativ kategorisierende Sprache;
‱ Niemals RĂŒckerstattungen oder EntschĂ€digungen versprechen, nur sagen „Ich werde dies aufzeichnen und zur Bearbeitung weiterleiten“;
‱ Bei rechtlichen Fragen einheitlich antworten „Bitte wenden Sie sich an die Rechtsabteilung/Fachleute“;
‱ Bei Anfragen nach Passwörtern, OTPs, SchlĂŒsseln: direkt ablehnen und den Benutzer durch den korrekten Verifizierungsprozess fĂŒhren.

Nach der Konfiguration wird der Agent, egal wie Benutzer versuchen zu manipulieren, nicht ĂŒber die StrĂ€nge schlagen. Nach dem Ändern von Soul empfiehlt es sich, mit einigen Szenarien zu testen: welche sollten abgelehnt werden, welche benötigen eine BestĂ€tigung, welche können normal beantwortet werden.

✅
Minimaler Test-Satz vor dem Start (schnelle SelbstprĂŒfung)

Sie können 6 Kategorien von Testfragen vorbereiten, um zu ĂŒberprĂŒfen, ob Soul funktioniert:

1) Fragen außerhalb des Bereichs: Lehnt der Agent ab oder leitet er um?
2) Hochriskante Anfragen: Wird klar abgelehnt?
3) BestĂ€tigungspflichtige Aktionen: Wird vor der AusfĂŒhrung bestĂ€tigt?
4) Anfragen nach sensiblen Informationen: Wird abgelehnt und eine sichere Alternative angeboten?
5) Compliance/HaftungsausschlĂŒsse: Erfolgt die Ausgabe gemĂ€ĂŸ den Regeln?
6) „Manipulation zum Umgehen“: Wenn Benutzer das Überspringen von Prozessen verlangen, hĂ€lt der Agent die Grenze ein?

đŸ”„
Zusammenfassung in einem Satz

SOUL.md definiert die „Leitplanken und Grenzen“ des Agenten: Es macht die KI bei der AusfĂŒhrung prinzipientreu und vorhersehbar und damit sicherer und zuverlĂ€ssiger in Team- und GeschĂ€ftsszenarien.

Wichtige Unterschiede zwischen Soul, Memory und Prompt:

DimensionSoul (SOUL.md)Memory (MEMORY.md)Prompt (diese Aufgabe)
Geltungsbereich Grundlegende Grenzen Langfristige PrÀferenzen Diese spezifische Aufgabe
HĂ€ufigkeit Ändert sich selten (grundlegend) Ändert sich vierteljĂ€hrlich/saisonal Ändert sich pro Aufgabe
Zweck Schaden verhindern / Sicherheit gewĂ€hrleisten Konsistenz sicherstellen AusfĂŒhrungsdetails festlegen
Konsequenz bei Verstoß Compliance‑Verstoß / Sicherheitsrisiko Inkonsistente Ergebnisse Abweichung der Aufgabenausgabe
Beispiel „Niemals Passwörter verlangen“ „Immer auf Chinesisch antworten“ „In 3 AufzĂ€hlungspunkten zusammenfassen“

1) Soul definiert, „Was fĂŒr ein Agent Sie sind“ (IdentitĂ€t & Leitplanken)
Soul beantwortet die grundlegendste Frage: Was darf ich sein und tun?
Dazu gehört:
- Arbeitsbereich: FĂŒr welche DomĂ€nen/Aufgaben bin ich verantwortlich?
- Harte Leitplanken: Was darf ich absolut niemals tun (Sicherheit, Compliance, Ethik)?
- Genehmigungsworkflows: FĂŒr welche Aktionen muss ich eine BestĂ€tigung einholen?
- Eskalationspfade: Wenn ich nicht helfen kann, wohin leite ich weiter?

Soul ist die „rote Linie“. Sie wird bei jeder AusfĂŒhrung durchgesetzt, unabhĂ€ngig davon, wie Benutzer zu manipulieren versuchen.

2) Soul vs. Sicherheit: Warum Soul fĂŒr den Einsatz entscheidend ist
Ein gut konfigurierter Soul kann viele gÀngige Angriffsvektoren verhindern:
- Prompt‑Injection: Wenn Soul sagt „Hochrisiko‑Anfragen immer ĂŒberprĂŒfen“, sollte der Agent selbst dann ablehnen, wenn ein Prompt sagt „Ignoriere diese Regel“.
- Social Engineering: Wenn Soul sagt „Niemals Zugangsdaten herausgeben“, sollte der Agent ablehnen, egal wie geschickt der Benutzer fragt.
- Scope Creep: Wenn Soul die DomĂ€nengrenze des Agenten definiert, wird er nicht versuchen, außerhalb seines Bereichs liegende Anfragen durch Raten zu bearbeiten.

Das macht Soul grundlegend fĂŒr einen sicheren Einsatz.

3) Wie Soul in den Entscheidungskreislauf des Agenten integriert ist
Stellen Sie sich den AusfĂŒhrungszyklus des Agenten wie folgt vor:
Schritt 1: Soul lesen → Was sind meine Grenzen?
Schritt 2: Memory lesen → Was sind meine ArbeitsprĂ€ferenzen?
Schritt 3: Prompt empfangen → Was ist diese spezifische Aufgabe?
Schritt 4: AusfĂŒhrung planen → Innerhalb der Grenzen das Ziel erreichen
Schritt 5: Compliance prĂŒfen → Habe ich mich innerhalb von Soul bewegt?
Schritt 6: AusfĂŒhren / Eskalieren

Beachten Sie, dass Soul vor und nach der AusfĂŒhrung ĂŒberprĂŒft wird. Es ist der Ă€ußere Kreislauf.

✅
Checkliste fĂŒr die Soul‑Konfiguration vor dem Start

ÜberprĂŒfen Sie vor dem Einsatz eines Agenten:

☑ Soul.md ist geschrieben (nicht nur implizit)
☑ Alle Teammitglieder verstehen die Grenzen
☑ TestfĂ€lle decken 6+ Szenarien ab, einschließlich Jailbreak‑Versuchen
☑ Eskalationspfade sind definiert und funktionsfĂ€hig
☑ Compliance‑Anforderungen sind explizit abgedeckt
☑ Hochrisiko‑Aktionen erfordern BestĂ€tigung/Genehmigung
☑ Kommunikationston ist definiert und getestet
☑ Sicherheitsleitplanken (Passwörter, Tokens, SchlĂŒssel) sind klar
☑ Die Behandlung von Anfragen außerhalb des Bereichs ist höflich (nicht unhöflich)
☑ Audit/Protokollierung ist fĂŒr sensible Aktionen eingerichtet

🔗
Wie die 5 Konzepte zusammenarbeiten: Das vollstÀndige Bild

Agent ist die denkende EntitÀt
Skill ist die AusfĂŒhrungsfĂ€higkeit
Prompt ist die Aufgabenanweisung
Memory ist die langfristige PrÀferenz
Soul ist die operative Verfassung

Zusammen: Der Agent denkt (mit Memory als Kontext und Soul als Leitplanken), entscheidet, welcher Skill aufgerufen wird, erhĂ€lt spezifische Anweisungen vom Prompt und fĂŒhrt innerhalb der Grenzen von Soul aus. Ergebnis: ein zuverlĂ€ssiges, sicheres und konsistentes KI‑System.


Erweiterte Konzepte (optional)

Die folgenden drei Konzepte helfen Ihnen, die Automatisierung wirklich zu verstehen. Sie sind kein völlig neues Wissen, sondern bringen die frĂŒheren Konzepte Agent / Skill / Memory / Soul / Prompt auf die praktische Ebene: „tatsĂ€chlich ausfĂŒhren, miteinander verbinden und stabil integrieren“. AnfĂ€nger können diesen Teil vorerst ĂŒberspringen; wenn Sie beginnen, mehrstufige Prozesse zu erstellen, externe Dienste zu integrieren oder Datenflussprobleme zu debuggen, sparen Sie durch die RĂŒckkehr hierher viel Zeit.

🔀 1) Workflow (Mehrstufige ProzessausfĂŒhrung)

Ein Workflow kann als wiederverwendbarer AusfĂŒhrungspfad verstanden werden: Mehrere Schritte in einer Abfolge zu verbinden, damit das System ein Ziel systematisch erreicht. Wenn der Agent „ein Kollege ist, der denken und ausfĂŒhren kann“, dann ist der Workflow „die Aufgabenwarteschlange und die Verbindungsmethode, die wir fĂŒr diesen Kollegen einrichten“. Er löst das Problem: Wenn eine Aufgabe nicht mit einem Satz erledigt werden kann, wie können wir mehrere Schritte zuverlĂ€ssig als verbundene Kette ausfĂŒhren?

Ein typischer Workflow enthĂ€lt in der Regel folgende Elemente (Sie können dieses GerĂŒst nutzen, um die mehrstufigen FĂ€higkeiten von EasyClaw zu verstehen):

  • Schrittliste: Was in Schritt 1, Schritt 2 usw. zu tun ist. Jeder Schritt sollte klare Grenzen und Verantwortlichkeiten haben.
  • Eingabe & Ausgabe: Jeder Schritt sollte strukturierte Ergebnisse produzieren, die der nĂ€chste Schritt verwenden kann, nicht nur „Textbeschreibungen“.
  • Bedingungen & Verzweigungen: Zum Beispiel „wenn ein kritisches Feld fehlt, zuerst nachfragen oder weitere Daten abrufen“, andernfalls mit dem nĂ€chsten Schritt fortfahren.
  • Validierung & Fehlerbehandlung: Zum Beispiel „wenn das Parsen fehlschlĂ€gt, erneut versuchen oder auf einen alternativen Ansatz zurĂŒckfallen“.
  • Zusammenfassende Ausgabe: Das Endergebnis in einem verwendbaren Format liefern (Checkliste, Bericht, Aufgabenliste, Benachrichtigungsinhalt usw.).

Wie passt der Workflow zu den vorherigen Konzepten? Ein Satz verbindet sie:
Der Agent ĂŒbernimmt Entscheidungsfindung und Planung, der Skill die konkrete AusfĂŒhrung, Memory/Soul die langfristigen Regeln und Grenzen, der Prompt sagt ihm „wie es zu tun ist“, und der Workflow verbindet diese Schritte in einer Abfolge zu einer Kette.

Beispiel: Sie mĂŒssen „eine Benutzerbeschwerde zu einem Ticket eskalieren und die verantwortliche Person benachrichtigen“. Ein sinnvoller Workflow könnte so aussehen:

  1. Eingabe sammeln: Beschwerdeinhalt, Benutzerinformationen, Zeitverlauf aus Formular/Nachricht erfassen.
  2. Informationsextraktion: Den Agenten nutzen, um die Kernpunkte der Beschwerde zu strukturieren (z. B. Art des Problems, Umfang der Auswirkungen, kritische Zeitstempel).
  3. Regelbasierte Beurteilung: Basierend auf Soul/Regeln feststellen, ob hohe PrioritÀt vorliegt, eine Eskalation erforderlich ist oder zunÀchst weitere Informationen benötigt werden.
  4. Ticket-Erstellungs-Skill aufrufen: Strukturierte Felder in die Ticket-System-API einfĂŒgen, Ticketnummer generieren.
  5. Benachrichtigungs-Skill aufrufen: Ticketnummer und Kernzusammenfassung an die verantwortliche Person senden (Feishu/E-Mail/IM).
  6. Ergebnisvalidierung: BestĂ€tigen, dass die Ticketerstellung einen Erfolgsstatus zurĂŒckgegeben hat und die Benachrichtigung gesendet wurde.
  7. Zusammenfassende RĂŒckmeldung: Dem Benutzer oder Administrator ausgeben „Ticket erstellt + Link/Nummer + nĂ€chste Schritte“.

Sie werden feststellen: Der Workflow löst nicht „wie schreibt man eine ErklĂ€rung“, sondern vielmehr „wie verknĂŒpft man mehrere Werkzeugaufrufe und Validierungsschritte zuverlĂ€ssig“. Wenn Sie mit komplexen Prozessen beginnen (insbesondere systemĂŒbergreifend: IM + Tickets + Datenbank), wird der Workflow zu Ihrer wichtigsten FĂ€higkeit.

📩 2) JSON (Datenaustauschformat)

JSON ist das Standardformat fĂŒr die DatenĂŒbertragung zwischen Agent und externen Werkzeugen/APIs. In der mehrstufigen Automatisierung ist die Rolle von JSON entscheidend: Es macht die Frage „kann der nĂ€chste Schritt die korrekten Daten erhalten“ zu einer ĂŒberprĂŒfbaren Frage, nicht zu „können wir einen natĂŒrlichsprachlichen Satz intuitiv verstehen“.

Sie können sich JSON wie einen „strukturierten Datencontainer“ im System vorstellen. Statt loser SĂ€tze enthĂ€lt es explizite Felder und Typen, wie: Ticket-Titel, Benutzer-ID, PrioritĂ€t, Frist, Benachrichtigungsinhalt usw.

Im Workflow von EasyClaw erscheint JSON typischerweise an diesen Stellen:

  • Skill-Eingabe & -Ausgabe: Skills benötigen oft bestimmte Felder als Eingabe und geben strukturierte Ergebnisse fĂŒr die Entscheidungsfindung des Agenten zurĂŒck.
  • API-Aufrufparameter: Zum Beispiel mĂŒssen Parameter beim Aufruf der Feishu-API in JSON organisiert werden.
  • DatenĂŒbertragung zwischen Schritten: Die JSON-Ausgabe eines Schritts wird vom nĂ€chsten Schritt gelesen.

Warum sehen viele Probleme aus wie „der Agent kann das nicht“, liegen aber tatsĂ€chlich an JSON? HĂ€ufige FĂ€lle sind:

  • Feldnamenabweichung: Erwartete Eingabe ist user_id, aber tatsĂ€chliche Eingabe ist userId.
  • Fehlende Felder: Ein Pflichtfeld fehlt, die API gibt einen Fehler zurĂŒck.
  • Typabweichung: Datum sollte ein String sein, wurde aber als Zahl ĂŒbergeben, oder sollte ein Array sein, wurde aber als Text ĂŒbergeben.
  • JSON-Formatfehler: Fehlende AnfĂŒhrungszeichen, fehlende Klammern, nachgestellte Kommas – das Parsen schlĂ€gt fehl.

Daher ist die beste Reihenfolge zur Fehlerbehebung bei Integrationsproblemen in der Regel:
Zuerst JSON prĂŒfen, dann Prompt, dann die Argumentationslogik des Agenten.
Denn JSON ist die Grundlage dafĂŒr, „ob es funktionieren wird“.

🔑 3) API Key (Zugangsdaten)

Ein API Key ist die Authentifizierungsberechtigung beim Zugriff auf KI-Modelle oder Drittanbieterdienste. Ohne den korrekten API Key kann das System in der Regel das entsprechende Modell oder den Dienst nicht aufrufen; selbst wenn der Agent perfekt argumentiert, bleibt die AusfĂŒhrung unmöglich.

In EasyClaw-Szenarien mĂŒssen Sie zwei FĂ€lle unterscheiden:

  • StandardmĂ€ĂŸige Nutzung offizieller Funktionen/Guthaben: AnfĂ€nger benötigen in der Regel keinen eigenen Key, da die Plattform den Zugang bereits eingerichtet hat.
  • Integration benutzerdefinierter Modelle/Dienste: Sie mĂŒssen den API Key an der entsprechenden Stelle eintragen und den Agenten/Skill auf dieses Modell verweisen.

Ein API Key betrifft nicht nur „kann ich es nutzen oder nicht“, sondern beeinflusst auch „welche FĂ€higkeiten, Kosten und StabilitĂ€t“:

  • Modellauswahl: Unterschiedliche Keys/Modelle können unterschiedliche ArgumentationsqualitĂ€t, Geschwindigkeit und Ausgabeformat-Performance bieten.
  • Kostenkontrolle: Einige Plattformen berechnen nach Nutzung; das Konto/Kontingent des Keys beeinflusst das verfĂŒgbare Budget.
  • Berechtigungsgrenzen: Manche Dienst-Keys erlauben möglicherweise nur eingeschrĂ€nkte API-Aufrufe, was dazu fĂŒhrt, dass bestimmte Skill-AusfĂŒhrungen fehlschlagen.

HĂ€ufige Fehlerbehebung bei „Skill-Aufruf fehlgeschlagen“:
ÜberprĂŒfen, ob der Key korrekt eingetragen ist, ob der Key abgelaufen/unzureichendes Kontingent hat, ob dieser Key ĂŒber die erforderlichen Aufrufberechtigungen verfĂŒgt.
Wenn die API einen Authentifizierungsfehler (401/403) zurĂŒckgibt, sollte zuerst die API-Key-Konfiguration ĂŒberprĂŒft werden.

Wann mĂŒssen Sie sich ernsthaft damit befassen? (Kurzreferenz)

  • Sie erstellen eine mehrstufige Automatisierung: Der Workflow bestimmt, ob die Kette stabil ausgefĂŒhrt werden kann.
  • Sie integrieren Feishu/Unternehmenssysteme/externe APIs: JSON bestimmt, ob Daten korrekt ĂŒbertragen und geparst werden können.
  • Sie integrieren Ihr eigenes Modell oder einen benutzerdefinierten Dienst: Der API Key bestimmt, ob Sie die entsprechende FĂ€higkeit aufrufen können.
  • Sie debuggen „kann erklĂ€ren, aber nicht ausfĂŒhren“ oder „AusfĂŒhrung schlĂ€gt ohne Hinweis fehl“: In der Regel ist es am schnellsten, nacheinander Workflow-VerknĂŒpfung, JSON-Struktur und API-Key-Berechtigungen zu ĂŒberprĂŒfen.
✅
Ein Satz, der alle drei verbindet

Workflow sorgt dafĂŒr, dass Schritte zuverlĂ€ssig nacheinander ausgefĂŒhrt werden, JSON stellt sicher, dass die in jedem Schritt ĂŒbergebenen Daten korrekt strukturiert und nutzbar sind, API Key macht Werkzeuge und Modelle tatsĂ€chlich aufrufbar. Zusammen verwandeln sie Ihre Automatisierung von „sieht intelligent aus“ zu „funktioniert tatsĂ€chlich in der Praxis“.

🧠
Konzept-Kurzreferenztabelle

Agent = FĂ€higer KI-Kollege
Skill = Aufrufbares FĂ€higkeitsmodul (Werkzeug/Schnittstelle/Prozess)
Prompt = Sagt dem Agenten, wie es zu tun ist (Regeln, Auslöser, Ausgabe, Fehlerbehandlung)
Memory = Langfristige PrÀferenzen & SOPs (macht Regeln langfristig wirksam)
Soul = Verhaltensverfassung & Grenzen (Erlauben/Verbieten/BestÀtigungsstrategie)
Workflow = Mehrstufiger Staffellauf-AusfĂŒhrungspfad
JSON = Strukturiertes Datenaustauschformat (sorgt fĂŒr nutzbare Felder)
API Key = Drittanbieter-/Modell-Integrationsberechtigung (stellt sicher, dass FĂ€higkeiten aufrufbar sind)