📖 Erste Schritte · Kapitel 01

5 Kernkonzepte der KI

Bevor Sie EasyClaw verwenden, nehmen Sie sich 5 Minuten Zeit, um diese Konzepte kennenzulernen – sie helfen Ihnen zu verstehen, wie KI wirklich funktioniert, anstatt blind Anweisungen einzugeben.
Sie müssen kein Ingenieur sein, aber Sie sollten wissen: warum KI Dinge tun kann, wie man sie präziser macht und wann sie Fehler machen kann.

1. Agent (Intelligenter Agent)

🧠

Wie Einsteiger es verstehen

Ein Agent (Intelligenter Agent) lässt sich einfach so beschreiben: „ein KI‑Kollege, der Dinge erledigt“. Er kann nicht nur chatten und erklären, sondern vor allem Ihre Ziele in konkrete Schritte umsetzen und nach jedem Schritt weitermachen, bis das gewünschte Ergebnis erreicht ist.

⚙️

Kernübersicht zum AI‑Agenten

Ein typischer AI‑Agent setzt sich aus drei Teilen zusammen:
Gehirn (Verstehen & Entscheiden) + Werkzeuge/Fähigkeiten (wo ausgeführt wird) + Ausführungsschleife (Prüfen während der Ausführung).
Deshalb wirkt er nicht wie eine „einmalige Antwortgenerierung“, sondern eher wie ein Projektmanager: erst durchdenken, dann handeln, dann überprüfen.

Als Nächstes klären wir, wie es funktioniert. Sie können sich den Arbeitsprozess des Agenten als eine wiederholt ausgeführte Schleife vorstellen: Aufgabe verstehen → Plan erstellen → Werkzeuge aufrufen → Aktion ausführen → Ergebnis prüfen → Anpassen → Berichten.

1) Die Aufgabe verstehen:
Der Agent wird zunächst ermitteln, welches Problem Sie lösen möchten, wie Erfolg aussieht und ob es Einschränkungen gibt (z. B. Format, Tonfall, Zeitrahmen, was er nicht tun soll). Wenn die Informationen nicht ausreichen, stellt er möglicherweise zuerst Fragen oder trifft notwendige Annahmen und erklärt diese.

2) Einen Plan erstellen (Schritte zerlegen):
Große Aufgaben müssen oft in kleinere Schritte zerlegt werden. Zum Beispiel könnte „Posteingang organisieren“ so unterteilt werden: E‑Mails scannen → Typen identifizieren (Benachrichtigungen/Rechnungen/Kunden/Verschiedenes) → Priorität bewerten → Archivieren → Antwortentwürfe (falls nötig) → Liste zusammenfassen. Dieser Schritt legt fest, „was zuerst und was als Nächstes getan wird“.

3) Werkzeuge/Fähigkeiten aufrufen:
Das ist auch der Schlüssel dazu, wie der Agent „Dinge erledigen“ kann. Ohne Werkzeuge bleibt er auf der Ebene textbasierter Ratschläge; mit Werkzeugen kann er tatsächlich Aktionen ausführen, wie: Dateien lesen, Informationen suchen, Nachrichten senden, auf Unternehmenssysteme zugreifen, Dokumente generieren usw. Sie werden sehen, wie der Agent „mit der Außenwelt interagiert“ und nicht nur einen Satz generiert.

4) Ausführen und Aufzeichnen:
In geeigneten Schritten wird der Agent tatsächlich Operationen auslösen (z. B. Aufruf einer Service‑API, Abschluss einer Datenverarbeitungsaufgabe, Generierung nutzbarer Inhalte). Gleichzeitig zeichnet er auf, „welchen Schritt ich abgeschlossen habe“, sodass später leichter fortgefahren oder zur Korrektur zurückgerollt werden kann.

5) Überprüfung und Fehlerkorrektur:
Der Agent strebt nicht nur danach, dass es „abgeschlossen aussieht“; er prüft auch, ob das Ergebnis den Anforderungen entspricht. Zum Beispiel: Fehlen dem Output Schlüsselfelder, verstößt er gegen Ihre Formatvorgaben, gibt es offensichtliche Fehler oder Unsicherheiten? Wenn es nicht zufriedenstellend ist, plant er den nächsten Schritt neu und iteriert weiter.

6) Ergebnisse und nächste Schritte berichten:
Schließlich fasst der Agent die erledigten Inhalte, wichtige Erkenntnisse und Punkte, die Ihre Bestätigung benötigen, für Sie zusammen. Sie können klar erkennen: was er getan hat, was abgeschlossen wurde und was noch in Bearbeitung ist.

🧪

A More Realistic Example

You say: "Please organize my inbox and summarize emails that need my reply into a to-do list."
The Agent might: read email list → categorize and archive → extract sender/subject/key timeline → determine which need replies → generate "to-do list" (with priority and suggested reply points) → tell you "completed these categories, still have unread/uncertain items left."
Note: It's not just giving "organizing thoughts," but producing usable results (lists/archives/drafts/progress).

⚠️

Häufiges Missverständnis: Ein Agent ist nicht „besser im Chatten“

Anfänger behandeln einen Agenten oft wie einen normalen Chatbot und fragen nur: „Wie macht man das?“ Ein echter Agent braucht jedoch nutzbare Fähigkeiten und Ausführungs‑Workflows. Ein System, das nur Schritte erklären kann, aber keine Ergebnisse produziert oder Aktionen auslöst, ist eher ein „Frage‑Antwort‑Assistent“ als ein Agent. Merken Sie sich: Reden ≠ Handeln; der Vorteil eines Agenten liegt in Ausführung und Feedback.

2. Skill (Fähigkeit)

🧩

Wie Einsteiger es verstehen

Skill (Fähigkeit) lässt sich so verstehen: die konkreten Fähigkeitsmodule, mit denen der Agent Dinge erledigt.
Der Agent ist für das Denken und die Koordination zuständig (Aufgaben annehmen, nächste Schritte festlegen), während der Skill „wie der nächste Schritt ausgeführt wird“ in ausführbare Aktionen umsetzt: etwa Informationen abrufen, Dokumente schreiben, Berichte generieren, Schnittstellen aufrufen, Berechnungen durchführen usw.
Ein Agent ohne Skills bleibt meist auf der Ratschlagsebene; erst mit Skills kann ein Agent wirklich Ergebnisse liefern.

🔧

Was ein Skill genau ist (das Wesentliche)

Aus technischer Sicht ist ein Skill in der Regel eine „aufrufbare Fähigkeit“, die häufig in folgenden Formen auftritt:
1) Werkzeuge/Funktionen (z. B. suchen, berechnen, generieren, übersetzen);
2) Geschäftsprozesse (z. B. Bestellung aufgeben, Reisekostenabrechnung, Ticket erstellen);
3) Schnittstellenaufrufe (z. B. CRM‑Abfragen, Kalender synchronisieren, E‑Mails senden).

Die Frage ist nicht, „ob er chatten kann“, sondern dass Skills klare Grenzen haben: was die Eingabe ist, wie sie ausgeführt wird und was die Ausgabe ist. Dadurch kann der Agent Aufgaben zuverlässiger zerlegen und nach der Ausführung nachprüfbare Ergebnisse erhalten.

Im Agenten‑Kreislauf taucht häufig der Schritt „Werkzeuge/Fähigkeiten aufrufen“ auf, und das, was dabei aufgerufen wird, ist meist ein Skill. Man kann es sich so vorstellen: Der Agent ist wie ein Gehirn, Skills sind wie Hände, Füße und ein Werkzeugkasten.

Um tiefer zu gehen, erklären wir ausführlich, „wie Skills im Agenten‑Kreislauf funktionieren“:

1) Der Agent entscheidet, welcher Skill benötigt wird
Wenn die Aufgabe in die Ausführungsphase eintritt, analysiert der Agent, welche Fähigkeiten für den aktuellen Schritt erforderlich sind. Zum Beispiel benötigt „historische Kommunikationsdaten eines Kunden finden“ einen Skill vom Typ „Abrufen/Lesen“; „eine Folge‑E‑Mail entwerfen“ braucht einen Skill vom Typ „Text generieren/Vorlage verwenden“; „Aufgabe mit dem To‑Do‑System synchronisieren“ benötigt einen Skill vom Typ „Schreiben/Aktualisieren“.

2) Der Agent füllt Parameter in den Skill ein (Eingabe)
Skills erfordern in der Regel ein bestimmtes Eingabeformat, zum Beispiel: Stichworte, Zeitrahmen, Kunden‑ID, Zielgruppe, Ausgabestil usw. Der Agent extrahiert den Kontext und bereitet ihn als die vom Skill benötigten Parameter auf.
Dieser Schritt entscheidet über die Genauigkeit der Ausführung: ist die Eingabe falsch, wird die Ausgabe mit hoher Wahrscheinlichkeit abweichen.

3) Der Skill führt aus und liefert ein Ergebnis (Ausgabe)
Nach der Ausführung gibt der Skill strukturierte oder halbstrukturierte Ergebnisse zurück, etwa: abgerufene Listen, Berechnungsergebnisse, generierten Dokumenttext, von der API zurückgegebene Statuscodes usw. Diese Ergebnisse können vom Agenten erneut eingelesen und für nachfolgende Entscheidungen verwendet werden.

4) Der Agent überprüft die Ausgabe und fährt mit dem nächsten Schritt fort (geschlossener Kreislauf)
Der Abschluss eines Skills ist nicht der Endpunkt; der Agent prüft außerdem: Erfüllt das Ergebnis die Vorgaben? Fehlen Informationen? Ist eine zweite Generierung oder Korrektur nötig? Wenn es nicht zufriedenstellend ist, kann er einen weiteren Skill aufrufen (z. B. „ergänzende Suche“, „Text umschreiben“, „Ausgabe formatieren“) und erneut iterieren. Das ist der „kooperative geschlossene Kreislauf“ von Skill und Agent.

🧠

Warum die „Eingabe und Ausgabe“ eines Skills wichtig ist

Anfänger halten einen Skill oft für eine „Chat‑Anweisung“. Doch ein echter Skill gleicht eher einer „Schnittstelle“:
Je klarer die Eingabe, desto stabiler die Ausgabe; nur so kann der Agent zuverlässig wiederholt ausführen und Aufgaben erledigen. Selbst bei derselben „E‑Mail generieren“ verlangt ein Skill beispielsweise Tonfall, Länge, Empfängerinformationen und inhaltliche Schlüsselfelder, damit der generierte Inhalt nicht jedes Mal abweicht.

Beispiel: Sie bitten den Agenten, „eine Folge‑E‑Mail an potenzielle Kunden zu schreiben und ein To‑Do anzulegen.“
Das verknüpft üblicherweise mehrere Skills zu einer vollständigen Handlungskette:

1) Skill zur Kundendatenabfrage: Eingabe Kunden‑ID/Name, Ausgabe Name, Unternehmen, wichtigste Punkte der letzten Kommunikation;
2) Skill zur Informationsextraktion/Zusammenfassung: Eingabe Kommunikationsverlauf, Ausgabe Kernprobleme und erreichte Punkte;
3) Skill zur E‑Mail‑Generierung: Eingabe Tonfall (professionell/freundlich), Vorlage (Follow‑up/Abschluss), Kernpunkte, Ausgabe E‑Mail‑Text;
4) Skill zur To‑Do‑Erzeugung: Eingabe E‑Mail‑Inhalt und Handlungsvorschläge, Ausgabe To‑Do‑Einträge (Verantwortlicher, Frist, Schritte);
5) Skill zum Schreiben in Kalender/To‑Do‑System: Eingabe strukturierte To‑Do‑Daten, Ausgabe Erfolgsstatus oder Link.

Sie werden feststellen: Der Agent scheint „Vertriebsarbeit zu verstehen“, aber dahinter stecken Skill‑Module, die reale Fähigkeiten zu einem Workflow zusammensetzen. Der Agent ist dafür verantwortlich, diese Fähigkeiten in der richtigen Reihenfolge einzusetzen.

⚠️

Häufiges Missverständnis: Skill als „gewöhnlicher Prompt“ betrachten

Viele verstehen einen Skill bei der Systemintegration als ein Prompt‑Segment oder eine Ein‑Satz‑Anweisung. Doch ohne klare Ein‑/Ausgabe und ausführbare Mechanismen kann der Agent dieselben Ergebnisse nicht stabil reproduzieren.
Das treffendere Verständnis lautet: Ein Skill ist eine aufrufbare Fähigkeitseinheit, der Prompt hilft nur dabei, ihn besser „auszuwählen/zu organisieren“.

✅

Wie man beurteilt, ob etwas als Skill zählt

Mit drei Fragen lässt sich das schnell beurteilen:
Kann es aufgerufen werden?
Welche Eingabe benötigt es und was ist die Ausgabe?
Erhält der Agent nach der Ausführung ein verwertbares Ergebnis (und nicht nur eine Erklärung)?

Treffen diese Punkte zu, handelt es sich eher um einen Skill; andernfalls ist es vielleicht nur eine „beratende Textfähigkeit“.

Verwenden Sie weiterhin den „Arbeitskreislauf“ des Agenten, um Skill zu verstehen: Der Agent ist für Denken und Koordination zuständig, der Skill für die Ausführung konkreter Schritte. Wenn der Agent feststellt, dass eine Aufgabe eine bestimmte Fähigkeit erfordert, wählt er den passenden Skill aus, übergibt ihm die nötigen Parameter, wartet auf das Ergebnis und bringt es zurück in den Kreislauf – zur Überprüfung, Ergänzung oder Planung des nächsten Schritts.

Beispiel: Sie bitten den Agenten, „eine Kunden‑Follow‑up‑Mail zu schreiben und ein To‑Do zu generieren.“
Er könnte verschiedene Skills aufrufen:
1) Kundeninformationen abrufen (Name, letzte Kommunikationspunkte holen);
2) E‑Mail‑Entwurf generieren (Ausgabe nach Tonfall/Länge/Vorlage);
3) To‑Do‑Liste erstellen (nächste Schritte in Einzelpunkte zerlegen).
Erst das Zusammenspiel dieser Skills erzeugt das Verhalten eines Agenten, das „sehr kompetent aussieht“.

🧠

Der Wert von Skills

Skills verwandeln den Agenten von „kann reden“ zu „kann Ergebnisse liefern“ und bringen meist drei Vorteile:
Zuverlässiger (festgelegte Schritte, klare Parameter), besser kontrollierbar (man weiß, was er tut), besser wiederverwendbar (dieselbe Fähigkeit für unterschiedliche Aufgaben nutzbar).

⚠️

Häufiges Missverständnis

Manche denken, Skill sei dasselbe wie „Prompt“. Tatsächlich ist ein Skill eher ein aufrufbares Fähigkeitsmodul (Werkzeug/Schnittstelle/Prozess). Ohne klare Ein‑/Ausgabe und Ausführungsweise kann der Agent denselben Effekt nur schwer stabil wiederholen.

3. Prompt (Eingabeaufforderung)

🗣️

Allgemeines Verständnis

Ein Prompt (Eingabeaufforderung) ist das, was Sie der KI in natürlicher Sprache als „Ein-Satz-Anforderung“ mitteilen. Sie sagen, was zu tun ist, und die KI gibt ihr Bestes, um das Ergebnis zu produzieren.

🎯

Tieferes Verständnis

Genauer gesagt ist der Prompt die zentrale Schnittstelle für die Kommunikation mit der KI. Für Systeme mit integriertem Agent und Skill ist ein guter Prompt nicht nur „lass es Text generieren“, sondern er sorgt dafür, dass die KI weiß, wann ein Skill aufzurufen ist, wie Parameter auszufüllen sind, wie die Ausgabe aussehen soll und wie mit Fehlern umzugehen ist.

Typ	Beispiel	Wirkung
❌ Allgemeiner Prompt	„Hilf mir, eine E-Mail zu schreiben“	Die KI improvisiert frei; bei fehlenden Informationen rät sie; schwer zu überprüfen
✅ Guter Prompt (ausführungsorientiert)	„Du bist ein B2B-Vertriebsberater. Schreibe eine Produkt-Follow-up-E-Mail an den CTO: professioneller und prägnanter Ton; rufe zunächst Zhang Sans Unternehmen und frühere Kommunikationspunkte aus dem CRM ab; die E-Mail muss enthalten: 1) ein Wertversprechen 2) Bestätigung abgestimmt auf 2 Punkte aus dem letzten Gespräch 3) klare nächste Aktion; gib am Ende 3 To-do-Einträge aus (Datumsformat YYYY-MM-DD).“	Klare Auslösebedingungen + definierte aufrufbare Fähigkeiten + überprüfbare Ausgabestruktur

Sie werden feststellen, dass Prompt und die beiden vorherigen Konzepte (Agent / Skill) zwei Seiten derselben Betriebslogik sind: Der Agent benötigt den Prompt, um zu entscheiden, wie er vorgeht; der Skill benötigt den Prompt, um zu entscheiden, was ausgefüllt und wie überprüft wird.

„Der Arbeitsschleife des Agenten“ lässt sich so verstehen:
Aufgabe verstehen → Plan erstellen → Entscheiden, Skill aufzurufen → Skill ausführen → Ergebnis überprüfen → Weiter anpassen → Berichten.
Und die Rolle des Prompts besteht darin, bei jedem Schritt Regeln vorzugeben, damit der Agent nicht abweicht, nicht blind rät und einen geschlossenen Kreislauf bildet.

1) Der Prompt definiert zuerst „Ziel und Erfolgskriterien“ (Warum es tun)
Dieser Schritt legt die „Bewertungsregeln“ des Agenten fest. Der Prompt muss ihm sagen: Welches Problem genau lösen Sie, und welches Ergebnis gilt als abgeschlossen.
Zum Beispiel: nicht „hilf mir, eine E-Mail zu schreiben“, sondern „die E-Mail muss folgende Absätze enthalten, welchen Ton haben, welche Länge, und am Ende einen To-do-Eintrag enthalten.“

Ohne Erfolgskriterien im Prompt kann der Agent nur eine Ausgabe produzieren, die „ungefähr richtig aussieht“, was die Qualität schwer überprüfbar macht.

2) Der Prompt liefert „Auslösebedingungen und Einschränkungen“ (Wann was zu tun ist)
Ein Prompt, der Ergebnisse liefern kann, klärt normalerweise: wann ein Skill aufzurufen ist, wann Fragen zu stellen sind.
Zum Beispiel: Wenn Kundenname oder Datum fehlen, muss zuerst nachgefragt werden, anstatt standardmäßig „irgendeinen Namen/Datum zu schreiben“.

Das ist gleichbedeutend mit der Reduzierung von Unsicherheit: Je klarer die Einschränkungen, desto stabiler der Agent.

3) Der Prompt beschreibt „Welche Skills benötigt werden und die Eingabe-/Ausgabeverträge für jeden“ (Welche Werkzeuge zu verwenden sind)
Der Prompt muss klarstellen:
Welcher Skill aufzurufen ist, welche Eingabefelder er benötigt, woher die Eingabefelder kommen, welche Formatanforderungen bestehen;
und gleichzeitig klären: In welcher Struktur soll die Skill-Ausgabe zurückgegeben werden (z. B. JSON-Felder, Listen, Tabellen, feste Absatzstruktur usw.).

Dieser Schritt ist entscheidend dafür, dass der Prompt wirklich „durchgeplant“ ist: aus „wie der nächste Schritt zu tun ist“ wird ein „aufrufbarer Fähigkeitsaufruf“.

4) Der Prompt verlangt „Überprüfung und Fehlerbehandlung“ (Wie beurteilt man, ob es richtig gemacht wurde)
Ergebnisse zu generieren allein reicht nicht; der Prompt muss Überprüfungsregeln und Fehlerstrategien vorgeben. Übliche Ansätze sind:
- Skill-Aufruf schlägt fehl / gibt leeres Ergebnis zurück: zuerst die Ursache diagnostizieren (Parameterfehler/Berechtigung/Netzwerk/fehlende Daten), dann erneut versuchen oder downgraden;
- Ausgabe ohne Schlüsselfelder: muss vervollständigt oder der Benutzer gefragt werden, kein Raten erlaubt;
- Format passt nicht: „Formatierungs-Skill/Neuordnungs-Skill/neu generieren“ auslösen.

Das verhindert, dass der Agent in einer Schleife von „wiederholtem Ausgeben ohne Konvergenz“ stecken bleibt.

5) Der Prompt definiert das „Endgültige Ausgabeformat“ (Wer wird die Ausgabe verwenden)
Schließlich muss der Prompt festlegen, wie die Ergebnisse präsentiert werden: welche Felder müssen zurückgegeben werden, wie die Feldnamen lauten, ob strukturierte Ergebnisse benötigt werden, ob nachverfolgbare Informationen erforderlich sind (z. B. „ob ein Skill aufgerufen wurde, welcher Skill aufgerufen wurde, was die wichtigsten Ein-/Ausgaben waren“).

🧪

Ein realistisches Prompt-Beispiel (Von der Anforderung zur Ausführbarkeit)

Sie sagen: „Hilf mir, eine Follow-up-E-Mail an potenzielle Kunden zu schreiben und ein To-do anzulegen.“
Wenn Sie einen „ausführbaren Prompt“ verwenden, klärt er drei Dinge:
Auslösebedingung: zuerst fragen, wenn Kundenname/Datum fehlt;
Skill-Aufruf: zuerst „Kundeninfo abrufen Skill“ aufrufen, dann „E-Mail generieren Skill“, schließlich „To-do anlegen Skill“;
Ausgabeüberprüfung: E-Mail muss Bestätigung des Wertversprechens und nächste Aktion enthalten; To-do muss Frist (YYYY-MM-DD) und Verantwortlichen enthalten.

Auf diese Weise verwandelt sich der Agent von „eine anständige E-Mail schreiben“ in „einen vollständig ausführbaren Workflow abschließen“.

⚠️

Häufiges Missverständnis: Den Prompt als „einfach mal sagen“ behandeln

Viele Leute schreiben einen Prompt nur mit der Bitte „mach das für mich“, aber ohne Erfolgskriterien, ohne Ein-/Ausgabeverträge und ohne Fehlerbehandlung. Das Ergebnis: Der Agent improvisiert möglicherweise frei, rät bei fehlenden Feldern, die Ausgabe ist schwer zu überprüfen, und letztlich können Sie nicht bestätigen, „ob es richtig war“.

Der richtige Ansatz ist: Der Prompt sollte wie ein Ausführungsvertrag sein, den Sie mit dem Agenten schließen, damit jeder Schritt beurteilbar, korrigierbar und wiederverwendbar wird.

🔥

3 schnelle Tipps zum Schreiben von „aufrufbaren Skill“-Prompts

1) Rolle und Grenzen schreiben: Sagen Sie der KI, wer sie ist und welche Regeln sie befolgen soll („muss vor der Ausgabe überprüfen“, „darf keine nicht existierenden Informationen erfinden“).
2) Format und Felder definieren: Geben Sie die Ausgabestruktur vor („JSON mit den Feldern A/B/C zurückgeben“ oder „E-Mail muss drei Abschnitte enthalten“).
3) Schritt-für-Schritt-Auslöser schreiben: Zerlegen Sie die Aufgabe in ausführbare Aktionen, geben Sie an, wann ein Skill aufzurufen, wann zu fragen und wann ein erneuter Versuch zu starten ist.

Vergleichen Sie: „Fassen Sie dieses Dokument zusammen“ vs. „Fassen Sie es in 3 Aufzählungspunkten zusammen, jeder maximal 20 Zeichen, und geben Sie dann eine Liste mit Schlüsselwörtern aus (mindestens 5)“ – letzteres ist überprüfbar, wiederverwendbar und stabiler.

✅

Prompt mit den beiden vorherigen Konzepten in einem Satz abgleichen

Der Agent ist für Denken und Koordination zuständig, der Skill für die konkrete Ausführung, während der Prompt dem Agenten sagt: wann ein Skill aufzurufen ist, wie Parameter auszufüllen sind, wie Ergebnisse zu überprüfen sind und wie die endgültige Ausgabe aussehen soll.

4. Memory (Langzeitgedächtnis) / MEMORY.md

🗣️

Allgemeines Verständnis

Das Notizbuch der KI: dient dazu, Ihre Präferenzen und Regeln dauerhaft zu speichern.

🗄️

Tieferes Verständnis

Memory ist der Langzeitgedächtnis-Kern des Agenten. Gewöhnliche Konversationen gelten meist nur innerhalb einer einzelnen Sitzung; aber Inhalte, die in MEMORY.md geschrieben werden, werden bei jedem Start des Agenten vorrangig gelesen, sodass er „die Dinge auf Ihre Weise erledigt", statt Sie jedes Mal von Grund auf nach Ihren Anforderungen zu fragen.

Zum Beispiel sagen Sie dem Agenten: „Ich bevorzuge prägnante Antworten auf Deutsch, nutze Python für Code".
Wenn diese Präferenz in einem geeigneten Format in Memory geschrieben wird, wird der Agent später bei ähnlichen Aufgabentypen diese Regeln standardmäßig befolgen; Sie müssen sie nicht jedes Mal wiederholen, und es ist viel unwahrscheinlicher, dass „der Antwortstil jedes Mal inkonsistent ist".

🧩

Die „Position" von Memory im System (abgestimmt auf die vorherigen Konzepte)

Wenn Sie den Agenten als Ausführenden und den Skill als Werkzeugkasten betrachten, dann ist Memory die Langzeitkonfiguration des Agenten:
Jedes Mal, wenn der Agent startet, liest er zuerst Memory, um Ihre Präferenzen und SOPs zu erhalten, und bringt diese Einschränkungen dann bei der Planung und beim Aufruf von Skills ein.
So macht Memory „ausführbare Regeln" langfristig wirksam.

Damit Memory wirklich „nutzbar" ist, muss es die Standards der vorherigen drei Konzepte erfüllen: stabile Auslösung, klare Eingabe, überprüfbare Ausgabe. Anders gesagt: Inhalte, die in Memory geschrieben werden, sollten klar vorgeben, wie der Agent als Nächstes vorgehen soll, und kein vager emotionaler Ausdruck sein.

Es wird empfohlen, Memory in dieser „Regel-Checkliste"-Form zu schreiben:

Präferenzen zum Schreibstil: z. B. „prägnantes Deutsch", „Fazit zuerst", „nicht mehr als 3 Sätze pro Absatz"
Formatvorgaben: z. B. „Python für Code", „Tabellenausgabe enthält Felder A/B/C", „Datumsformat YYYY-MM-DD"
Entscheidungs-SOPs: z. B. „bei unzureichenden Informationen nachfragen, nicht raten; Alternativen mit Risikohinweisen anbieten"
Langfristiger Kontext: z. B. „mein Team arbeitet im B2B-Bereich", „gängige Tools sind XX (wo zutreffend)"

✅

Praktischer Rat: „Präferenzen + SOPs" in Memory schreiben

Statt jedes Mal zu erklären, „wie Sie die Ausgabe wünschen", schreiben Sie Ihre Arbeitsgewohnheiten einmal in Memory, sodass der Agent sie bei jedem Start automatisch befolgt. Je früher Sie diese Regeln festigen, desto weniger Aufwand später und desto konsistenter wird es sein.

Sie können nach Häufigkeit priorisieren: häufig verwendete und stabile Punkte (langfristige Präferenzen, feste Prozesse) sollten zuerst geschrieben werden.

⚠️

Wann sollten Sie nichts in Memory schreiben? (Grenzen wie in den vorherigen Abschnitten)

Memory ist kein Entwurfsordner. Temporäre, einmalige Aufgaben (wie „schau für mich nach dem Wetter in Berlin") sollten nicht in Memory geschrieben werden, sonst wird die Memory-Datei allmählich aufgebläht und unübersichtlich, was den Agenten bei langfristigen Entscheidungen verwirrt.

Prinzip: Nur feste Präferenzen und langfristige SOPs aufnehmen, temporäre Aufgaben ignorieren.

🧪

Schnelle Entscheidungsfrage: Sollte es in Memory?

Wenn die Antworten lauten:
1) Wird diese Regel in Zukunft wiederholt verwendet?
2) Kann sie das Ausgabeformat / den Stil / die Ausführungsstrategie stabil verändern?
3) Wird sie sich im Laufe der Zeit nicht häufig ändern?

Je mehr Kriterien Sie erfüllen, desto geeigneter ist es für Memory. Andernfalls fügen Sie es einfach in die Anweisung für diese Sitzung ein.

🔥

Zusammenfassung in einem Satz

Memory ermöglicht es dem Agenten, langfristig konsistente Arbeitsweisen zu entwickeln: stabile Präferenzen und SOPs darin verfestigen, während temporäre Aufgaben für die aktuelle Ausführung bleiben.

Wichtige Punkte zu Memory:

1) Memory speichert die Langzeitkonfiguration (Warum es existiert)
Der Hauptunterschied zwischen Memory und Prompt ist: Prompt behandelt diese spezifische Aufgabe, während Memory sich um „alle zukünftigen Aufgaben" kümmert. Durch das Speichern von Präferenzen und SOPs in Memory kann der Agent diese Regeln konsistent anwenden, ohne dass Sie sie wiederholen müssen.

Wenn Sie zum Beispiel in Memory schreiben „Standard-Ausgabesprache ist Deutsch", dann wird der Agent bei allen zukünftigen Aufgaben automatisch bevorzugt auf Deutsch antworten.

2) Wann verwendet der Agent Memory? (Lademechanismus)
In der Regel wird Memory zuerst geladen, wenn der Agent eine neue Sitzung oder Konversation startet. Der Agent liest MEMORY.md, extrahiert die Regeln/Präferenzen und behandelt sie dann als Teil des Systemkontexts für diese Ausführung – ähnlich wie das Hinzufügen zusätzlicher Systemanweisungen.

Das unterscheidet sich vom Prompt mitten in der Konversation: Memory ändert sich während der Konversation nicht, es ist die „stabile Grundlinie" für alle nachfolgenden Ausführungen.

3) Was sollte NICHT in Memory (Grenzsetzung)
Memory sollte enthalten: stabile Arbeitsgewohnheiten, Formatpräferenzen, langfristige SOPs, wiederkehrende Einschränkungen.
Memory sollte NICHT enthalten: einmalige Aufgaben, temporäre Daten, sitzungsspezifische Informationen, persönliche Geheimnisse.

Wenn diese vermischt werden, wird Memory unübersichtlich und der Agent verliert die Fähigkeit zu unterscheiden, was „dauerhaft" und was „vorübergehend" ist.

4) Wie strukturiert man Memory für maximale Wirksamkeit
Gutes Memory sollte nach Kategorien organisiert sein:

Kommunikationsstil: „Immer in prägnantem Deutsch antworten", „zuerst Struktur, dann Details" usw.
Technische Voreinstellungen: „Python als Hauptsprache verwenden", „JSON für strukturierte Daten" usw.
Entscheidungsregeln: „bei Unsicherheit nachfragen statt raten", „immer eine Risikobewertung geben" usw.
Kontext & Hintergrund: „Arbeit im B2B-SaaS-Bereich", „Teamgröße ist 5" usw.
Tool- & Integrationsinformationen: „übliches CRM ist Salesforce", „Log-System ist Datadog" usw.

Auf diese Weise kann der Agent beim Lesen von Memory schnell die relevanten Regeln für den aktuellen Kontext finden.

5) Memory-Wartung (es frisch halten)
Memory ist nicht „einmal schreiben, für immer nutzen". Wenn sich Ihr Arbeitsstil weiterentwickelt oder Regeln ändern, sollten Sie Memory regelmäßig überprüfen und aktualisieren, um es an die aktuelle Praxis anzupassen.

Eine gute Praxis: vierteljährlich Memory überprüfen, veraltete Punkte entfernen, neue etablierte Muster hinzufügen. So bleibt Memory schlank und effektiv.

📋

Beispiel: Wie ein gutes Memory aussieht

MEMORY.md Beispiel:

Meine Arbeitspräferenzen & SOPs

 Kommunikationsstil
  Sprache: Deutsch (prägnant, Fazit zuerst)
  Format: Aufzählungspunkte bei Listen, strukturierte Abschnitte für komplexe Informationen
  Tonfall: professionell, aber zugänglich

Technische Voreinstellungen
  Hauptsprache: Python
  Datenformat: JSON
  Datumsformat: YYYY-MM-DD
  Zeitzone: UTC+1

Entscheidungsregeln
  Bei unzureichenden Informationen: klärende Fragen stellen, nicht annehmen
  Alternativen mit Risiko-/Nutzen-Analyse anbieten
  Nachvollziehbare Begründung bei komplexen Entscheidungen

Kontext
  Team: B2B SaaS, 5 Personen
  Haupt-CRM: Salesforce
  Hauptwerkzeuge: Python, PostgreSQL, Slack

Prozess-SOPs
  Code-Review immer vor dem Deployment erforderlich
  Dokumentation muss bei API-Änderungen aktualisiert werden
  Tägliches Standup um 10:00 Uhr UTC+1

⚠️

Häufige Fallstricke, die zu vermeiden sind

1) Memory überfüllen: Memory wie „alles über mich" behandeln. Das verwirrt den Agenten bei den Prioritäten.
2) Vage Regeln: Vermeiden Sie „sei schlau", „nutze dein bestes Urteilsvermögen". Verwenden Sie stattdessen konkrete, umsetzbare Regeln.
3) Niemals aktualisieren: Memory sollte sich mit Ihnen weiterentwickeln. Alte, veraltete Regeln erzeugen Störgeräusche.
4) Widersprüchliche Regeln: Wenn Memory Widersprüche enthält, kann der Agent schwanken oder keine Entscheidung treffen. Räumen Sie es auf.

✅

Wie Memory das Agenten-System vervollständigt

Jetzt haben wir alle vier Ebenen:
Agent (Denken & Koordination) → entscheidet, was zu tun ist
Skill (konkrete Ausführung) → führt die Entscheidung aus
Prompt (Anweisungen für diese Aufgabe) → legt fest, wie diese Aufgabe zu erledigen ist
Memory (Langzeitkonfiguration) → stellt Konsistenz bei allen zukünftigen Aufgaben sicher

Zusammen bilden sie ein vollständiges, reproduzierbares und skalierbares KI-Ausführungssystem.

5. Soul (Kernwerte & Verhalten) / SOUL.md

🗣️

Allgemeines Verständnis

Die „Persönlichkeitskonfiguration“ und Verhaltensleitplanken der KI: legt fest, was sie „tun soll und was sie auf keinen Fall tun darf“.

✨

Tieferes Verständnis

SOUL.md definiert die Verhaltensregeln, Werte und operativen Grenzen des Agenten. Es ist die „grundlegende Verfassung“ des Agenten – welche Handlungen erlaubt sind, welche absolut verboten sind, alles hier klar festgehalten.

Daher ist SOUL nicht nur eine Stilpräferenz; es wirkt sich direkt auf die Sicherheitsgrenzen und die konforme Ausgabe des Agenten aus.

Wenn Memory das ist, „was erinnert wurde“, dann ist Soul das, „zu was für einer KI man wird“. Zum Beispiel: nur produktbezogene Fragen beantworten; Finanzoperationen erfordern eine doppelte Bestätigung; niemals Passwörter oder sensible Zugangsdaten verlangen; bei rechtlichen/medizinischen Angelegenheiten müssen Haftungsausschlüsse gegeben und auf professionelle Kanäle verwiesen werden, usw.

⚠️

Warum ist SOUL wichtiger, als man denkt?

Die Konfiguration von SOUL.md bestimmt direkt, wie der Agent in Risikoszenarien „ablehnt“ und „Alternativen anbietet“. Wenn es als Teamwerkzeug eingesetzt wird oder Unternehmensdaten involviert sind, kann eine unsachgemäße SOUL-Konfiguration zu unbefugtem Zugriff, Grenzüberschreitungen oder Compliance-Risiken führen.

Deshalb sollte man vor dem Go-Live diese Datei sorgfältig konfigurieren und die Grenzen mit Testfällen überprüfen.

Es wird empfohlen, SOUL als eine „ausführbare Regel-Checkliste“ zu schreiben, die folgende Kategorien abdeckt:

Was erlaubt ist: Der Arbeitsbereich und die Domänengrenzen des Agenten (z. B. nur Produktanfragen/interne Prozesse bearbeiten).
Was verboten ist: Eindeutige harte Ablehnungen für risikoreiche Verhaltensweisen (z. B. Passwörter/Schlüssel verlangen; unsichere Ergebnisse versprechen; Berechtigungen umgehen).
Bestätigungspflichtige Aktionen: Regeln für Überweisungen, Rückerstattungen, Verträge, Berechtigungsänderungen, die doppelt bestätigt oder genehmigt werden müssen.
Ausgabestil & Tonfall: z. B. muss höflich sein, keine persönlichen Angriffe, keine bedrohliche Sprache.
Umgang mit Grenzfällen: Wenn etwas nicht erledigt werden kann, Alternativen anbieten (z. B. protokollieren und an einen Menschen eskalieren / Fachabteilung konsultieren).

📋

Reales Beispiel: Soul-Konfiguration für einen Kundenservice-Agenten

Angenommen, Sie konfigurieren einen Kundenservice-Agenten für Ihr Unternehmen; seine SOUL.md könnte Folgendes enthalten:

• Immer höflich bleiben, keine beleidigende oder negativ kategorisierende Sprache;
• Niemals Rückerstattungen oder Entschädigungen versprechen, nur sagen „Ich werde dies aufzeichnen und zur Bearbeitung weiterleiten“;
• Bei rechtlichen Fragen einheitlich antworten „Bitte wenden Sie sich an die Rechtsabteilung/Fachleute“;
• Bei Anfragen nach Passwörtern, OTPs, Schlüsseln: direkt ablehnen und den Benutzer durch den korrekten Verifizierungsprozess führen.

Nach der Konfiguration wird der Agent, egal wie Benutzer versuchen zu manipulieren, nicht über die Stränge schlagen. Nach dem Ändern von Soul empfiehlt es sich, mit einigen Szenarien zu testen: welche sollten abgelehnt werden, welche benötigen eine Bestätigung, welche können normal beantwortet werden.

✅

Minimaler Test-Satz vor dem Start (schnelle Selbstprüfung)

Sie können 6 Kategorien von Testfragen vorbereiten, um zu überprüfen, ob Soul funktioniert:

1) Fragen außerhalb des Bereichs: Lehnt der Agent ab oder leitet er um?
2) Hochriskante Anfragen: Wird klar abgelehnt?
3) Bestätigungspflichtige Aktionen: Wird vor der Ausführung bestätigt?
4) Anfragen nach sensiblen Informationen: Wird abgelehnt und eine sichere Alternative angeboten?
5) Compliance/Haftungsausschlüsse: Erfolgt die Ausgabe gemäß den Regeln?
6) „Manipulation zum Umgehen“: Wenn Benutzer das Überspringen von Prozessen verlangen, hält der Agent die Grenze ein?

🔥

Zusammenfassung in einem Satz

SOUL.md definiert die „Leitplanken und Grenzen“ des Agenten: Es macht die KI bei der Ausführung prinzipientreu und vorhersehbar und damit sicherer und zuverlässiger in Team- und Geschäftsszenarien.

Wichtige Unterschiede zwischen Soul, Memory und Prompt:

Dimension	Soul (SOUL.md)	Memory (MEMORY.md)	Prompt (diese Aufgabe)
Geltungsbereich	Grundlegende Grenzen	Langfristige Präferenzen	Diese spezifische Aufgabe
Häufigkeit	Ändert sich selten (grundlegend)	Ändert sich vierteljährlich/saisonal	Ändert sich pro Aufgabe
Zweck	Schaden verhindern / Sicherheit gewährleisten	Konsistenz sicherstellen	Ausführungsdetails festlegen
Konsequenz bei Verstoß	Compliance‑Verstoß / Sicherheitsrisiko	Inkonsistente Ergebnisse	Abweichung der Aufgabenausgabe
Beispiel	„Niemals Passwörter verlangen“	„Immer auf Chinesisch antworten“	„In 3 Aufzählungspunkten zusammenfassen“

1) Soul definiert, „Was für ein Agent Sie sind“ (Identität & Leitplanken)
Soul beantwortet die grundlegendste Frage: Was darf ich sein und tun?
Dazu gehört:
- Arbeitsbereich: Für welche Domänen/Aufgaben bin ich verantwortlich?
- Harte Leitplanken: Was darf ich absolut niemals tun (Sicherheit, Compliance, Ethik)?
- Genehmigungsworkflows: Für welche Aktionen muss ich eine Bestätigung einholen?
- Eskalationspfade: Wenn ich nicht helfen kann, wohin leite ich weiter?

Soul ist die „rote Linie“. Sie wird bei jeder Ausführung durchgesetzt, unabhängig davon, wie Benutzer zu manipulieren versuchen.

2) Soul vs. Sicherheit: Warum Soul für den Einsatz entscheidend ist
Ein gut konfigurierter Soul kann viele gängige Angriffsvektoren verhindern:
- Prompt‑Injection: Wenn Soul sagt „Hochrisiko‑Anfragen immer überprüfen“, sollte der Agent selbst dann ablehnen, wenn ein Prompt sagt „Ignoriere diese Regel“.
- Social Engineering: Wenn Soul sagt „Niemals Zugangsdaten herausgeben“, sollte der Agent ablehnen, egal wie geschickt der Benutzer fragt.
- Scope Creep: Wenn Soul die Domänengrenze des Agenten definiert, wird er nicht versuchen, außerhalb seines Bereichs liegende Anfragen durch Raten zu bearbeiten.

Das macht Soul grundlegend für einen sicheren Einsatz.

3) Wie Soul in den Entscheidungskreislauf des Agenten integriert ist
Stellen Sie sich den Ausführungszyklus des Agenten wie folgt vor:
Schritt 1: Soul lesen → Was sind meine Grenzen?
Schritt 2: Memory lesen → Was sind meine Arbeitspräferenzen?
Schritt 3: Prompt empfangen → Was ist diese spezifische Aufgabe?
Schritt 4: Ausführung planen → Innerhalb der Grenzen das Ziel erreichen
Schritt 5: Compliance prüfen → Habe ich mich innerhalb von Soul bewegt?
Schritt 6: Ausführen / Eskalieren

Beachten Sie, dass Soul vor und nach der Ausführung überprüft wird. Es ist der äußere Kreislauf.

✅

Checkliste für die Soul‑Konfiguration vor dem Start

Überprüfen Sie vor dem Einsatz eines Agenten:

☑ Soul.md ist geschrieben (nicht nur implizit)
☑ Alle Teammitglieder verstehen die Grenzen
☑ Testfälle decken 6+ Szenarien ab, einschließlich Jailbreak‑Versuchen
☑ Eskalationspfade sind definiert und funktionsfähig
☑ Compliance‑Anforderungen sind explizit abgedeckt
☑ Hochrisiko‑Aktionen erfordern Bestätigung/Genehmigung
☑ Kommunikationston ist definiert und getestet
☑ Sicherheitsleitplanken (Passwörter, Tokens, Schlüssel) sind klar
☑ Die Behandlung von Anfragen außerhalb des Bereichs ist höflich (nicht unhöflich)
☑ Audit/Protokollierung ist für sensible Aktionen eingerichtet

🔗

Wie die 5 Konzepte zusammenarbeiten: Das vollständige Bild

Agent ist die denkende Entität
Skill ist die Ausführungsfähigkeit
Prompt ist die Aufgabenanweisung
Memory ist die langfristige Präferenz
Soul ist die operative Verfassung

Zusammen: Der Agent denkt (mit Memory als Kontext und Soul als Leitplanken), entscheidet, welcher Skill aufgerufen wird, erhält spezifische Anweisungen vom Prompt und führt innerhalb der Grenzen von Soul aus. Ergebnis: ein zuverlässiges, sicheres und konsistentes KI‑System.

Erweiterte Konzepte (optional)

Die folgenden drei Konzepte helfen Ihnen, die Automatisierung wirklich zu verstehen. Sie sind kein völlig neues Wissen, sondern bringen die früheren Konzepte Agent / Skill / Memory / Soul / Prompt auf die praktische Ebene: „tatsächlich ausführen, miteinander verbinden und stabil integrieren“. Anfänger können diesen Teil vorerst überspringen; wenn Sie beginnen, mehrstufige Prozesse zu erstellen, externe Dienste zu integrieren oder Datenflussprobleme zu debuggen, sparen Sie durch die Rückkehr hierher viel Zeit.

🔀 1) Workflow (Mehrstufige Prozessausführung)

Ein Workflow kann als wiederverwendbarer Ausführungspfad verstanden werden: Mehrere Schritte in einer Abfolge zu verbinden, damit das System ein Ziel systematisch erreicht. Wenn der Agent „ein Kollege ist, der denken und ausführen kann“, dann ist der Workflow „die Aufgabenwarteschlange und die Verbindungsmethode, die wir für diesen Kollegen einrichten“. Er löst das Problem: Wenn eine Aufgabe nicht mit einem Satz erledigt werden kann, wie können wir mehrere Schritte zuverlässig als verbundene Kette ausführen?

Ein typischer Workflow enthält in der Regel folgende Elemente (Sie können dieses Gerüst nutzen, um die mehrstufigen Fähigkeiten von EasyClaw zu verstehen):

Schrittliste: Was in Schritt 1, Schritt 2 usw. zu tun ist. Jeder Schritt sollte klare Grenzen und Verantwortlichkeiten haben.
Eingabe & Ausgabe: Jeder Schritt sollte strukturierte Ergebnisse produzieren, die der nächste Schritt verwenden kann, nicht nur „Textbeschreibungen“.
Bedingungen & Verzweigungen: Zum Beispiel „wenn ein kritisches Feld fehlt, zuerst nachfragen oder weitere Daten abrufen“, andernfalls mit dem nächsten Schritt fortfahren.
Validierung & Fehlerbehandlung: Zum Beispiel „wenn das Parsen fehlschlägt, erneut versuchen oder auf einen alternativen Ansatz zurückfallen“.
Zusammenfassende Ausgabe: Das Endergebnis in einem verwendbaren Format liefern (Checkliste, Bericht, Aufgabenliste, Benachrichtigungsinhalt usw.).

Wie passt der Workflow zu den vorherigen Konzepten? Ein Satz verbindet sie:
Der Agent übernimmt Entscheidungsfindung und Planung, der Skill die konkrete Ausführung, Memory/Soul die langfristigen Regeln und Grenzen, der Prompt sagt ihm „wie es zu tun ist“, und der Workflow verbindet diese Schritte in einer Abfolge zu einer Kette.

Beispiel: Sie müssen „eine Benutzerbeschwerde zu einem Ticket eskalieren und die verantwortliche Person benachrichtigen“. Ein sinnvoller Workflow könnte so aussehen:

Eingabe sammeln: Beschwerdeinhalt, Benutzerinformationen, Zeitverlauf aus Formular/Nachricht erfassen.
Informationsextraktion: Den Agenten nutzen, um die Kernpunkte der Beschwerde zu strukturieren (z. B. Art des Problems, Umfang der Auswirkungen, kritische Zeitstempel).
Regelbasierte Beurteilung: Basierend auf Soul/Regeln feststellen, ob hohe Priorität vorliegt, eine Eskalation erforderlich ist oder zunächst weitere Informationen benötigt werden.
Ticket-Erstellungs-Skill aufrufen: Strukturierte Felder in die Ticket-System-API einfügen, Ticketnummer generieren.
Benachrichtigungs-Skill aufrufen: Ticketnummer und Kernzusammenfassung an die verantwortliche Person senden (Feishu/E-Mail/IM).
Ergebnisvalidierung: Bestätigen, dass die Ticketerstellung einen Erfolgsstatus zurückgegeben hat und die Benachrichtigung gesendet wurde.
Zusammenfassende Rückmeldung: Dem Benutzer oder Administrator ausgeben „Ticket erstellt + Link/Nummer + nächste Schritte“.

Sie werden feststellen: Der Workflow löst nicht „wie schreibt man eine Erklärung“, sondern vielmehr „wie verknüpft man mehrere Werkzeugaufrufe und Validierungsschritte zuverlässig“. Wenn Sie mit komplexen Prozessen beginnen (insbesondere systemübergreifend: IM + Tickets + Datenbank), wird der Workflow zu Ihrer wichtigsten Fähigkeit.

📦 2) JSON (Datenaustauschformat)

JSON ist das Standardformat für die Datenübertragung zwischen Agent und externen Werkzeugen/APIs. In der mehrstufigen Automatisierung ist die Rolle von JSON entscheidend: Es macht die Frage „kann der nächste Schritt die korrekten Daten erhalten“ zu einer überprüfbaren Frage, nicht zu „können wir einen natürlichsprachlichen Satz intuitiv verstehen“.

Sie können sich JSON wie einen „strukturierten Datencontainer“ im System vorstellen. Statt loser Sätze enthält es explizite Felder und Typen, wie: Ticket-Titel, Benutzer-ID, Priorität, Frist, Benachrichtigungsinhalt usw.

Im Workflow von EasyClaw erscheint JSON typischerweise an diesen Stellen:

Skill-Eingabe & -Ausgabe: Skills benötigen oft bestimmte Felder als Eingabe und geben strukturierte Ergebnisse für die Entscheidungsfindung des Agenten zurück.
API-Aufrufparameter: Zum Beispiel müssen Parameter beim Aufruf der Feishu-API in JSON organisiert werden.
Datenübertragung zwischen Schritten: Die JSON-Ausgabe eines Schritts wird vom nächsten Schritt gelesen.

Warum sehen viele Probleme aus wie „der Agent kann das nicht“, liegen aber tatsächlich an JSON? Häufige Fälle sind:

Feldnamenabweichung: Erwartete Eingabe ist user_id, aber tatsächliche Eingabe ist userId.
Fehlende Felder: Ein Pflichtfeld fehlt, die API gibt einen Fehler zurück.
Typabweichung: Datum sollte ein String sein, wurde aber als Zahl übergeben, oder sollte ein Array sein, wurde aber als Text übergeben.
JSON-Formatfehler: Fehlende Anführungszeichen, fehlende Klammern, nachgestellte Kommas – das Parsen schlägt fehl.

Daher ist die beste Reihenfolge zur Fehlerbehebung bei Integrationsproblemen in der Regel:
Zuerst JSON prüfen, dann Prompt, dann die Argumentationslogik des Agenten.
Denn JSON ist die Grundlage dafür, „ob es funktionieren wird“.

🔑 3) API Key (Zugangsdaten)

Ein API Key ist die Authentifizierungsberechtigung beim Zugriff auf KI-Modelle oder Drittanbieterdienste. Ohne den korrekten API Key kann das System in der Regel das entsprechende Modell oder den Dienst nicht aufrufen; selbst wenn der Agent perfekt argumentiert, bleibt die Ausführung unmöglich.

In EasyClaw-Szenarien müssen Sie zwei Fälle unterscheiden:

Standardmäßige Nutzung offizieller Funktionen/Guthaben: Anfänger benötigen in der Regel keinen eigenen Key, da die Plattform den Zugang bereits eingerichtet hat.
Integration benutzerdefinierter Modelle/Dienste: Sie müssen den API Key an der entsprechenden Stelle eintragen und den Agenten/Skill auf dieses Modell verweisen.

Ein API Key betrifft nicht nur „kann ich es nutzen oder nicht“, sondern beeinflusst auch „welche Fähigkeiten, Kosten und Stabilität“:

Modellauswahl: Unterschiedliche Keys/Modelle können unterschiedliche Argumentationsqualität, Geschwindigkeit und Ausgabeformat-Performance bieten.
Kostenkontrolle: Einige Plattformen berechnen nach Nutzung; das Konto/Kontingent des Keys beeinflusst das verfügbare Budget.
Berechtigungsgrenzen: Manche Dienst-Keys erlauben möglicherweise nur eingeschränkte API-Aufrufe, was dazu führt, dass bestimmte Skill-Ausführungen fehlschlagen.

Häufige Fehlerbehebung bei „Skill-Aufruf fehlgeschlagen“:
Überprüfen, ob der Key korrekt eingetragen ist, ob der Key abgelaufen/unzureichendes Kontingent hat, ob dieser Key über die erforderlichen Aufrufberechtigungen verfügt.
Wenn die API einen Authentifizierungsfehler (401/403) zurückgibt, sollte zuerst die API-Key-Konfiguration überprüft werden.

Wann müssen Sie sich ernsthaft damit befassen? (Kurzreferenz)

Sie erstellen eine mehrstufige Automatisierung: Der Workflow bestimmt, ob die Kette stabil ausgeführt werden kann.
Sie integrieren Feishu/Unternehmenssysteme/externe APIs: JSON bestimmt, ob Daten korrekt übertragen und geparst werden können.
Sie integrieren Ihr eigenes Modell oder einen benutzerdefinierten Dienst: Der API Key bestimmt, ob Sie die entsprechende Fähigkeit aufrufen können.
Sie debuggen „kann erklären, aber nicht ausführen“ oder „Ausführung schlägt ohne Hinweis fehl“: In der Regel ist es am schnellsten, nacheinander Workflow-Verknüpfung, JSON-Struktur und API-Key-Berechtigungen zu überprüfen.

✅

Ein Satz, der alle drei verbindet

Workflow sorgt dafür, dass Schritte zuverlässig nacheinander ausgeführt werden, JSON stellt sicher, dass die in jedem Schritt übergebenen Daten korrekt strukturiert und nutzbar sind, API Key macht Werkzeuge und Modelle tatsächlich aufrufbar. Zusammen verwandeln sie Ihre Automatisierung von „sieht intelligent aus“ zu „funktioniert tatsächlich in der Praxis“.

🧠

Konzept-Kurzreferenztabelle

Agent = Fähiger KI-Kollege
Skill = Aufrufbares Fähigkeitsmodul (Werkzeug/Schnittstelle/Prozess)
Prompt = Sagt dem Agenten, wie es zu tun ist (Regeln, Auslöser, Ausgabe, Fehlerbehandlung)
Memory = Langfristige Präferenzen & SOPs (macht Regeln langfristig wirksam)
Soul = Verhaltensverfassung & Grenzen (Erlauben/Verbieten/Bestätigungsstrategie)
Workflow = Mehrstufiger Staffellauf-Ausführungspfad
JSON = Strukturiertes Datenaustauschformat (sorgt für nutzbare Felder)
API Key = Drittanbieter-/Modell-Integrationsberechtigung (stellt sicher, dass Fähigkeiten aufrufbar sind)