PDF

Vorwort

Willkommen in der Fortgeschrittenen-Liga.

Drei Bände liegen hinter dir. Du weißt, was KI ist, wie LLMs funktionieren, was die 5 Bausteine eines guten Prompts sind. Du kennst Frameworks wie CRAFT, RTF und RISEN. Du kannst Prompt-Ketten bauen, Delimiter setzen, Temperatur einstellen und System-Prompts schreiben. Du debuggst Prompts systematisch statt alles wegzuwerfen und neu anzufangen.

Kurz: Du bist gut.

Aber “gut” reicht nicht für das, was jetzt kommt.

Warum dieses Buch anders ist

In den ersten drei Bänden hast du gelernt, WAS du dem Modell sagen sollst. Welche Bausteine, welche Frameworks, welche Techniken. Du hast dem Modell Anweisungen gegeben und es hat geliefert.

Band 4 dreht das um. Hier lernst du nicht, was du sagst – sondern wie das Modell denken soll.

Das ist ein fundamentaler Unterschied. Stell dir vor, du arbeitest mit einem sehr klugen Praktikanten. In den ersten drei Bänden hast du gelernt, ihm klare Aufgaben zu geben. “Schreib mir das. Analysiere jenes. Formatiere es so.” Der Praktikant hat geliefert, weil deine Anweisungen gut waren.

Aber jetzt stehst du vor Problemen, die eine einfache Anweisung nicht löst. Logikrätsel. Mehrstufige Analysen. Entscheidungen mit unvollständigen Informationen. Komplexe Schlussfolgerungen.

Für diese Probleme reicht “Mach das” nicht. Du musst dem Praktikanten sagen: “Denk so darüber nach.”

Und genau das tun Reasoning-Techniken.

Was dich erwartet

Chain-of-Thought – Die Mutter aller Reasoning-Techniken. Du bringst das Modell dazu, Schritt für Schritt zu denken statt direkt zur Antwort zu springen. Bei komplexen Aufgaben verbessert das die Ergebnisse um 20-60%.

Zero-Shot Chain-of-Thought – CoT ohne Beispiele. Manchmal reichen fünf magische Wörter: “Denke Schritt für Schritt nach.” Wann das funktioniert und wann nicht.

Tree-of-Thought – Statt einem Denkpfad erkundest du mehrere gleichzeitig. Das Modell bewertet verschiedene Ansätze und wählt den besten. Wie ein Schachspieler, der mehrere Züge vorausdenkt.

Self-Consistency – Du lässt das Modell dasselbe Problem mehrfach lösen und nimmst die häufigste Antwort. Wie eine Jury-Abstimmung – die Mehrheit hat meistens recht.

ReAct – Reasoning + Acting. Das Modell denkt, handelt, beobachtet und plant den nächsten Schritt. Die Grundlage für alles, was heute als “KI-Agent” gehypt wird.

Meta-Prompting – Prompts, die Prompts verbessern. Du lässt das Modell seinen eigenen Prompt analysieren und optimieren. Klingt nach Inception – ist es auch.

Reflexion und Selbstkorrektur – Das Modell überprüft seine eigene Arbeit und korrigiert Fehler. Wie ein Autor, der seinen Text Korrektur liest – nur automatisiert.

Techniken kombinieren – Das mächtigste Kapitel. Du lernst, wie du CoT, ToT, Self-Consistency und ReAct zu komplexen Reasoning-Pipelines verbindest.

Für wen ist dieser Band?

Für dich, wenn du Band 1-3 gelesen hast. Oder wenn du schon Erfahrung mit Prompts hast und merkst: Bei einfachen Aufgaben sind meine Ergebnisse super, aber bei komplexen Problemen liefert die KI Unsinn.

Du brauchst die Grundlagen aus den vorherigen Bänden. Besonders Prompt-Chaining (Band 3, Kapitel 1), System-Prompts (Band 3, Kapitel 5) und Prompt-Debugging (Band 3, Kapitel 7) werden hier vorausgesetzt.

Mein eigener Weg zu Reasoning

Ich erinnere mich noch genau an den Moment, als mir klar wurde, dass Reasoning-Techniken existieren. Ich hatte einen langen Prompt geschrieben, in dem ich Claude gebeten habe, eine Geschäftsstrategie zu analysieren. Der Output war – naja, oberflächlich. Bullet Points, die wie aus einem Lehrbuch kopiert klangen. Keine echte Analyse, keine Abwägung, kein “Einerseits … andererseits.”

Dann habe ich fünf Wörter hinzugefügt: “Denke Schritt für Schritt nach.”

Das Ergebnis war ein komplett anderer Text. Plötzlich hat das Modell Annahmen hinterfragt. Risiken abgewogen. Gegenargumente gefunden, die mir selbst nicht eingefallen wären. Es war, als hätte ich einen Schalter umgelegt – vom Textgenerator zum Denkpartner.

Seitdem habe ich Hunderte von Stunden damit verbracht, verschiedene Reasoning-Techniken zu testen, zu vergleichen und zu kombinieren. Dieses Buch ist das Ergebnis.

Wie du dieses Buch am besten nutzt

Lies die Kapitel der Reihe nach. Jedes baut auf dem vorherigen auf. Chain-of-Thought (Kapitel 2) ist die Grundlage für alles Weitere. Tree-of-Thought (Kapitel 4) setzt voraus, dass du CoT verstanden hast. Und das Kombinationskapitel (Kapitel 9) braucht alles.

Die Übungen sind diesmal anspruchsvoller als in den vorherigen Bänden. Das ist Absicht. Du bist kein Anfänger mehr, und die Übungen spiegeln das wider. Nimm dir Zeit dafür. Manche wirst du mehrfach versuchen müssen.

Und: Führe dein Prompt-Protokoll weiter. Notiere, welche Reasoning-Technik du bei welcher Aufgabe eingesetzt hast und was das Ergebnis war. Nach diesem Band wirst du Muster erkennen, die dir sagen, welche Technik wann am besten funktioniert.

Los geht’s. Wir bringen die KI zum Denken.

Belkis Aslani, März 2026

Kapitel 1: Was ist Reasoning eigentlich?

Bevor wir in die Techniken einsteigen, müssen wir klären, was “Reasoning” bei KI überhaupt bedeutet. Denn der Begriff wird inflationär benutzt und meistens falsch verstanden.

Denkt eine KI wirklich?

Kurze Antwort: Nein. Nicht so wie du und ich.

Lange Antwort: Es kommt darauf an, was du mit “Denken” meinst.

Ein LLM wie GPT-4, Claude oder Gemini ist – das weißt du aus Band 1 – ein statistisches Sprachmodell. Es berechnet für jedes Token die Wahrscheinlichkeit, dass es als Nächstes kommt. Das ist kein Denken im menschlichen Sinne. Es gibt kein Bewusstsein, keine Intention, kein Verstehen.

Aber – und das ist der spannende Teil – wenn du das Modell dazu bringst, seine Antwort Schritt für Schritt aufzubauen, passiert etwas Interessantes. Die Zwischenschritte erzeugen Kontext, der die nachfolgenden Schritte beeinflusst. Das Modell “denkt” nicht wirklich, aber es simuliert einen Denkprozess, der zu besseren Ergebnissen führt.

Stell dir das so vor: Wenn du jemanden fragst “Was ist 347 × 28?”, gibt es zwei Wege:

Weg 1 – Direkte Antwort: “9716.” (Vielleicht richtig, vielleicht nicht. Die meisten Menschen würden raten.)

Weg 2 – Schritt für Schritt: “347 × 28 … das ist 347 × 30 minus 347 × 2 … 347 × 30 = 10.410 … 347 × 2 = 694 … 10.410 - 694 = 9.716.”

Dieselbe Person, dieselbe Frage – aber Weg 2 ist zuverlässiger, weil die Zwischenschritte als Kontrolle dienen. Genau so funktioniert Reasoning bei LLMs.

Reasoning vs. Prompting – der Unterschied

In den ersten drei Bänden hast du Prompting gelernt. Du gibst dem Modell eine Aufgabe und optimierst, wie du sie formulierst.

Reasoning geht einen Schritt weiter. Du optimierst nicht nur die Aufgabe, sondern den Denkprozess, den das Modell durchläuft, um zur Antwort zu kommen.

Prompting (Band 1-3) Reasoning (Band 4)
WAS soll das Modell tun? WIE soll es denken?
Fokus auf Input Fokus auf Prozess
Ergebnis direkt Ergebnis über Zwischenschritte
Gut für einfache Aufgaben Nötig für komplexe Aufgaben
“Schreib mir eine E-Mail” “Analysiere das Problem Schritt für Schritt, wäge Optionen ab und empfiehl die beste Lösung”

Das heißt nicht, dass Prompting überflüssig wird. Reasoning-Techniken bauen auf gutem Prompting auf. Du brauchst weiterhin klare Aufgaben, guten Kontext, passende Rollen und saubere Struktur. Reasoning kommt obendrauf.

Warum LLMs ohne Reasoning scheitern

Lass mich dir zeigen, wo Standard-Prompting an seine Grenzen stößt.

Beispiel 1: Logisches Schlussfolgern

Prompt:
Alle Katzen haben Fell. Max hat Fell. Ist Max eine Katze?

Typische Antwort ohne Reasoning:
Ja, Max ist wahrscheinlich eine Katze.

Falsch. Dass alle Katzen Fell haben, heißt nicht, dass alles mit Fell eine Katze ist. Hunde haben auch Fell. Das ist ein klassischer logischer Fehlschluss – und LLMs fallen ohne Reasoning-Anleitung regelmäßig darauf rein.

Beispiel 2: Mehrstufige Probleme

Prompt:
Ein Bauer hat 17 Schafe. Alle bis auf 9 sterben.
Wie viele hat er noch?

Typische Antwort ohne Reasoning:
Der Bauer hat noch 8 Schafe. (17 - 9 = 8)

Auch falsch. “Alle bis auf 9 sterben” bedeutet: 9 überleben. Die Antwort ist 9. Das Modell hat gerechnet statt zu lesen – ein klassischer Fehler bei Textaufgaben.

Beispiel 3: Planung und Strategie

Prompt:
Ich habe 5.000 Euro und möchte ein Online-Business starten.
Was soll ich tun?

Typische Antwort ohne Reasoning:
1. Finde eine Nische
2. Erstelle eine Website
3. Nutze Social Media Marketing
4. Biete einen Mehrwert
5. Sei konsistent

Nicht falsch, aber nutzlos. Das sind generische Ratschläge, die du auf jeder dritten Webseite findest. Keine echte Analyse, keine Abwägung, keine Berücksichtigung der Budgetbeschränkung, keine konkreten Handlungsschritte.

In all diesen Fällen fehlt dem Modell eines: ein strukturierter Denkprozess. Es springt direkt zur Antwort, ohne den Weg dorthin zu durchdenken.

Die Reasoning-Revolution: Ein kurzer historischer Abriss

Reasoning in LLMs ist kein neues Konzept, aber es hat sich rasant entwickelt:

2022 – Chain-of-Thought wird entdeckt Google-Forscher Jason Wei und sein Team veröffentlichten das Paper “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”. Die Kernidee: Wenn man dem Modell Beispiele mit Zwischenschritten zeigt, produziert es selbst Zwischenschritte – und liefert bessere Ergebnisse. Das Paper hat das Feld verändert.

2022 – Zero-Shot CoT Kojma et al. zeigten, dass manchmal ein einziger Satz reicht: “Let’s think step by step.” Keine Beispiele nötig. Das Modell aktiviert seinen “Reasoning-Modus” allein durch diese Anweisung. Einfach, aber wirkungsvoll.

2023 – Tree-of-Thought Yao et al. erweiterten CoT zu einem Baum. Statt einem linearen Denkpfad erkundet das Modell mehrere Pfade, bewertet sie und wählt den besten. Besonders nützlich bei Problemen mit mehreren möglichen Lösungen.

2023 – ReAct und Agenten Yao et al. (ja, derselbe Yao) kombinierten Reasoning mit Actions. Das Modell denkt nicht nur, es handelt auch – es kann Werkzeuge nutzen, Informationen suchen und auf Basis der Ergebnisse weiterdenken. Die Geburt der KI-Agenten.

2024 – Reasoning-Modelle OpenAI brachte o1 heraus, ein Modell, das Reasoning als festen Bestandteil seiner Architektur hat. Es “denkt” intern, bevor es antwortet. Google folgte mit Gemini 2.0 Flash Thinking. Anthropic integrierte erweiterte Reasoning-Fähigkeiten in Claude. Reasoning wurde vom Prompt-Trick zur Modelleigenschaft.

2025 – Deep Research und autonomes Reasoning Modelle wie GPT-4o mit Deep Research, Claude mit erweitertem Denken und Gemini Deep Research können minutenlang eigenständig recherchieren und denken, bevor sie antworten. Die Grenze zwischen Prompting und Reasoning verschwimmt.

Die fünf Ebenen des Reasoning

Nicht jede Reasoning-Technik ist gleich komplex. Ich unterteile sie in fünf Ebenen:

Ebene 1: Lineares Reasoning (Chain-of-Thought)

Das Modell denkt Schritt für Schritt in einer geraden Linie. A → B → C → Ergebnis. - Einfachste Form - Funktioniert bei den meisten Aufgaben - Kapitel 2 und 3 dieses Buches

Ebene 2: Verzweigtes Reasoning (Tree-of-Thought)

Das Modell erkundet mehrere Denkpfade gleichzeitig und bewertet sie. - Komplexer, aber mächtiger - Besonders gut bei Problemen mit mehreren Lösungen - Kapitel 4

Ebene 3: Validiertes Reasoning (Self-Consistency)

Das Modell löst dasselbe Problem mehrfach und wählt die konsistenteste Antwort. - Erhöht die Zuverlässigkeit - Kostet mehr Tokens, aber liefert bessere Ergebnisse - Kapitel 5

Ebene 4: Interaktives Reasoning (ReAct)

Das Modell denkt, handelt, beobachtet und plant den nächsten Schritt. - Die Grundlage für KI-Agenten - Reasoning + externe Werkzeuge - Kapitel 6

Ebene 5: Rekursives Reasoning (Meta-Prompting, Reflexion)

Das Modell reflektiert über seinen eigenen Denkprozess und verbessert ihn. - Die fortgeschrittenste Form - Prompts, die Prompts verbessern - Kapitel 7 und 8

Wann brauchst du Reasoning?

Nicht immer. Und das ist wichtig zu verstehen.

Reasoning LOHNT sich bei:

  • Logischen Aufgaben – Schlussfolgerungen, Beweise, Argumentationsanalysen
  • Mathematik – Textaufgaben, Berechnungen, Statistik
  • Planung – Strategie, Projektplanung, Entscheidungsfindung
  • Analyse – Pro/Contra, SWOT, Risikobewertung
  • Fehlersuche – Debugging, Diagnose, Ursachenanalyse
  • Mehrstufige Aufgaben – Alles, was mehr als einen Schritt erfordert
  • Aufgaben mit Constraints – Budget, Zeitrahmen, Ressourcenlimits

Reasoning ist ÜBERFLÜSSIG bei:

  • Einfachen Textaufgaben – “Schreib mir eine kurze E-Mail”
  • Übersetzungen – “Übersetze diesen Absatz ins Englische”
  • Formatierung – “Mach daraus eine Tabelle”
  • Kreativem Brainstorming – “Gib mir 10 Ideen für …”
  • Zusammenfassungen – “Fasse diesen Text zusammen”
  • Faktenabruf – “Was ist die Hauptstadt von Frankreich?”

Die Faustregel: Wenn du die Aufgabe selbst in 10 Sekunden lösen könntest, braucht das Modell kein Reasoning. Wenn du selbst nachdenken müsstest, braucht das Modell es auch.

Reasoning und Token-Kosten

Ein wichtiger Praxis-Aspekt: Reasoning kostet mehr Tokens. Das Modell produziert nicht nur die Antwort, sondern auch die Zwischenschritte. Bei Chain-of-Thought kann die Antwort 3-5x so lang sein wie ohne. Bei Tree-of-Thought noch mehr.

Das bedeutet: - Mehr Kosten bei API-Nutzung (du zahlst pro Token) - Längere Antwortzeiten (mehr Tokens = mehr Rechenzeit) - Mehr Kontext-Fenster-Verbrauch (die Zwischenschritte belegen Platz)

Deshalb: Nutze Reasoning gezielt, nicht pauschal. Nicht jeder Prompt braucht “Denke Schritt für Schritt”. Aber bei den richtigen Aufgaben ist der ROI enorm.

Ein Experiment zum Einstieg

Bevor wir in die einzelnen Techniken einsteigen, möchte ich, dass du ein Gefühl dafür bekommst, was Reasoning bewirkt. Mach folgendes Experiment:

Aufgabe

Gib deinem LLM diese Aufgabe – einmal ohne und einmal mit Reasoning-Anweisung:

Version A (ohne Reasoning):

Drei Freunde – Anna, Ben und Clara – gehen in ein Restaurant.
Anna sitzt links von Ben.
Clara sitzt nicht neben Anna.
In welcher Reihenfolge sitzen sie von links nach rechts?

Version B (mit Reasoning):

Drei Freunde – Anna, Ben und Clara – gehen in ein Restaurant.
Anna sitzt links von Ben.
Clara sitzt nicht neben Anna.
In welcher Reihenfolge sitzen sie von links nach rechts?

Denke Schritt für Schritt:
1. Liste alle möglichen Sitzordnungen auf
2. Prüfe jede Bedingung einzeln
3. Eliminiere alle Optionen, die eine Bedingung verletzen
4. Nenne die verbleibende Lösung

Vergleiche die Antworten. Version A wird wahrscheinlich direkt eine Antwort geben – manchmal richtig, manchmal falsch. Version B wird den Denkprozess zeigen und mit höherer Wahrscheinlichkeit richtig liegen.

Auflösung

Die möglichen Reihenfolgen (von links nach rechts): 1. Anna, Ben, Clara ✓ (Anna links von Ben ✓, Clara nicht neben Anna ✓) 2. Anna, Clara, Ben ✗ (Anna links von Ben? Nein, Ben sitzt nicht rechts von Anna) 3. Ben, Anna, Clara ✗ (Anna links von Ben? Nein, Anna sitzt rechts) 4. Ben, Clara, Anna ✗ (Anna links von Ben? Nein) 5. Clara, Anna, Ben ✗ (Clara neben Anna? Ja – Bedingung verletzt) 6. Clara, Ben, Anna ✗ (Anna links von Ben? Nein)

Warte – schauen wir nochmal. “Anna sitzt links von Ben” heißt Anna kommt in der Reihe vor Ben, aber nicht unbedingt direkt daneben: 1. Anna, Ben, Clara – Anna links von Ben ✓, Clara neben Ben (nicht neben Anna) ✓ 2. Anna, Clara, Ben – Anna links von Ben ✓, Clara neben Anna ✗

Antwort: Anna, Ben, Clara.

Hast du gesehen, was gerade passiert ist? Selbst ich musste die Schritte durchgehen, um sicher zu sein. Und genau deshalb funktioniert Reasoning.

Die Grundregel dieses Buches

Jedes Kapitel in diesem Buch folgt demselben Muster:

  1. Was ist die Technik? – Konzept und Hintergrund
  2. Wie funktioniert sie? – Mechanismus und Aufbau
  3. Wann nutze ich sie? – Einsatzgebiete und Grenzen
  4. Praktische Beispiele – Mindestens 5 pro Kapitel, verschiedene Domänen
  5. Vorher/Nachher – Direkter Vergleich: ohne vs. mit Technik
  6. Häufige Fehler – Was schiefgehen kann und wie du es vermeidest
  7. Übungen – Zum Selbst-Ausprobieren

Mein Anspruch: Nach jedem Kapitel kannst du die Technik sofort anwenden. Keine Theorie ohne Praxis.


Übungen

Übung 1: Reasoning-Bedarf erkennen

Bewerte die folgenden Aufgaben: Braucht das Modell Reasoning? Ja oder Nein? Begründe kurz.

  1. “Übersetze ‘Guten Morgen’ auf Spanisch”
  2. “Ein Zug fährt um 8:00 ab und braucht 3,5 Stunden. Er hat 20 Minuten Verspätung. Wann kommt er an?”
  3. “Schreib mir ein Gedicht über den Herbst”
  4. “Ich habe 3 Bewerbungen. Kandidat A hat 10 Jahre Erfahrung aber keine Führungserfahrung. Kandidat B hat 5 Jahre und führt ein 3er-Team. Kandidat C hat 7 Jahre und einen MBA. Wer passt am besten für die Teamleiter-Stelle?”
  5. “Fasse diesen Artikel in 3 Sätzen zusammen”

Übung 2: Erstes Reasoning-Experiment

Nimm eine Aufgabe aus deinem Alltag, bei der du normalerweise mit dem KI-Ergebnis unzufrieden bist. Teste sie zweimal: - Einmal wie gewohnt - Einmal mit dem Zusatz “Denke Schritt für Schritt nach. Zeige deinen Denkprozess.” Dokumentiere den Unterschied in deinem Prompt-Protokoll.

Übung 3: Reasoning-Ebenen zuordnen

Ordne diese Techniken den fünf Ebenen zu (du kennst sie noch nicht alle im Detail – nutze dein Verständnis aus der Übersicht): - Das Modell prüft seine eigene Antwort und korrigiert Fehler → Ebene ? - Das Modell löst ein Problem auf drei verschiedene Arten und wählt die konsistenteste → Ebene ? - Das Modell erklärt seine Lösung Schritt für Schritt → Ebene ? - Das Modell sucht im Internet, liest Ergebnisse und denkt weiter → Ebene ? - Das Modell prüft drei verschiedene Lösungswege und wählt den besten → Ebene ?

Kapitel 2: Chain-of-Thought – Die Mutter aller Reasoning-Techniken

Chain-of-Thought (CoT) ist die wichtigste Reasoning-Technik. Wenn du aus diesem ganzen Buch nur eine Sache mitnimmst, dann diese.

Die Idee

Chain-of-Thought bedeutet: Du bringst das Modell dazu, seinen Denkprozess zu zeigen, bevor es eine Antwort gibt. Statt direkt zum Ergebnis zu springen, soll es die Zwischenschritte aufschreiben.

Das Konzept stammt aus einem Paper von Jason Wei et al. (Google Brain, 2022). Die Forscher zeigten, dass LLMs bei Aufgaben wie Mathematik, Logik und Alltagsreasoning dramatisch besser werden, wenn man ihnen Beispiele mit Denkschritten gibt.

Dramatisch besser heißt: Bei manchen Benchmarks verbesserte sich die Genauigkeit um über 50 Prozentpunkte. Fünfzig. Das ist kein marginaler Gewinn – das ist ein Paradigmenwechsel.

Wie CoT funktioniert

Die klassische CoT-Methode nutzt Few-Shot Learning (das kennst du aus Band 2). Du gibst dem Modell ein Beispiel mit Denkschritten und stellst dann deine eigentliche Frage.

Das Grundmuster

Frage: Lisa hat 5 Äpfel. Sie gibt 2 an Tom und kauft dann
3 neue. Wie viele hat sie?

Denkschritte:
- Lisa startet mit 5 Äpfeln
- Sie gibt 2 an Tom: 5 - 2 = 3
- Sie kauft 3 neue: 3 + 3 = 6
- Lisa hat 6 Äpfel

Antwort: 6

---

Frage: Ein Laden hat 50 T-Shirts. Am Montag werden 12 verkauft.
Am Dienstag kommen 20 neue und 8 werden verkauft.
Wie viele sind am Dienstagabend da?

Denkschritte:

Das Modell sieht das Muster (Frage → Denkschritte → Antwort) und reproduziert es:

Denkschritte:
- Der Laden startet mit 50 T-Shirts
- Montag: 12 verkauft → 50 - 12 = 38
- Dienstag: 20 neue → 38 + 20 = 58
- Dienstag: 8 verkauft → 58 - 8 = 50
- Am Dienstagabend sind 50 T-Shirts da

Antwort: 50

Ohne CoT würde das Modell vielleicht direkt “50” antworten – oder “42” oder “70”, je nachdem, wie die Wahrscheinlichkeitsverteilung gerade ausfällt. Mit CoT wird es fast immer richtig antworten, weil jeder Zwischenschritt den nächsten informiert.

Warum funktioniert das?

Die Erklärung ist eleganter, als man denkt.

Wenn ein LLM direkt antworten muss, hat es nur die ursprüngliche Frage als Kontext. Es muss in einem einzigen “Denkschritt” (eigentlich: einem Token-Vorhersage-Durchlauf) die Antwort produzieren.

Wenn es dagegen Zwischenschritte aufschreibt, wird jeder Zwischenschritt Teil des Kontexts für den nächsten Schritt. Das Modell hat buchstäblich mehr Information zur Verfügung, wenn es die finale Antwort generiert.

Stell dir vor, du löst ein Kreuzworträtsel. Du könntest versuchen, direkt das letzte Wort einzutragen – aber die Chancen stehen schlecht. Wenn du aber die einfachen Wörter zuerst ausfüllst, geben dir die Buchstaben Hinweise für die schwierigen. Genau so funktioniert CoT für LLMs.

CoT in der Praxis: Fünf Domänen

Genug Theorie. Lass uns CoT in verschiedenen Kontexten sehen.

1. Mathematische Textaufgaben

Ohne CoT:

Ein Unternehmen hat 120 Mitarbeiter. 30% arbeiten in der IT,
die Hälfte davon sind Entwickler. Von den Entwicklern arbeiten
40% remote. Wie viele IT-Entwickler arbeiten remote?

Typisches Ergebnis: “7” oder “8” – oft falsch, weil das Modell Schritte überspringt.

Mit CoT:

Ein Unternehmen hat 120 Mitarbeiter. 30% arbeiten in der IT,
die Hälfte davon sind Entwickler. Von den Entwicklern arbeiten
40% remote. Wie viele IT-Entwickler arbeiten remote?

Löse das Schritt für Schritt:
1. Berechne die Anzahl der IT-Mitarbeiter
2. Berechne die Anzahl der Entwickler
3. Berechne die Anzahl der Remote-Entwickler

Ergebnis:

1. IT-Mitarbeiter: 120 × 0,30 = 36
2. Davon Entwickler: 36 × 0,5 = 18
3. Davon remote: 18 × 0,40 = 7,2 → aufgerundet 8
   (oder 7, je nach Rundungskonvention)

Antwort: 7 IT-Entwickler arbeiten remote
(bei ganzen Personen abgerundet).

Siehst du den Unterschied? Mit CoT kann das Modell nicht nur die richtige Antwort geben, sondern auch transparent machen, wie es dahin kam. Du kannst jeden Schritt prüfen.

2. Logisches Schlussfolgern

Ohne CoT:

Folgende Aussagen sind wahr:
- Alle Manager haben Zugang zum Serverraum
- Einige Entwickler haben Zugang zum Serverraum
- Niemand mit Zugang zum Serverraum darf von zu Hause arbeiten
- Sarah arbeitet von zu Hause

Kann Sarah ein Manager sein?

Ohne CoT antwortet das Modell oft unsicher oder falsch: “Es ist möglich, dass Sarah ein Manager ist, aber…”

Mit CoT:

Folgende Aussagen sind wahr:
- Alle Manager haben Zugang zum Serverraum
- Einige Entwickler haben Zugang zum Serverraum
- Niemand mit Zugang zum Serverraum darf von zu Hause arbeiten
- Sarah arbeitet von zu Hause

Kann Sarah ein Manager sein?

Analysiere das logisch, Schritt für Schritt:
1. Was wissen wir über Manager?
2. Was wissen wir über Personen mit Serverraum-Zugang?
3. Was wissen wir über Sarah?
4. Welche Schlussfolgerung ergibt sich?

Ergebnis:

1. Alle Manager haben Zugang zum Serverraum (Aussage 1)
2. Niemand mit Serverraum-Zugang darf von zu Hause arbeiten (Aussage 3)
3. Daraus folgt: Kein Manager darf von zu Hause arbeiten
4. Sarah arbeitet von zu Hause (Aussage 4)
5. Da kein Manager von zu Hause arbeiten darf, Sarah aber von zu Hause
   arbeitet, kann Sarah KEIN Manager sein.

Antwort: Nein, Sarah kann kein Manager sein.

Sauber. Logisch. Überprüfbar.

3. Entscheidungsfindung

Ohne CoT:

Unser Startup hat 50.000 Euro Budget für Marketing.
Sollen wir in Google Ads oder Instagram investieren?
Wir verkaufen B2B-Software für kleine Unternehmen.

Ohne CoT bekommst du eine oberflächliche Empfehlung: “Google Ads ist besser für B2B.” Punkt. Keine Analyse, keine Abwägung.

Mit CoT:

Unser Startup hat 50.000 Euro Budget für Marketing.
Sollen wir in Google Ads oder Instagram investieren?
Wir verkaufen B2B-Software für kleine Unternehmen.

Analysiere diese Entscheidung systematisch:
1. Definiere die Zielgruppe und ihr Verhalten
2. Bewerte Google Ads für diesen Kontext (Stärken, Schwächen, erwarteter ROI)
3. Bewerte Instagram für diesen Kontext (Stärken, Schwächen, erwarteter ROI)
4. Berücksichtige das Budget von 50.000 Euro
5. Gib eine begründete Empfehlung

Das Ergebnis ist eine strukturierte Analyse, die du tatsächlich als Entscheidungsgrundlage nutzen kannst. Das Modell berücksichtigt B2B-Suchintention, CPCs, Conversion-Raten und Budget-Effizienz.

4. Textanalyse

Ohne CoT:

Analysiere diesen Kundenbewertungstext: "Das Produkt an sich ist
nicht schlecht, aber der Kundenservice ist eine Katastrophe.
Drei Mal angerufen, drei Mal in der Warteschleife gestorben.
Wenn man dann mal jemanden erreicht, wird man abgewimmelt."

Ist diese Bewertung positiv, negativ oder neutral?

Ohne CoT: “Negativ.” Das stimmt zwar, aber es fehlt die Nuance.

Mit CoT:

Analysiere diesen Kundenbewertungstext: "Das Produkt an sich ist
nicht schlecht, aber der Kundenservice ist eine Katastrophe.
Drei Mal angerufen, drei Mal in der Warteschleife gestorben.
Wenn man dann mal jemanden erreicht, wird man abgewimmelt."

Analysiere Schritt für Schritt:
1. Identifiziere alle Aspekte, die bewertet werden
2. Bewerte die Stimmung für jeden Aspekt einzeln
3. Identifiziere die verwendete Sprache und ihren Tonfall
4. Gib ein Gesamturteil mit Begründung

Ergebnis:

1. Aspekte:
   - Produkt: "nicht schlecht" → leicht positiv/neutral
   - Kundenservice: "Katastrophe" → stark negativ
   - Erreichbarkeit: "Warteschleife gestorben" → stark negativ
   - Gesprächsqualität: "abgewimmelt" → stark negativ

2. Stimmung pro Aspekt:
   - Produkt: ★★★☆☆ (neutral-positiv)
   - Kundenservice: ★☆☆☆☆ (stark negativ)

3. Sprache/Tonfall:
   - Umgangssprachlich ("Warteschleife gestorben")
   - Sarkastisch/frustriert
   - "Nicht schlecht" = zurückhaltend positiv (deutsche Untertreibung)

4. Gesamturteil: NEGATIV
   Das Produkt wird akzeptiert, aber der Kundenservice – der
   offensichtlich gebraucht wurde – ist der Hauptkritikpunkt.
   Der Kunde ist frustriert, nicht vom Produkt, sondern vom
   Service-Erlebnis.

Das ist eine echte Analyse. Die könntest du in einem Teammeeting präsentieren.

5. Code-Debugging

Ohne CoT:

Warum gibt dieser Python-Code eine falsche Summe?

numbers = [1, 2, 3, 4, 5]
total = 0
for i in range(len(numbers)):
    total += numbers[i-1]
print(total)

Ohne CoT: “Der Code hat einen Off-by-One-Error.” Stimmt, aber hilft nicht wirklich.

Mit CoT:

Warum gibt dieser Python-Code eine falsche Summe?

numbers = [1, 2, 3, 4, 5]
total = 0
for i in range(len(numbers)):
    total += numbers[i-1]
print(total)

Debugge Schritt für Schritt:
1. Was macht jede Zeile?
2. Gehe die Schleife Iteration für Iteration durch
3. Was wird tatsächlich addiert?
4. Was sollte addiert werden?
5. Wo liegt der Fehler?

Ergebnis:

1. numbers = [1, 2, 3, 4, 5], total startet bei 0

2. Schleife durchgehen:
   - i=0: numbers[0-1] = numbers[-1] = 5 → total = 5
   - i=1: numbers[1-1] = numbers[0] = 1 → total = 6
   - i=2: numbers[2-1] = numbers[1] = 2 → total = 8
   - i=3: numbers[3-1] = numbers[2] = 3 → total = 11
   - i=4: numbers[4-1] = numbers[3] = 4 → total = 15

3. Addiert wird: 5, 1, 2, 3, 4 = 15 (statt 1, 2, 3, 4, 5 = 15)

4. Moment – das Ergebnis ist zufällig gleich! Aber die Reihenfolge
   ist verschoben. Der Bug zeigt sich bei unterschiedlichen Werten.

   Beispiel: numbers = [1, 2, 3, 4, 10]
   - Erwartet: 1+2+3+4+10 = 20
   - Tatsächlich: numbers[-1]=10, [0]=1, [1]=2, [2]=3, [3]=4 → 20

   Auch hier zufällig gleich! Das liegt daran, dass alle Elemente
   addiert werden, nur in anderer Reihenfolge. Die Summe bleibt gleich.

5. PLOT TWIST: Der Code gibt tatsächlich die richtige Summe!
   Der "Bug" existiert nicht – die Summe ist kommutativ. Allerdings
   greift der Code auf das falsche Element zu (numbers[i-1] statt
   numbers[i]), was bei anderen Operationen als Addition zu echten
   Fehlern führen würde. Der Fix für korrektes Indexing:
   numbers[i] statt numbers[i-1].

Siehst du, was da passiert ist? Durch das schrittweise Durchgehen hat das Modell erkannt, dass die Frage eine Falle enthält. Ohne CoT hätte es blind behauptet, es gäbe einen Summierungsfehler.

Die vier CoT-Varianten

Nicht jedes CoT sieht gleich aus. Es gibt vier Hauptvarianten, die du kennen solltest:

Variante 1: Explizite Schritte vorgeben

Du sagst dem Modell genau, welche Schritte es durchlaufen soll.

Analysiere diesen Geschäftsplan:
Schritt 1: Identifiziere das Geschäftsmodell
Schritt 2: Bewerte den Zielmarkt
Schritt 3: Analysiere die Wettbewerbssituation
Schritt 4: Prüfe die finanzielle Machbarkeit
Schritt 5: Gib eine Gesamtbewertung mit Note (1-10)

Wann nutzen: Wenn du genau weißt, welche Analyse-Schritte sinnvoll sind. Gibt dir maximale Kontrolle.

Variante 2: Offene Schritte

Du sagst dem Modell, dass es Schritt für Schritt denken soll, ohne die Schritte vorzugeben.

Analysiere diesen Geschäftsplan. Denke Schritt für Schritt
und zeige deinen Denkprozess.

Wann nutzen: Wenn du nicht sicher bist, welche Schritte die richtigen sind. Das Modell wählt selbst – manchmal überraschend gut.

Variante 3: Few-Shot CoT

Du gibst ein komplettes Beispiel mit Denkschritten, bevor du deine Frage stellst.

Beispiel:
Frage: Soll ein Restaurant um 11 Uhr oder um 18 Uhr öffnen,
wenn die Zielgruppe Büroangestellte sind?
Denkprozess: Büroangestellte arbeiten typischerweise 9-17 Uhr.
Um 11 Uhr sind sie bei der Arbeit → Mittagspause ab 12 Uhr
ist realistisch. Um 18 Uhr sind sie gerade fertig → Abendessen
ab 18:30 ist realistisch. Für Mittagsgeschäft: 11 Uhr.
Für Abendgeschäft: 18 Uhr. Für maximalen Umsatz: 11 Uhr,
da die Konkurrenz abends höher ist.
Antwort: 11 Uhr für Mittagsgeschäft (empfohlen), 18 Uhr für
Abendgeschäft.

Meine Frage: Soll ein Co-Working-Space Monats- oder
Tagestickets anbieten, wenn die Zielgruppe Freelancer sind?
Denkprozess:

Wann nutzen: Wenn du einen bestimmten Denkstil demonstrieren willst. Das Modell imitiert die Struktur deines Beispiels.

Variante 4: CoT mit Zusammenfassung

Das Modell denkt ausführlich, fasst aber am Ende zusammen.

Bewerte diese drei Investitionsoptionen für einen
konservativen Anleger mit 100.000 Euro:
A) ETF-Portfolio
B) Immobilie
C) Staatsanleihen

Denke ausführlich über jede Option nach.
Am Ende: Gib eine klare Empfehlung in 2-3 Sätzen.

Wann nutzen: Wenn du den Denkprozess sehen willst, aber auch eine klare Zusammenfassung brauchst. Ideal für Berichte und Präsentationen.

CoT-Qualität optimieren

Nicht jedes CoT liefert automatisch gute Ergebnisse. Hier sind die wichtigsten Optimierungen:

Optimierung 1: Granularität anpassen

Zu grob:

Denke nach und antworte.

→ Das Modell macht vielleicht 2-3 oberflächliche Schritte.

Zu fein:

Schritt 1: Lies die Frage.
Schritt 2: Identifiziere die relevanten Zahlen.
Schritt 3: Prüfe, ob du alle Informationen hast.
Schritt 4: Wähle die passende Rechenoperation.
Schritt 5: Führe die Berechnung aus.
Schritt 6: Prüfe das Ergebnis.
Schritt 7: Formuliere die Antwort.
Schritt 8: Überprüfe, ob die Antwort die Frage beantwortet.

→ Aufgebläht, das Modell produziert Fülltext.

Genau richtig:

Analysiere Schritt für Schritt:
1. Was sind die gegebenen Informationen?
2. Was wird gesucht?
3. Löse das Problem
4. Prüfe dein Ergebnis

→ Genug Struktur, um den Denkprozess zu leiten, aber nicht so viel, dass es einengend wird.

Optimierung 2: Domänen-spezifische Schritte

Passe die Schritte an die Domäne an:

Für juristische Analyse:

1. Identifiziere den Sachverhalt
2. Bestimme die einschlägigen Rechtsnormen
3. Prüfe den Tatbestand (Subsumtion)
4. Beurteile die Rechtsfolge

Für medizinische Fragen:

1. Symptome zusammenfassen
2. Mögliche Differenzialdiagnosen auflisten
3. Wahrscheinlichkeiten bewerten
4. Empfohlene nächste Schritte

Für technische Problemlösung:

1. Problem reproduzieren und verstehen
2. Mögliche Ursachen identifizieren
3. Wahrscheinlichste Ursache bestimmen
4. Lösung vorschlagen und begründen

Optimierung 3: Denkprozess vom Ergebnis trennen

Aufgabe: [Deine Aufgabe]

Zeige deinen Denkprozess in einem Block "ANALYSE:"
und gib dann dein Ergebnis in einem Block "ERGEBNIS:".

Das macht die Antwort lesbarer und du kannst den Denkprozess überspringen, wenn du nur das Ergebnis brauchst.

Wann CoT NICHT funktioniert

CoT ist kein Allheilmittel. Es gibt Situationen, in denen es nicht hilft oder sogar schadet:

Problem 1: Zu einfache Aufgaben

Bei trivialen Fragen produziert CoT unnötigen Overhead:

Frage: Was ist die Hauptstadt von Deutschland?

Denkprozess: Deutschland ist ein Land in Europa.
Die Hauptstadt eines Landes ist die Stadt, in der die
Regierung sitzt. Die deutsche Regierung sitzt in Berlin.
Also ist Berlin die Hauptstadt von Deutschland.

Antwort: Berlin.

Vier Sätze für etwas, das ein Wort braucht. Verschwendung.

Problem 2: Kreative Aufgaben

Bei Brainstorming oder kreativem Schreiben kann CoT den Kreativitätsfluss bremsen:

Schreib mir ein Gedicht über Liebe.
Denke Schritt für Schritt:
1. Welche Metaphern passen?
2. Welches Reimschema?
3. Welche Emotionen?

→ Das Ergebnis wird analytisch statt emotional. Für kreative Aufgaben lass das Modell frei laufen.

Problem 3: Falsches Reasoning

Manchmal denkt das Modell sorgfältig und kommt trotzdem zum falschen Ergebnis. CoT zeigt dir dann wenigstens, wo es falsch abgebogen ist – aber es verhindert Fehler nicht komplett.

Problem 4: Halluzinierte Schritte

Das Modell kann “Denkschritte” erfinden, die plausibel klingen, aber falsch sind. Besonders bei Wissensaufgaben:

Denkprozess: Der Vertrag von Lissabon wurde 2007
unterzeichnet und trat 2009 in Kraft. Er legte fest,
dass die EU maximal 30 Mitgliedsstaaten haben darf...

Der letzte Satz ist erfunden. CoT kann Halluzinationen in Denkschritten verstecken.

CoT Best Practices – Zusammenfassung

Tipp Details
Nutze CoT bei komplexen Aufgaben Mathe, Logik, Analyse, Planung
Überspring CoT bei einfachen Aufgaben Übersetzung, Formatierung, Faktenabruf
Passe Granularität an 3-5 Schritte sind meistens ideal
Nutze domänenspezifische Schritte Juristisch, medizinisch, technisch
Trenne Denkprozess und Ergebnis ANALYSE: und ERGEBNIS: Blöcke
Prüfe die Zwischenschritte CoT macht Fehler sichtbar – nutze das
Kombiniere CoT mit Rollen “Du bist ein Experte für X. Denke Schritt für Schritt…”

Übungen

Übung 1: CoT-Varianten vergleichen

Nimm diese Aufgabe und löse sie mit allen vier CoT-Varianten (explizite Schritte, offene Schritte, Few-Shot CoT, CoT mit Zusammenfassung):

“Ein Startup hat 200.000 Euro Jahresbudget. Die Fixkosten betragen 8.000 Euro/Monat. Sie möchten 3 Entwickler einstellen (je 5.000 Euro/Monat). Reicht das Budget? Wenn nein, welche Optionen gibt es?”

Vergleiche die Ergebnisse. Welche Variante liefert die nützlichste Antwort?

Übung 2: Domain-CoT entwickeln

Wähle ein Thema, das dich interessiert (z.B. Kochen, Sport, Finanzen). Entwickle eine domänenspezifische CoT-Schrittfolge (3-5 Schritte), die für typische Fragen in diesem Bereich funktioniert. Teste sie mit 3 verschiedenen Fragen.

Übung 3: CoT-Grenzen testen

Teste CoT bewusst in Situationen, wo es nicht helfen sollte: - Eine kreative Schreibaufgabe - Eine einfache Wissensfrage - Eine Aufgabe, bei der das Modell die Fakten nicht kennen kann

Dokumentiere: Hat CoT geholfen, geschadet oder keinen Unterschied gemacht?

Übung 4: Fehler im Denkprozess finden

Gib dem Modell diese Aufgabe mit CoT und prüfe jeden Zwischenschritt:

“In einem Raum sind 3 Lichtschalter. Jeder gehört zu einer von 3 Lampen im Nebenraum. Du darfst den Raum mit den Lampen nur einmal betreten. Wie findest du heraus, welcher Schalter zu welcher Lampe gehört?”

Hat das Modell die richtige Lösung gefunden? Wo war der Denkprozess gut, wo fehlerhaft?

Kapitel 3: Zero-Shot Chain-of-Thought – Fünf Wörter, die alles verändern

Im letzten Kapitel hast du die klassische CoT-Methode kennengelernt: Du gibst dem Modell Beispiele mit Denkschritten (Few-Shot CoT). Das funktioniert hervorragend, ist aber aufwendig. Du musst für jede neue Aufgabe ein passendes Beispiel schreiben.

Zero-Shot CoT macht das überflüssig. Stattdessen brauchst du nur einen einzigen Satz.

Die Entdeckung

2022 veröffentlichten Kojma et al. ein Paper mit dem Titel “Large Language Models are Zero-Shot Reasoners”. Ihre Entdeckung war verblüffend einfach:

Wenn du an das Ende deines Prompts die Worte “Let’s think step by step” anfügst – oder auf Deutsch: “Denke Schritt für Schritt” – verbessern sich die Ergebnisse bei Reasoning-Aufgaben dramatisch. Ohne ein einziges Beispiel. Ohne vorgegebene Schritte. Nur durch diesen einen Satz.

Die Forscher testeten es auf zwölf verschiedenen Benchmarks. Bei manchen stieg die Genauigkeit um über 40 Prozentpunkte. Fünf Wörter. 40 Prozentpunkte. Das ist keine inkrementelle Verbesserung – das ist ein Durchbruch.

Warum funktioniert das?

Erinnere dich an Band 2, Kapitel über Zero-Shot Prompting: Zero-Shot bedeutet, dass du dem Modell keine Beispiele gibst. Das Modell muss aus seiner Trainingsdata und deiner Anweisung allein die richtige Antwort finden.

“Denke Schritt für Schritt” aktiviert einen bestimmten “Modus” im Modell. Während des Trainings hat das Modell Millionen von Texten gesehen, in denen Probleme Schritt für Schritt gelöst werden – Lehrbücher, Tutorials, Forenbeiträge, wissenschaftliche Arbeiten. Diese Phrase triggert das Modell, ein ähnliches Muster zu reproduzieren.

Es ist kein Zauberspruch. Es ist eine Anweisung, die das Modell in einen bestimmten Ausgabemodus versetzt – weg von “direkte Antwort” hin zu “ausführlicher Denkprozess”.

Die besten Zero-Shot-CoT-Trigger

“Denke Schritt für Schritt” ist die bekannteste Formulierung, aber nicht die einzige. Hier sind die effektivsten Varianten, die ich getestet habe:

Die Klassiker

Trigger Wann besonders gut
“Denke Schritt für Schritt.” Allrounder, funktioniert fast immer
“Lass uns das Schritt für Schritt durchgehen.” Etwas natürlicher, gleiche Wirkung
“Erkläre deinen Denkprozess.” Wenn du den Weg zur Lösung verstehen willst
“Zeige deine Arbeit.” Mathematik und Berechnungen
“Überlege sorgfältig, bevor du antwortest.” Wenn Genauigkeit wichtiger ist als Geschwindigkeit
“Analysiere das systematisch.” Für analytische Aufgaben

Die Spezialisten

Trigger Wann besonders gut
“Bevor du antwortest: Was sind die relevanten Fakten?” Faktbasierte Aufgaben
“Denke laut nach.” Wenn du den internen Monolog sehen willst
“Geh von den Grundlagen aus und arbeite dich vor.” Komplexe Themen, die Basiswissen brauchen
“Welche Annahmen machst du? Prüfe sie zuerst.” Wenn Annahmen gefährlich sein können
“Bevor du eine Lösung gibst: Was könnte schiefgehen?” Risikobewertung

Die Power-Kombinationen

Manchmal reicht ein einzelner Trigger nicht. Hier sind Kombinationen, die ich regelmäßig nutze:

Für Analyse:

Denke Schritt für Schritt. Nenne zuerst deine Annahmen,
dann deine Analyse, dann dein Ergebnis.

Für Entscheidungen:

Überlege sorgfältig. Betrachte mindestens drei Perspektiven,
bevor du eine Empfehlung gibst.

Für Problemlösung:

Bevor du eine Lösung vorschlägst: Definiere das Problem präzise.
Dann liste mögliche Ursachen auf. Dann löse es.

Vergleich: Zero-Shot CoT vs. Few-Shot CoT

Wann nimmst du was? Hier ist mein Entscheidungsrahmen:

Zero-Shot CoT wählen, wenn:

  • Du eine schnelle Verbesserung brauchst ohne viel Aufwand
  • Die Aufgabe standardmäßig ist (Mathe, Logik, Analyse)
  • Du kein passendes Beispiel parat hast
  • Du experimentierst und verschiedene Ansätze testen willst
  • Die Aufgabe einmalig ist und du keinen Template-Prompt brauchst

Few-Shot CoT wählen, wenn:

  • Du einen bestimmten Denkstil durchsetzen willst
  • Die Aufgabe ungewöhnlich ist und das Modell Orientierung braucht
  • Du konsistente Ergebnisse über viele ähnliche Aufgaben brauchst
  • Du sehr spezifische Schritte brauchst, die das Modell nicht von allein nehmen würde
  • Die Aufgabe domänenspezifisch ist (Recht, Medizin, Finanzen)

Der direkte Vergleich

Dieselbe Aufgabe, drei Ansätze:

Aufgabe: “Maria ist älter als Tom. Tom ist älter als Sarah. Lisa ist jünger als Sarah. Wer ist am ältesten?”

Ohne CoT:

Maria ist älter als Tom. Tom ist älter als Sarah.
Lisa ist jünger als Sarah. Wer ist am ältesten?

→ Modell antwortet: “Maria.” (Richtig, aber ohne Erklärung. Bei komplexeren Varianten steigt die Fehlerrate.)

Zero-Shot CoT:

Maria ist älter als Tom. Tom ist älter als Sarah.
Lisa ist jünger als Sarah. Wer ist am ältesten?

Denke Schritt für Schritt.

→ Modell antwortet:

Schritt 1: Maria > Tom (Maria ist älter als Tom)
Schritt 2: Tom > Sarah (Tom ist älter als Sarah)
Schritt 3: Sarah > Lisa (Lisa ist jünger als Sarah)
Schritt 4: Reihenfolge: Maria > Tom > Sarah > Lisa
Schritt 5: Maria ist am ältesten.

Few-Shot CoT:

Beispiel:
Alex ist größer als Ben. Ben ist größer als Chris.
Wer ist am größten?
Denkprozess: Alex > Ben > Chris. Also ist Alex am größten.
Antwort: Alex.

Aufgabe:
Maria ist älter als Tom. Tom ist älter als Sarah.
Lisa ist jünger als Sarah. Wer ist am ältesten?
Denkprozess:

→ Modell folgt dem Beispiel-Format exakt.

Bei dieser einfachen Aufgabe sind alle drei Ansätze korrekt. Der Unterschied zeigt sich bei schwierigeren Aufgaben – und dort gewinnt Few-Shot CoT knapp vor Zero-Shot CoT.

Zero-Shot CoT in der Praxis: Sechs Anwendungsfälle

1. Schnelle Alltagsanalysen

Mein Auto verbraucht 7 Liter auf 100 km. Ich fahre täglich
35 km zur Arbeit und zurück. Benzin kostet 1,85 Euro.
Wie viel gebe ich pro Monat (22 Arbeitstage) für den
Arbeitsweg aus?

Rechne Schritt für Schritt.

Das Modell rechnet transparent: 35 km × 22 = 770 km → 770 ÷ 100 × 7 = 53,9 Liter → 53,9 × 1,85 = 99,72 Euro.

2. Entscheidungshilfe

Ich überlege, ob ich meinen Job kündigen soll. Aktuell
verdiene ich 55.000 Euro brutto, habe aber eine Zusage
für 65.000 Euro bei einem Startup. Das Startup ist seit
2 Jahren am Markt und hat 15 Mitarbeiter.

Analysiere das systematisch. Welche Faktoren sollte ich
berücksichtigen?

Das Modell geht systematisch durch: Gehaltsdifferenz, Jobsicherheit, Startup-Risiken, Karriereperspektiven, Work-Life-Balance, Branche des Startups, finanzielle Rücklagen.

3. Textverständnis vertiefen

Lies folgenden Absatz und beantworte die Frage:

"Die Inflation in der Eurozone lag im Januar 2026 bei 2,8%.
Die EZB hielt den Leitzins bei 3,15%. Analysten erwarten
eine Zinssenkung im zweiten Quartal, sofern die Kerninflation
unter 2,5% fällt."

Frage: Warum könnte die EZB den Zins senken – und warum
könnte sie es nicht tun?

Denke sorgfältig nach und betrachte beide Seiten.

4. E-Mail-Entwürfe verbessern

Ich möchte meinem Chef schreiben, dass ich ab nächsten Monat
remote arbeiten möchte. Er ist eher konservativ. Ich habe
gute Leistungen.

Bevor du die E-Mail schreibst: Überlege, welche Einwände
er haben könnte und wie du sie in der E-Mail vorwegnimmst.
Dann schreib die E-Mail.

Das “Bevor du schreibst: Überlege” ist der Schlüssel. Es zwingt das Modell, erst zu denken und dann zu schreiben.

5. Lernhilfe

Erkläre mir den Unterschied zwischen TCP und UDP.

Geh von den Grundlagen aus: Was ist ein Netzwerkprotokoll?
Dann erkläre beide Protokolle. Dann vergleiche sie.
Am Ende: Gib mir eine Eselsbrücke, die ich mir merken kann.

6. Faktencheck

Behauptung: "Deutschland hat mehr Einwohner als Frankreich
und Italien zusammen."

Bevor du die Behauptung bewertest: Nenne die aktuellen
Einwohnerzahlen aller drei Länder. Dann rechne.
Dann urteile.

Hier bewirkt der Zero-Shot-CoT-Trigger, dass das Modell nicht sofort “Falsch!” sagt, sondern erst die Zahlen prüft. Das reduziert Fehler – und du siehst, ob das Modell mit den richtigen Zahlen arbeitet (und kannst Halluzinationen erkennen).

Fortgeschrittene Zero-Shot-CoT-Strategien

Strategie 1: Zweistufiges Zero-Shot CoT

Statt einem Trigger nutzt du zwei in Folge:

Stufe 1:

[Deine Aufgabe]

Bevor du antwortest: Liste die wichtigsten Fakten und
Überlegungen auf.

Stufe 2 (Folge-Prompt):

Gut. Basierend auf deiner Analyse: Was ist deine
finale Empfehlung? Fasse sie in 3 Sätzen zusammen.

Das trennt Analyse und Zusammenfassung in zwei Schritte. Das Modell hat in Stufe 2 seine eigene Analyse als zusätzlichen Kontext.

Strategie 2: Negatives Zero-Shot CoT

Statt dem Modell zu sagen, was es tun soll, sagst du, was es NICHT tun soll:

[Deine Aufgabe]

Antworte NICHT sofort. Denke zuerst nach.
Gib keine Standardantworten. Hinterfrage deine
erste Intuition.

Das klingt ungewöhnlich, funktioniert aber erstaunlich gut. Es bremst das Modell und zwingt es, seinen ersten Impuls zu überdenken.

Strategie 3: Perspektiv-CoT

[Deine Aufgabe]

Betrachte das Problem aus drei Perspektiven:
1. Die eines Optimisten
2. Die eines Skeptikers
3. Die eines neutralen Analysten

Dann: Welche Perspektive ist am überzeugendsten?

Das ist Zero-Shot CoT plus Multi-Perspektiven (kennst du aus Band 1, Kapitel 7). Die Kombination ist mächtig.

Strategie 4: Constraint-Check CoT

[Deine Aufgabe]

Bevor du antwortest:
- Welche Informationen FEHLEN dir, um sicher zu antworten?
- Welche ANNAHMEN musst du treffen?
- Wie SICHER bist du dir bei deiner Antwort (in Prozent)?

Dann antworte.

Das ist Gold wert. Erstens macht es dem Modell bewusst, wo es unsicher ist. Zweitens gibt es dir Transparenz – wenn das Modell sagt “70% sicher”, weißt du, dass du gegenprüfen solltest.

Häufige Fehler bei Zero-Shot CoT

Fehler 1: Zu viele Trigger gleichzeitig

Denke Schritt für Schritt. Zeige deinen Denkprozess.
Erkläre dein Reasoning. Überlege sorgfältig. Nimm dir
Zeit. Sei gründlich.

Das ist Overkill. Einer oder zwei Trigger reichen. Mehr führt zu aufgeblähten Antworten ohne Mehrwert.

Fehler 2: CoT-Trigger ohne klare Aufgabe

Ich bin unsicher wegen meiner Karriere. Denke Schritt für Schritt.

“Denke Schritt für Schritt” braucht ein konkretes Problem, über das nachgedacht werden kann. Vage Aussagen + CoT-Trigger = vage Analyse mit Schritt-für-Schritt-Formatierung.

Fehler 3: CoT-Trigger bei Chat-Modellen vergessen

Chat-Modelle wie ChatGPT, Claude oder Gemini reagieren stärker auf den CoT-Trigger als die API-Versionen. Aber auch bei Chat-Modellen musst du den Trigger explizit setzen. “Bestimmt denkt das Modell schon von allein nach” ist ein Trugschluss.

Fehler 4: Auf Deutsch vs. Englisch

Ein Praxis-Tipp: “Think step by step” und “Denke Schritt für Schritt” funktionieren beide. Bei den meisten Modellen ist die englische Variante minimal besser, weil die Trainingsdaten überwiegend englisch sind. Aber der Unterschied ist klein – bleib bei Deutsch, wenn du deutsche Antworten willst.

Die “Let me think”-Technik

Eine Variante, die ich persönlich oft nutze und die nirgendwo in den Papers steht:

[Deine Aufgabe]

Nimm dir einen Moment. Was fällt dir auf? Was ist hier
die eigentliche Herausforderung? Dann löse es.

Statt “Denke Schritt für Schritt” (was eine Struktur vorgibt) sage ich dem Modell: “Orientiere dich erst.” Das führt zu natürlicheren Denkprozessen, die manchmal Aspekte beleuchten, die eine vorgegebene Schrittfolge verpasst hätte.

Ist das wissenschaftlich validiert? Nein. Funktioniert es in der Praxis? Ja. Prompting ist oft mehr Handwerk als Wissenschaft.


Übungen

Übung 1: Trigger-Vergleich

Nimm folgende Aufgabe und teste sie mit 5 verschiedenen Zero-Shot-CoT-Triggern:

“Ein Projekt hat 12 Aufgaben. 3 Personen arbeiten daran. Jede Aufgabe dauert 2 Tage. Manche Aufgaben hängen voneinander ab: Aufgabe 4 braucht Aufgabe 1 und 2. Aufgabe 8 braucht Aufgabe 5. Aufgabe 12 braucht alle anderen. Wie schnell kann das Projekt minimal fertig werden?”

Welcher Trigger liefert die beste Antwort? Dokumentiere die Unterschiede.

Übung 2: Eigene Trigger entwickeln

Entwickle drei eigene Zero-Shot-CoT-Trigger für deinen Arbeitsbereich. Teste sie mit jeweils 3 Aufgaben. Welcher funktioniert am besten?

Übung 3: Constraint-Check testen

Nutze die Constraint-Check-Strategie bei einer Aufgabe, bei der du die richtige Antwort kennst. Hat das Modell die fehlenden Informationen korrekt identifiziert? Wie hoch war seine Selbsteinschätzung?

Übung 4: Zero-Shot vs. Few-Shot

Nimm eine mittelschwere Aufgabe aus deinem Alltag. Löse sie einmal mit Zero-Shot CoT und einmal mit Few-Shot CoT (schreib dir ein Beispiel). Vergleiche: - Qualität der Antwort - Zeitaufwand für den Prompt - Konsistenz (teste jeweils 3x)

Wann lohnt sich der Mehraufwand von Few-Shot?

Kapitel 4: Tree-of-Thought – Wenn ein Denkpfad nicht reicht

Chain-of-Thought denkt linear: A → B → C → Ergebnis. Das funktioniert bei vielen Aufgaben großartig. Aber manche Probleme haben nicht einen einzigen Lösungsweg, sondern mehrere. Und manchmal ist der erste Weg, den das Modell einschlägt, eine Sackgasse.

Tree-of-Thought (ToT) löst genau dieses Problem.

Die Idee

Stell dir vor, du spielst Schach. Ein guter Schachspieler überlegt nicht nur einen Zug, sondern denkt mehrere Züge parallel durch:

  • “Wenn ich den Springer ziehe, dann kann mein Gegner den Läufer nehmen…”
  • “Wenn ich stattdessen die Dame ziehe, dann schütze ich den Bauern…”
  • “Wenn ich rochiere, dann bringe ich den König in Sicherheit…”

Er bewertet jeden Pfad und wählt den besten. Tree-of-Thought macht genau das mit LLMs.

Das Paper von Yao et al. (2023) – “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” – formalisierte diese Idee. Statt einem linearen Denkpfad erstellt das Modell einen Baum aus möglichen Gedanken, bewertet jeden Zweig und verfolgt die vielversprechendsten weiter.

CoT vs. ToT – Der Unterschied

Chain-of-Thought Tree-of-Thought
Ein Denkpfad Mehrere parallele Denkpfade
Linear: A → B → C Verzweigt: A → B₁ / B₂ / B₃ → C
Einmal denken Denken, bewerten, weiterdenken
Schnell Langsamer, aber gründlicher
Gut für Aufgaben mit klarem Lösungsweg Gut für Aufgaben mit mehreren möglichen Ansätzen
Scheitert bei Sackgassen Kann aus Sackgassen zurückkehren

Der entscheidende Unterschied: CoT ist ein Zug. ToT ist eine Partie.

Der ToT-Prozess

Tree-of-Thought besteht aus vier Phasen:

Phase 1: Generierung

Das Modell erzeugt mehrere mögliche nächste Schritte (Gedanken/Ansätze).

Phase 2: Bewertung

Jeder Schritt wird bewertet: Wie vielversprechend ist dieser Ansatz?

Phase 3: Auswahl

Die besten Ansätze werden weiterverfolgt, die schlechten verworfen.

Phase 4: Expansion

Von den ausgewählten Ansätzen werden wieder neue Schritte generiert – bis eine Lösung gefunden ist.

Das wiederholt sich, bis das Modell eine zufriedenstellende Lösung hat.

ToT mit einem einzigen Prompt

In der Forschung wird ToT oft als komplexes System mit mehreren API-Calls implementiert. Aber du kannst die Kernidee in einem einzigen Prompt umsetzen. Hier ist das Grundmuster:

Aufgabe: [Deine Aufgabe]

Löse das Problem mit der Tree-of-Thought-Methode:

1. ERKUNDEN: Generiere 3 verschiedene Lösungsansätze.
   Beschreibe jeden kurz (2-3 Sätze).

2. BEWERTEN: Analysiere jeden Ansatz.
   Was sind die Stärken? Was sind die Schwächen?
   Wie wahrscheinlich ist Erfolg (1-10)?

3. VERTIEFEN: Wähle den besten Ansatz und arbeite
   ihn detailliert aus.

4. PRÜFEN: Überprüfe dein Ergebnis. Hättest du
   einen anderen Ansatz wählen sollen? Wenn ja, warum?

Das ist kein vollständiger ToT-Algorithmus, aber es fängt die Kernidee ein: Mehrere Wege erkunden, bewerten, den besten wählen.

Praxis-Beispiel 1: Strategische Entscheidung

Aufgabe:

Unser SaaS-Startup hat 500 zahlende Kunden (Durchschnittspreis
49 Euro/Monat). Das Wachstum stagniert bei 3% pro Monat.
Wir haben 200.000 Euro Runway. Was tun?

Löse das mit der Tree-of-Thought-Methode:

1. ERKUNDEN: Generiere 3 verschiedene Strategien
2. BEWERTEN: Analysiere jede Strategie (Stärken, Schwächen,
   Erfolgschancen, Risiko)
3. VERTIEFEN: Arbeite die beste Strategie aus
   (konkrete Schritte, Timeline, Budget)
4. PRÜFEN: Was könnte schiefgehen? Plan B?

Mögliches Ergebnis:

1. ERKUNDEN:

Strategie A – Growth Hacking:
Aggressives Marketing mit Fokus auf virale Mechanismen.
Referral-Programm, Content Marketing, Social Proof.
Ziel: Wachstumsrate auf 10%/Monat steigern.

Strategie B – Upmarket gehen:
Preiserhöhung und Enterprise-Features. Statt mehr Kunden
mehr Umsatz pro Kunde. Ziel: Durchschnittspreis auf
99 Euro/Monat steigern.

Strategie C – Nische dominieren:
Auf eine spezifische Branche fokussieren, dort der
unangefochtene Marktführer werden. Spezialisierte
Features, gezielte Partnerschaften.

2. BEWERTEN:

Strategie A:
+ Schnell sichtbare Ergebnisse
+ Bewährte Taktiken
- Teuer (bezahltes Marketing verbrennt Runway)
- Unsicher (Viralität ist nicht planbar)
- Churn könnte steigen (schnell gewonnene Kunden churnen oft)
Erfolgschance: 5/10

Strategie B:
+ Erhöht Umsatz ohne neue Kunden
+ Verbessert Unit Economics
- Risiko: bestehende Kunden könnten kündigen
- Enterprise-Sales sind lang und teuer
- Braucht Feature-Entwicklung
Erfolgschance: 6/10

Strategie C:
+ Klarer Differenzierungsvorteil
+ Höhere Conversion durch Spezialisierung
+ Word-of-mouth in Nischen ist stark
- Limitiert den adressierbaren Markt
- Braucht tiefes Branchenwissen
Erfolgschance: 7/10

3. VERTIEFEN: Strategie C

Monat 1-2: Analyse
- Bestehende Kunden analysieren: Welche Branche ist überrepräsentiert?
- 20 Kundeninterviews: Was fehlt euch?
- Wettbewerbsanalyse in dieser Nische
Budget: 10.000 Euro (Analyse-Tools, Interview-Incentives)

Monat 3-4: Spezialisierung
- 3-5 branchenspezifische Features entwickeln
- Landing Page für die Nische
- Case Studies mit bestehenden Kunden
Budget: 40.000 Euro (Entwicklung)

Monat 5-8: Go-to-Market
- Content Marketing für die Nische (Blog, Whitepaper)
- Branchenevents und Messen
- Partnerschaften mit Branchenverbänden
- Gezielte LinkedIn-Ads
Budget: 60.000 Euro (Marketing)

Monat 9-12: Skalieren
- Feedback einarbeiten
- Preisanpassung für den Nischenplan
- Zweite Nische evaluieren
Budget: 40.000 Euro

Reserve: 50.000 Euro

4. PRÜFEN:

Risiken:
- Die Nische ist zu klein → Plan B: Zweite Nische parallel testen
- Bestehende Kunden fühlen sich vernachlässigt → Lösung:
  Core-Produkt weiter pflegen, Nischen-Features sind Add-ons
- Wettbewerber kopiert die Strategie → Lösung: Schnell tief
  in die Nische eindringen, Switching Costs aufbauen

Sollte ich einen anderen Ansatz gewählt haben?
Strategie B (Upmarket) wäre der sicherere Weg. Aber bei
200.000 Euro Runway und 3% Wachstum brauchen wir einen
Hebel, nicht einen linearen Verbesserung. Nische dominieren
bietet diesen Hebel.

Siehst du den Unterschied zu einem normalen Prompt? Du bekommst nicht “eine” Empfehlung, sondern einen Überblick über die Optionen, eine begründete Wahl und einen konkreten Plan.

Praxis-Beispiel 2: Kreative Problemlösung

Ich möchte meiner Schwester zum 30. Geburtstag etwas
Besonderes schenken. Budget: 200 Euro. Sie mag Literatur,
Kochen und Wandern.

Löse das mit Tree-of-Thought:
1. Generiere 3 kreative Geschenkideen
2. Bewerte jede Idee (Originalität, Persönlichkeit,
   Budget-Passung, Machbarkeit)
3. Arbeite die beste Idee aus
4. Gibt es einen Haken, den ich übersehe?

Das Modell generiert drei sehr unterschiedliche Ideen, bewertet sie nach deinen Kriterien und arbeitet die beste im Detail aus. Das Ergebnis ist durchdachter als “Kauf einen Gutschein.”

Praxis-Beispiel 3: Technische Architektur

Wir müssen eine Benachrichtigungsfunktion für unsere App
bauen. Anforderungen:
- Push-Notifications (iOS + Android)
- E-Mail-Notifications
- In-App-Notifications
- User kann Benachrichtigungen individuell ein/ausschalten
- Max. 10.000 Notifications pro Minute

Architekturentscheidung mit Tree-of-Thought:
1. Generiere 3 Architektur-Ansätze
2. Bewerte jeden nach: Skalierbarkeit, Entwicklungsaufwand,
   Kosten, Wartbarkeit
3. Empfehle den besten Ansatz mit Begründung
4. Was sind die größten technischen Risiken?

Praxis-Beispiel 4: Verhandlungsstrategie

Ich verhandle nächste Woche mein Gehalt. Aktuelle Situation:
- 52.000 Euro brutto, seit 2 Jahren keine Erhöhung
- Ich habe ein wichtiges Projekt erfolgreich geleitet
- Marktüblich für meine Position: 58.000-65.000 Euro
- Mein Chef ist zahlenorientiert und eher sparsam

Entwickle eine Verhandlungsstrategie mit Tree-of-Thought:
1. Generiere 3 verschiedene Verhandlungsansätze
2. Bewerte jeden Ansatz (Erfolgschance, Risiko, Vorbereitung nötig)
3. Arbeite den besten aus (Eröffnung, Argumente, Antworten
   auf Einwände, Plan B)
4. Was ist der schlimmste realistische Ausgang und wie gehe
   ich damit um?

Der erweiterte ToT-Prompt

Für komplexere Aufgaben nutze ich eine erweiterte Version:

Aufgabe: [Deine Aufgabe]

Löse das mit einem strukturierten Tree-of-Thought-Prozess:

RUNDE 1 – BREITE EXPLORATION:
Generiere 4 grundlegend verschiedene Ansätze. Für jeden:
- Name des Ansatzes (2-3 Wörter)
- Kernidee (1 Satz)
- Größter Vorteil
- Größtes Risiko
- Bewertung: 1-10

RUNDE 2 – TOP 2 VERTIEFEN:
Nimm die zwei besten Ansätze und arbeite sie aus:
- Detaillierter Plan (5-7 Schritte)
- Benötigte Ressourcen
- Timeline
- Erfolgskriterien

RUNDE 3 – FINALE ENTSCHEIDUNG:
Vergleiche die beiden vertieften Ansätze direkt:
- Welcher ist robuster?
- Welcher hat das bessere Risiko-Rendite-Verhältnis?
- Entscheidung mit Begründung

RUNDE 4 – STRESSTEST:
- Was passiert, wenn die wichtigste Annahme falsch ist?
- Was ist der Worst Case?
- Wie passe ich den Plan an, wenn die ersten Ergebnisse
  enttäuschend sind?

Dieser Prompt erzwingt einen mehrstufigen Denkprozess, der dem echten ToT-Algorithmus nahekommt.

ToT für Alltagsentscheidungen

Du musst ToT nicht nur für große strategische Fragen nutzen. Hier sind Alltags-Beispiele:

Urlaubsplanung:

Ich habe 10 Tage Urlaub im September und 2.000 Euro Budget.
Ich mag Natur, gutes Essen und möchte nicht mehr als 4 Stunden
fliegen. Alleinreisend.

Tree-of-Thought:
1. Generiere 3 Reiseziele mit Kurzprofil
2. Bewerte nach: Kosten, Erreichbarkeit, Natur, Essen,
   Solo-Freundlichkeit
3. Arbeite das beste Ziel aus (Route, Unterkünfte, Highlights)

Produktkauf:

Ich brauche einen neuen Laptop. Budget: 1.200 Euro.
Nutzung: 50% Büroarbeit, 30% Programmieren, 20% Streaming.

Tree-of-Thought:
1. Schlage 3 Laptops vor (verschiedene Marken/Ansätze)
2. Vergleiche systematisch (Leistung, Display, Akku, Gewicht,
   Preis-Leistung)
3. Empfehlung mit Begründung

Wann ToT statt CoT?

Die Entscheidung ist einfacher, als du denkst:

Nutze CoT, wenn: - Es einen klaren Lösungsweg gibt - Du die Schritte kennst - Geschwindigkeit wichtig ist - Die Aufgabe analytisch ist

Nutze ToT, wenn: - Es mehrere mögliche Lösungswege gibt - Du unsicher bist, welcher Ansatz der beste ist - Du eine kreative oder strategische Entscheidung triffst - Du den Suchraum erkunden willst - Du Gründlichkeit über Geschwindigkeit stellst

Die Faustregel: Wenn du bei einer Aufgabe selbst sagen würdest “Hmm, da gibt es verschiedene Möglichkeiten…” – dann ist ToT die richtige Wahl.

Häufige Fehler bei ToT

Fehler 1: Zu ähnliche Ansätze

Ansatz 1: Social Media Marketing
Ansatz 2: Content Marketing
Ansatz 3: Influencer Marketing

Das sind keine “grundlegend verschiedenen” Ansätze – das sind drei Varianten derselben Idee. Sag dem Modell explizit: “Die Ansätze sollen sich grundlegend unterscheiden.”

Fehler 2: Bewertung ohne Kriterien

Wenn du sagst “bewerte die Ansätze”, bewertet das Modell nach eigenen Kriterien, die vielleicht nicht deine sind. Gib immer Bewertungskriterien vor.

Fehler 3: Zu viele Äste

Vier Ansätze sind meistens optimal. Bei drei fehlt manchmal die Breite. Bei fünf oder mehr wird es unübersichtlich und die Qualität der Bewertung sinkt.

Fehler 4: Keine Entscheidung erzwingen

Ohne explizite Aufforderung zur Entscheidung liefert das Modell oft “es kommt darauf an” – was nutzlos ist. Erzwinge eine Empfehlung: “Wähle EINEN Ansatz und begründe deine Wahl.”

ToT vs. “Gib mir 3 Optionen”

Du könntest fragen: “Was ist der Unterschied zwischen ToT und einfach ‘Gib mir 3 Optionen’?”

Der Unterschied liegt in der Bewertung und Vertiefung:

“Gib mir 3 Optionen”: - Erzeugt drei Ideen - Keine Analyse - Keine Empfehlung - Du musst selbst bewerten

ToT: - Erzeugt drei Ideen - Bewertet sie systematisch nach deinen Kriterien - Vertieft den besten Ansatz - Stresstestet die Lösung - Gibt eine begründete Empfehlung

Das ist der Unterschied zwischen “hier sind drei Optionen” und “hier sind drei Optionen, hier ist warum Option 2 am besten ist, hier ist der Plan, und hier ist, was schiefgehen kann.”


Übungen

Übung 1: ToT für eine persönliche Entscheidung

Wähle eine echte Entscheidung, die du gerade triffst (Karriere, Kauf, Hobby, etc.). Nutze den ToT-Grundprompt mit 3 Ansätzen. Hat der Prozess dir geholfen? War die Empfehlung des Modells überzeugend?

Übung 2: Erweiterter ToT

Nutze den erweiterten ToT-Prompt (4 Runden) für eine komplexe Aufgabe: “Wie sollte eine Stadt mit 100.000 Einwohnern den öffentlichen Nahverkehr in den nächsten 10 Jahren umgestalten?” Analysiere die Qualität: Waren die Ansätze wirklich verschieden? War die Bewertung fundiert?

Übung 3: CoT vs. ToT

Nimm folgende Aufgabe und löse sie einmal mit CoT und einmal mit ToT: “Ein Restaurant hat abends 80% Auslastung, mittags nur 30%. Was tun?” Vergleiche die Ergebnisse: Welcher Ansatz war nützlicher? Warum?

Übung 4: ToT-Prompt optimieren

Erstelle einen eigenen ToT-Prompt-Template für deinen Arbeitsbereich. Teste ihn mit 3 verschiedenen Aufgaben. Passe ihn an, bis er zuverlässig gute Ergebnisse liefert. Dokumentiere dein finales Template.

Kapitel 5: Self-Consistency – Die Macht der Mehrheit

Du kennst das: Du fragst das Modell etwas, bekommst eine Antwort. Dann stellst du dieselbe Frage nochmal – und bekommst eine andere Antwort. Welche stimmt?

Self-Consistency gibt dir die Antwort: Beide könnten stimmen. Aber wenn du zehnmal fragst und achtmal dieselbe Antwort bekommst, ist die wahrscheinlich richtig.

Die Idee

Self-Consistency (SC) wurde 2023 von Wang et al. in dem Paper “Self-Consistency Improves Chain of Thought Reasoning in Language Models” vorgestellt. Die Kernidee ist bestechend einfach:

  1. Stelle dieselbe Frage mehrfach (mit leicht unterschiedlicher Temperatur oder Formulierung)
  2. Lass das Modell jedes Mal mit Chain-of-Thought antworten
  3. Sammle alle Endantworten
  4. Nimm die häufigste Antwort (Majority Vote)

Das ist wie eine Jury-Abstimmung. Nicht jeder Geschworene hat recht, aber die Mehrheit meistens.

Warum funktioniert das?

LLMs sind probabilistisch. Bei jeder Antwort wählen sie aus einer Verteilung möglicher nächster Tokens. Das bedeutet: Dieselbe Frage kann unterschiedliche Denkwege und unterschiedliche Antworten produzieren.

Manche dieser Denkwege führen zum richtigen Ergebnis, manche nicht. Aber – und das ist der Schlüssel – der richtige Denkweg wird statistisch häufiger produziert als falsche. Wenn du also genug Samples nimmst, setzt sich die richtige Antwort durch.

Stell dir vor, du würfelst mit einem leicht gezinkten Würfel. Bei einem Wurf weißt du nicht, ob die 6 häufiger kommt. Bei hundert Würfen siehst du das Muster.

Self-Consistency manuell umsetzen

Du brauchst keine Programmierung für Self-Consistency. Du kannst es manuell machen:

Methode 1: Mehrfach fragen

Stell deine Frage 3-5 Mal in neuen Chat-Konversationen (nicht im selben Chat, denn dort beeinflusst die vorherige Antwort die nächste).

Frage (jedes Mal identisch):

Ein Zug fährt um 9:15 los. Die Fahrt dauert 2 Stunden
und 48 Minuten. Unterwegs hält er 3 Mal je 5 Minuten.
Wann kommt er an?

Denke Schritt für Schritt.

Durchlauf 1: “12:18” Durchlauf 2: “12:18” Durchlauf 3: “12:03” (hat die Halte vergessen) Durchlauf 4: “12:18” Durchlauf 5: “12:18”

Majority Vote: 12:18 (4 von 5). Richtig.

Methode 2: Variierte Formulierung

Statt dieselbe Frage wortwörtlich zu wiederholen, formulierst du sie leicht anders. Das erzeugt natürliche Variation.

Variante A: “Ein Zug startet um 9:15. Fahrzeit: 2h 48min. 3 Halte à 5 min. Ankunft?” Variante B: “Abfahrt 9:15 Uhr, 2 Stunden 48 Minuten Fahrt, plus 3 Zwischenhalte von jeweils 5 Minuten. Wann Ankunft?” Variante C: “Berechne die Ankunftszeit: Start 09:15, Reisedauer 168 Minuten, 3 Stopps zu je 5 Minuten.”

Wenn alle drei Varianten dieselbe Antwort geben, kannst du ziemlich sicher sein.

Methode 3: Temperatur variieren

Wenn du die API nutzt (oder ein Tool wie Playground), kannst du die Temperatur ändern: - Durchlauf 1: Temperatur 0.3 - Durchlauf 2: Temperatur 0.5 - Durchlauf 3: Temperatur 0.7

Niedrige Temperatur = deterministischer. Hohe Temperatur = kreativer/variabler. Verschiedene Temperaturen erzeugen verschiedene Denkwege.

Self-Consistency in einem einzigen Prompt

Du kannst Self-Consistency auch in einem einzigen Prompt simulieren:

Aufgabe: [Deine Aufgabe]

Löse diese Aufgabe 3 Mal mit unterschiedlichen Denkwegen.
Zeige jeden Denkweg separat.

Denkweg 1:
[Lass das Modell arbeiten]

Denkweg 2:
[Lass das Modell arbeiten]

Denkweg 3:
[Lass das Modell arbeiten]

Vergleich:
- Denkweg 1 ergibt: ___
- Denkweg 2 ergibt: ___
- Denkweg 3 ergibt: ___

Finale Antwort (Mehrheitsentscheidung): ___

Wichtig: Das ist eine Simulation, kein echtes Self-Consistency. Echtes SC braucht unabhängige Durchläufe. Im selben Prompt beeinflusst der erste Denkweg den zweiten. Trotzdem liefert auch die Simulation bessere Ergebnisse als ein einzelner Durchlauf.

Praxis-Beispiel 1: Komplexe Berechnung

Ein Freelancer verdient in Q1 2026:
- Januar: 4.200 Euro (3 Projekte)
- Februar: 3.800 Euro (2 Projekte + 1 Retainer von 800 Euro)
- März: 5.100 Euro (4 Projekte)

Seine monatlichen Fixkosten sind 1.900 Euro.
Er legt 25% des Gewinns (nach Fixkosten) für Steuern zurück.
Er möchte 500 Euro/Monat sparen.

Frage: Wie viel Geld hat er am Ende von Q1 frei verfügbar
(nach Fixkosten, Steuerrücklage und Sparen)?

Löse das auf 3 verschiedene Arten:

Methode 1 – Monatsweise:
[Berechne jeden Monat einzeln]

Methode 2 – Quartalsweise:
[Berechne alles für das gesamte Quartal]

Methode 3 – Von hinten (Gegenprobe):
[Starte mit dem Gesamtumsatz und ziehe alles ab]

Vergleiche die Ergebnisse. Stimmen sie überein?

Wenn alle drei Methoden dasselbe Ergebnis liefern, ist es mit hoher Wahrscheinlichkeit richtig. Wenn nicht, zeigen die Abweichungen, wo der Fehler liegt.

Praxis-Beispiel 2: Textinterpretation

Lies diesen Vertragsabschnitt:

"Der Auftragnehmer gewährt dem Auftraggeber ein nicht-exklusives,
zeitlich unbegrenztes Nutzungsrecht an den erstellten Werken.
Die Übertragung an Dritte bedarf der schriftlichen Zustimmung
des Auftragnehmers."

Frage: Darf der Auftraggeber die Werke auf seiner Website
veröffentlichen, ohne zu fragen?

Analysiere das aus 3 Perspektiven:

Perspektive 1 – Wörtliche Auslegung:
Was sagt der Text wortwörtlich?

Perspektive 2 – Juristische Auslegung:
Was bedeuten die Fachbegriffe genau?

Perspektive 3 – Praxisbezogene Auslegung:
Was würde ein Anwalt raten?

Vergleiche die drei Perspektiven.
Kommen sie zum selben Ergebnis?

Hier ist Self-Consistency besonders wertvoll, weil Textinterpretation subjektiv sein kann. Wenn alle drei Perspektiven übereinstimmen, hast du eine robuste Interpretation.

Praxis-Beispiel 3: Diagnose

Meine Website lädt langsam (8 Sekunden).
Stack: WordPress, Shared Hosting, 50 Plugins,
unkomprimierte Bilder, kein CDN.

Analysiere die Ursache aus 3 Blickwinkeln:

Blickwinkel 1 – Server-Seite:
Was auf dem Server könnte das Problem sein?

Blickwinkel 2 – Client-Seite:
Was im Browser könnte das Problem sein?

Blickwinkel 3 – Netzwerk:
Was auf dem Weg dazwischen könnte das Problem sein?

Erstelle eine priorisierte Liste der wahrscheinlichsten
Ursachen (kombiniert aus allen 3 Blickwinkeln).

Wann Self-Consistency nutzen?

SC ist ideal bei:

  • Berechnungen – Dreimal rechnen, dreimal dasselbe? Dann stimmt’s.
  • Textinterpretation – Verschiedene Lesarten, konsistentes Ergebnis.
  • Diagnosen – Verschiedene Ansätze führen zur selben Ursache.
  • Fakten-Fragen – “Wann war das?” – 3x dieselbe Antwort = wahrscheinlich richtig.
  • Entscheidungen unter Unsicherheit – Wenn du nicht sicher bist, ob die erste Antwort stimmt.

SC ist überflüssig bei:

  • Kreative Aufgaben – “Schreib mir ein Gedicht” dreimal → drei verschiedene Gedichte. Kein “richtiges”.
  • Meinungsbasierte Fragen – Keine objektive Mehrheit möglich.
  • Einfache Faktenfragen – “Hauptstadt von Frankreich?” braucht kein SC.
  • Formatierung – “Mach daraus eine Tabelle” hat nur ein korrektes Ergebnis.

Die Kostenfrage

Self-Consistency ist teuer. Drei Durchläufe kosten dreimal so viele Tokens. Bei API-Nutzung kann das ins Geld gehen.

Meine Faustregel: Nutze SC, wenn die Kosten eines Fehlers höher sind als die Kosten von 3x mehr Tokens.

  • Falsche Berechnung in einem Businessplan? → SC lohnt sich.
  • Falsche Formulierung in einer E-Mail? → SC ist Overkill.

Self-Consistency kombiniert mit anderen Techniken

SC + CoT (Standard)

[Frage] – Denke Schritt für Schritt.

3x ausführen → Majority Vote.

SC + ToT

[Frage] – Generiere 3 Ansätze, bewerte jeden.

3x ausführen → Prüfe, ob alle drei Durchläufe denselben Ansatz als besten wählen.

SC + Rollen

Durchlauf 1: "Du bist ein Finanzberater. [Frage]"
Durchlauf 2: "Du bist ein Wirtschaftsprüfer. [Frage]"
Durchlauf 3: "Du bist ein Steuerberater. [Frage]"

Verschiedene Rollen, selbe Frage → Wenn alle drei übereinstimmen, ist die Antwort robust.

Der Confidence Score

Eine Erweiterung, die ich oft nutze:

[Frage]

Denke Schritt für Schritt.
Am Ende: Gib deinen Confidence Score an (0-100%).
0% = rate nur. 100% = absolut sicher.

Wenn du das über mehrere Durchläufe machst: - Durchlauf 1: Antwort A, Confidence 85% - Durchlauf 2: Antwort A, Confidence 90% - Durchlauf 3: Antwort B, Confidence 45%

Dann weißt du: Antwort A ist wahrscheinlich richtig (2x gewählt, hohe Confidence). Antwort B war ein Ausreißer mit niedriger Confidence.

Häufige Fehler bei Self-Consistency

Fehler 1: Nicht genug Durchläufe

Zwei Durchläufe reichen nicht – bei 50/50 hast du keinen Tie-Breaker. Minimum: 3 Durchläufe. Ideal: 5 Durchläufe für höhere Sicherheit.

Fehler 2: Durchläufe im selben Chat

Im selben Chat-Verlauf beeinflusst die erste Antwort die zweite. Für echtes SC brauchst du unabhängige Konversationen.

Fehler 3: Nuance ignorieren

Majority Vote funktioniert nur bei Aufgaben mit klarer Antwort. Bei nuancierten Fragen kann es sein, dass alle drei Antworten leicht unterschiedlich, aber alle akzeptabel sind. Dann ist SC nicht das richtige Werkzeug.

Fehler 4: SC als Wahrheitsgarantie

Wenn alle drei Durchläufe falsch sind, hilft SC nicht. Das Modell kann konsistent halluzinieren. SC erhöht die Wahrscheinlichkeit einer richtigen Antwort, garantiert sie aber nicht.


Übungen

Übung 1: Manuelles Self-Consistency

Öffne 3 neue Chat-Konversationen mit deinem LLM. Stelle in jeder exakt dieselbe Frage:

“In einem Raum sind 5 Maschinen. Jede produziert 8 Teile pro Stunde. Maschine 3 hat 30% weniger Output wegen Wartung. Maschine 5 produziert doppelt so schnell. Wie viele Teile werden in 3 Stunden produziert? Denke Schritt für Schritt.”

Vergleiche die 3 Antworten. Stimmen sie überein?

Übung 2: Einzel-Prompt SC

Nutze den Einzel-Prompt-SC-Ansatz (3 Denkwege in einem Prompt) für eine Aufgabe deiner Wahl. Kommen die 3 Wege zum selben Ergebnis?

Übung 3: SC + Rollen

Teste die Rollen-Variante: Stelle eine fachliche Frage an 3 verschiedene “Experten-Rollen”. Vergleiche die Antworten. Wo stimmen sie überein, wo nicht?

Übung 4: Confidence Score kalibrieren

Stelle dem Modell 10 Faktenfragen, die du selbst beantworten kannst. Lass es jedes Mal einen Confidence Score geben. Dann prüfe: Korreliert der Score mit der Richtigkeit? Ab welchem Score ist das Modell zuverlässig?

Kapitel 6: ReAct – Denken UND Handeln

Bis hierhin haben wir Techniken gelernt, bei denen das Modell denkt. Chain-of-Thought, Tree-of-Thought, Self-Consistency – alles passiert im Kopf des Modells. Es analysiert, bewertet, schlussfolgert.

Aber was, wenn Denken allein nicht reicht?

Was, wenn das Modell Informationen braucht, die es nicht hat? Wenn es nachschlagen muss? Wenn es ein Werkzeug benutzen muss? Wenn es handeln muss?

Hier kommt ReAct ins Spiel.

Die Idee

ReAct steht für Reasoning + Acting. Das Paper von Yao et al. (2023) – ja, derselbe Yao, der auch Tree-of-Thought erfunden hat – kombinierte zwei Fähigkeiten, die vorher getrennt betrachtet wurden:

  1. Reasoning: Das Modell denkt nach (wie bei CoT)
  2. Acting: Das Modell führt Aktionen aus (suchen, berechnen, nachschlagen)

Der Ablauf ist ein Loop:

Gedanke → Aktion → Beobachtung → Gedanke → Aktion → Beobachtung → ... → Antwort

Das Modell denkt, handelt, schaut sich das Ergebnis an, denkt weiter, handelt wieder – bis es genug Informationen hat, um eine finale Antwort zu geben.

ReAct im Alltag

Du machst das selbst ständig. Wenn dich jemand fragt “Wie ist das Wetter morgen in München?”, durchläufst du einen ReAct-Prozess:

  1. Gedanke: “Ich weiß nicht, wie das Wetter morgen ist. Ich muss nachschauen.”
  2. Aktion: Du öffnest eine Wetter-App.
  3. Beobachtung: “Morgen: 18°C, bewölkt, 40% Regenwahrscheinlichkeit.”
  4. Gedanke: “OK, eher wechselhaft. Ich sollte einen Regenschirm empfehlen.”
  5. Antwort: “Morgen in München: 18 Grad, bewölkt. Nimm einen Schirm mit.”

Ohne die Aktion (Wetter-App checken) hättest du nur raten können. Das Handeln war nötig, um eine gute Antwort zu geben.

Das ReAct-Muster

Im Prompt sieht ReAct so aus:

Aufgabe: [Deine Aufgabe]

Nutze folgendes Format:

Gedanke 1: [Was du über das Problem denkst]
Aktion 1: [Was du tust, um mehr zu erfahren]
Beobachtung 1: [Was du durch die Aktion erfährst]

Gedanke 2: [Was du jetzt denkst, basierend auf der Beobachtung]
Aktion 2: [Nächster Schritt]
Beobachtung 2: [Was du erfährst]

...

Gedanke N: [Finale Schlussfolgerung]
Antwort: [Deine Antwort]

ReAct ohne Werkzeuge: Die Simulation

“Aber ich nutze die API nicht und mein Chatbot kann nicht im Internet suchen!” – kein Problem. Du kannst ReAct als Denkstruktur nutzen, auch wenn das Modell keine echten Aktionen ausführen kann.

Der Trick: Das Modell simuliert die Aktionen und Beobachtungen basierend auf seinem Wissen.

Beispiel: Reiseplanung

Ich möchte im Oktober 5 Tage nach Lissabon reisen.
Budget: 1.500 Euro. Direkt ab Frankfurt.

Plane die Reise im ReAct-Format:

Gedanke: Was muss ich zuerst klären?
Aktion: [Recherche/Überlegung]
Beobachtung: [Ergebnis]
... und so weiter, bis der Plan steht.

Mögliches Ergebnis:

Gedanke 1: Zuerst muss ich die Flugkosten klären,
da sie den größten Budgetposten ausmachen.
Aktion 1: Flugpreise Frankfurt-Lissabon im Oktober recherchieren.
Beobachtung 1: Direktflüge kosten typischerweise 120-200 Euro
(Hin+Rück) mit TAP oder Ryanair. Im Oktober ist Nebensaison,
also eher am unteren Ende: ~150 Euro.

Gedanke 2: Mit 150 Euro für Flüge bleiben 1.350 Euro für
Unterkunft, Essen, Aktivitäten und Transport. Jetzt Unterkunft klären.
Aktion 2: Unterkunftsoptionen in Lissabon für 5 Nächte recherchieren.
Beobachtung 2: Hotels im Zentrum (Baixa/Alfama): 80-120 Euro/Nacht.
Hostels: 30-50 Euro/Nacht. Airbnb: 60-90 Euro/Nacht.
Für Budget und Komfort: Airbnb in Alfama, ~70 Euro/Nacht = 350 Euro.

Gedanke 3: Flug 150 + Unterkunft 350 = 500 Euro.
Bleiben 1.000 Euro für Essen (5 Tage), Aktivitäten und Transport.
Das ist komfortabel. Jetzt den Tagesplan strukturieren.
Aktion 3: Top-Sehenswürdigkeiten und Aktivitäten auflisten.
Beobachtung 3: Belém (Turm + Pastéis de Belém), Alfama
(Castelo São Jorge), Sintra (Tagesausflug), LX Factory,
Tram 28, Oceanário. Sintra-Tagesausflug ~40 Euro (Zug + Eintritt).

Gedanke 4: Ich habe genug Information für einen konkreten
5-Tage-Plan.
Aktion 4: Tagesplan erstellen.
Beobachtung 4: [Detaillierter Plan für Tag 1-5]

Antwort: [Zusammengefasster Reiseplan mit Budget-Aufstellung]

Das Modell hat seine Recherche-Erfahrung aus den Trainingsdaten genutzt, um realistische Preise und Empfehlungen zu geben. Keine echte Internet-Suche, aber ein strukturierter Denkprozess, der deutlich besser ist als “Hier sind 10 Tipps für Lissabon.”

ReAct mit echten Werkzeugen

Wenn du Tools wie ChatGPT mit Browsing, Claude mit Artifacts oder Gemini mit Google Search nutzt, wird ReAct noch mächtiger. Das Modell kann dann echte Aktionen ausführen:

Werkzeuge, die LLMs nutzen können:

  • Web-Suche: Aktuelle Informationen nachschlagen
  • Code-Ausführung: Python, JavaScript etc. direkt ausführen
  • Rechner: Komplexe Berechnungen durchführen
  • Dateien lesen: PDFs, CSVs, Bilder analysieren
  • APIs aufrufen: Daten von externen Diensten abrufen

Beispiel mit Web-Suche:

Recherchiere: Welches Land hat 2025 die höchste
Lebensqualität und warum?

Nutze Web-Suche und das ReAct-Format.

Das Modell würde: 1. Gedanke: “Ich brauche aktuelle Rankings.” 2. Aktion: Suche nach “Quality of Life Index 2025” 3. Beobachtung: Ergebnisse auswerten 4. Gedanke: “Mehrere Rankings vergleichen für Robustheit” 5. Aktion: Zweite Suche mit anderem Ranking 6. Beobachtung: Vergleich der Ergebnisse 7. Antwort: Fundierte Antwort mit Quellen

ReAct-Prompts für verschiedene Aufgaben

Recherche-Aufgabe

Frage: [Deine Frage]

Beantworte die Frage mit dem ReAct-Ansatz:

Für jeden Schritt:
- DENKEN: Was weißt du? Was fehlt dir?
- HANDELN: Welche Information musst du suchen/berechnen?
- BEOBACHTEN: Was hast du herausgefunden?

Wiederhole, bis du genug Information hast.
Dann: Finale Antwort mit Begründung.

Problemlösung

Problem: [Beschreibung]

Löse das Problem im ReAct-Format:

DENKEN: Was ist das Problem genau? Was sind mögliche Ursachen?
HANDELN: Welchen Test/Check würdest du als Erstes machen?
BEOBACHTEN: Was wäre das wahrscheinliche Ergebnis?

Wiederhole, bis du die Ursache gefunden und eine Lösung hast.

Faktencheck

Behauptung: "[Zu prüfende Aussage]"

Überprüfe diese Behauptung im ReAct-Format:

DENKEN: Was genau wird behauptet? Welche Fakten müsste
ich prüfen?
HANDELN: Welche Quelle würde ich konsultieren?
BEOBACHTEN: Was sagt die Quelle?

Finale Bewertung: WAHR / FALSCH / TEILWEISE WAHR / NICHT PRÜFBAR
Begründung: [Warum?]

ReAct und KI-Agenten

ReAct ist die theoretische Grundlage für das, was heute als “KI-Agenten” gehypt wird. Ein KI-Agent ist im Kern ein LLM, das:

  1. Eine Aufgabe bekommt
  2. Darüber nachdenkt (Reasoning)
  3. Werkzeuge nutzt (Acting)
  4. Die Ergebnisse beobachtet (Observation)
  5. Weiterdenkt und weiterhandelt
  6. Bis die Aufgabe erledigt ist

Tools wie AutoGPT, LangChain Agents, Claude Computer Use und OpenAI Assistants implementieren genau dieses Muster.

Was KI-Agenten heute können:

  • E-Mails lesen und beantworten
  • Code schreiben und testen
  • Dokumente erstellen und formatieren
  • Daten aus verschiedenen Quellen zusammentragen
  • Web-Recherche durchführen
  • Termine planen

Warum das für dich relevant ist

Auch wenn du keine KI-Agenten programmierst: Das Verständnis von ReAct hilft dir, besser mit ihnen zu arbeiten. Wenn du einem Agenten eine Aufgabe gibst, formuliere sie so, dass der Agent klar weiß:

  • Was er denken soll (Ziel, Kontext, Einschränkungen)
  • Was er tun darf (Welche Werkzeuge, welche Aktionen)
  • Wann er stoppen soll (Erfolgskriterien)

Das ist Prompting für Agenten – und es funktioniert nach denselben Prinzipien wie alles, was du bisher gelernt hast.

Praxis-Beispiel: Komplexe Analyse

Aufgabe: Analysiere, ob es sich lohnt, eine Eigentumswohnung
in München zu kaufen oder weiter zu mieten.

Meine Situation:
- Miete aktuell: 1.200 Euro kalt
- Kaufpreis Wohnung: 450.000 Euro
- Eigenkapital: 100.000 Euro
- Einkommen: 5.500 Euro netto/Monat
- Zinssatz aktuell: 3,5%
- Geplante Nutzung: 15+ Jahre

Nutze ReAct:

DENKEN: Was muss ich zuerst berechnen/klären?
HANDELN: [Berechne/Recherchiere]
BEOBACHTEN: [Ergebnis]
... wiederhole bis zur Empfehlung.

Am Ende: Klare Empfehlung mit Begründung und
den wichtigsten Zahlen.

Das Modell würde schrittweise durchrechnen: Kreditrate, Nebenkosten, Opportunity Cost des Eigenkapitals, Wertsteigerung, Break-Even-Punkt. Jeder Schritt wird durch den vorherigen informiert.

Praxis-Beispiel: Fehlersuche

Problem: Meine React-App zeigt nach dem Login eine
leere Seite. Keine Fehlermeldung in der Konsole.

Debug das mit ReAct:

DENKEN: Was könnte eine leere Seite ohne Fehler verursachen?
HANDELN: Welchen Check mache ich zuerst?
BEOBACHTEN: [Erwartetes Ergebnis]

Arbeite dich systematisch zur Ursache vor.
DENKEN: Leere Seite ohne Fehler nach Login. Das deutet auf
ein Routing-Problem oder einen State-Management-Fehler hin.
Der Login funktioniert offenbar (kein Fehler), aber die
Weiterleitung oder das Rendering danach nicht.

HANDELN: Prüfe die Router-Konfiguration.
Gibt es eine Route für die Post-Login-Seite?
BEOBACHTEN: Ja, Route "/dashboard" existiert.

DENKEN: Route existiert. Wird nach dem Login auch
dorthin navigiert?
HANDELN: Prüfe den Login-Handler.
Wird navigate("/dashboard") aufgerufen?
BEOBACHTEN: Ja, navigate wird aufgerufen.

DENKEN: Navigation scheint korrekt. Wird die Dashboard-
Komponente gerendert?
HANDELN: Füge ein console.log in die Dashboard-Komponente ein.
BEOBACHTEN: console.log erscheint NICHT.

DENKEN: Die Komponente wird nicht gerendert, obwohl die
Route existiert. Ist die Route möglicherweise durch eine
Auth-Guard geschützt, die den State noch nicht hat?
HANDELN: Prüfe die ProtectedRoute-Komponente.
BEOBACHTEN: ProtectedRoute prüft "isAuthenticated" aus dem
Redux Store. Der Login setzt den Token im localStorage,
aber updated den Redux Store erst nach einem Re-Render.

DENKEN: Race Condition! Der Login speichert den Token,
navigiert sofort, aber der Auth-State im Redux ist noch false.
Die ProtectedRoute blockt und rendert nichts (statt zu redirecten).

ANTWORT: Race Condition zwischen Token-Speicherung und
Auth-State-Update. Fix: Im Login-Handler erst den Redux
Store updaten, DANN navigieren. Oder: ProtectedRoute soll
auch localStorage prüfen als Fallback.

Das ist systematisches Debugging, wie es ein erfahrener Entwickler machen würde. ReAct zwingt das Modell zu diesem strukturierten Ansatz.

ReAct Best Practices

1. Klare Aktion-Typen definieren

Sag dem Modell, welche Arten von Aktionen es zur Verfügung hat:

Verfügbare Aktionen:
- SUCHE: Information nachschlagen
- BERECHNE: Mathematische Berechnung durchführen
- PRÜFE: Eine Annahme überprüfen
- VERGLEICHE: Zwei Optionen gegenüberstellen

2. Beobachtungen realistisch halten

In der Simulation kann das Modell dazu neigen, die “perfekte” Beobachtung zu erfinden. Fordere Realismus:

Deine Beobachtungen sollen realistisch sein. Nicht jede
Suche liefert sofort die perfekte Antwort.

3. Loop-Limit setzen

Ohne Limit kann das Modell endlos im Kreis denken:

Maximal 5 Denken-Handeln-Beobachten-Zyklen.
Dann: Beste verfügbare Antwort.

4. Abbruchbedingung definieren

Stoppe, wenn:
- Du genug Information für eine fundierte Antwort hast
- Du dieselbe Information zum zweiten Mal suchst
- Der nächste Schritt keinen Mehrwert bringen würde

ReAct vs. Chain-of-Thought

CoT ReAct
Nur Denken Denken + Handeln
Nutzt vorhandenes Wissen Kann neues Wissen beschaffen
Ein Durchlauf Iterativer Loop
Schneller Gründlicher
Gut für geschlossene Fragen Gut für offene Recherche
Alle Infos im Prompt Infos werden unterwegs gesammelt

Die Faustregel: Wenn das Modell alle Informationen hat, die es braucht → CoT. Wenn es zusätzliche Informationen braucht → ReAct.

Häufige Fehler bei ReAct

Fehler 1: Aktionen ohne Mehrwert

Das Modell “handelt”, aber die Aktion bringt keine neue Information:

HANDELN: Nochmal über das Problem nachdenken.

Das ist keine Aktion, das ist Denken. Eine Aktion muss neue Information produzieren.

Fehler 2: Zu lange Loops

Das Modell dreht sich im Kreis und sucht immer weiter, obwohl es schon genug weiß. Setze ein Loop-Limit.

Fehler 3: ReAct für einfache Aufgaben

“Was ist 5 + 3?” braucht keinen ReAct-Loop. Das ist mit direkter Antwort besser bedient.

Fehler 4: Simulation mit Fakten verwechseln

In der simulierten Variante “erfindet” das Modell die Beobachtungen aus seinem Trainingswissen. Das ist nützlich für Planung und Strukturierung, aber nicht für Faktenfragen. Für echte Fakten brauchst du echte Werkzeuge.


Übungen

Übung 1: ReAct-Recherche

Nutze den ReAct-Ansatz für eine Recherche-Frage: “Welches Programmiersprache sollte ein Anfänger 2026 als Erstes lernen?” Führe mindestens 3 Denken-Handeln-Beobachten-Zyklen durch.

Übung 2: ReAct-Debugging

Beschreibe ein technisches Problem, das du kürzlich hattest (oder erfinde eins). Lass das Modell es mit ReAct debuggen. War der Prozess systematischer als eine direkte Frage?

Übung 3: ReAct mit Werkzeugen

Wenn du Zugang zu einem LLM mit Web-Suche hast (ChatGPT Plus, Gemini, Perplexity): Stelle eine aktuelle Frage im ReAct-Format. Vergleiche: Nutzt das Modell die Web-Suche systematischer, wenn du den ReAct-Prompt nutzt?

Übung 4: Agent-Prompt schreiben

Schreib einen Prompt, der ein LLM als “Recherche-Agent” für ein Thema deiner Wahl einsetzt. Der Agent soll: - 3 verschiedene Aspekte recherchieren - Seine Quellen bewerten - Eine Zusammenfassung mit Quellenbewertung liefern

Kapitel 7: Meta-Prompting – Prompts, die Prompts verbessern

Stell dir vor, du könntest einem Koch sagen: “Bewerte dein eigenes Rezept und verbessere es.” Genau das macht Meta-Prompting – nur mit Prompts.

Die Idee

Meta-Prompting ist Prompting auf einer höheren Ebene. Statt dem Modell eine Aufgabe zu geben, gibst du ihm die Aufgabe, seinen eigenen Prompt (oder seine eigene Antwort) zu analysieren und zu verbessern.

Das klingt nach Zirkelschluss, funktioniert aber erstaunlich gut. LLMs sind oft besser darin, die Qualität eines Textes zu bewerten, als ihn beim ersten Versuch perfekt zu schreiben. Diese Asymmetrie nutzt Meta-Prompting aus.

Die drei Formen von Meta-Prompting

Form 1: Prompt-Optimierung

Das Modell verbessert deinen Prompt, bevor es ihn ausführt.

Form 2: Antwort-Verbesserung

Das Modell bewertet seine eigene Antwort und liefert eine bessere Version.

Form 3: Aufgaben-Dekomposition

Das Modell zerlegt eine komplexe Aufgabe in Unteraufgaben und bearbeitet jede einzeln.

Form 1: Prompt-Optimierung

Du gibst dem Modell deinen Prompt und bittest es, den Prompt zuerst zu verbessern.

Das Grundmuster

Ich möchte folgenden Prompt an ein LLM schicken:

"""
[Dein Original-Prompt]
"""

Bevor du den Prompt ausführst:
1. Analysiere den Prompt: Was ist gut? Was fehlt?
   Was ist unklar?
2. Schreibe eine verbesserte Version des Prompts
3. Erkläre, was du geändert hast und warum
4. Führe dann den verbesserten Prompt aus

Beispiel

Ich möchte folgenden Prompt an ein LLM schicken:

"""
Schreib mir was über gesunde Ernährung.
"""

Bevor du den Prompt ausführst:
1. Analysiere den Prompt: Was ist gut? Was fehlt?
2. Schreibe eine verbesserte Version
3. Erkläre die Änderungen
4. Führe den verbesserten Prompt aus

Mögliches Ergebnis:

ANALYSE:
- Zu vage: Was genau über gesunde Ernährung?
- Keine Zielgruppe: Für wen? Sportler? Büroarbeiter? Kinder?
- Kein Format: Artikel? Liste? Ernährungsplan?
- Keine Länge: 100 Wörter? 1.000 Wörter?
- Kein Ton: Wissenschaftlich? Locker? Motivierend?

VERBESSERTER PROMPT:
"Schreib einen lockeren, motivierenden Blogartikel (ca. 600 Wörter)
über gesunde Ernährung für Büroarbeiter, die wenig Zeit zum Kochen
haben. Fokus auf: Meal Prep, schnelle Rezepte, gesunde Snacks
fürs Büro. Vermeide Diät-Dogmen und belehrenden Ton. Duze den Leser."

ÄNDERUNGEN:
1. Zielgruppe ergänzt (Büroarbeiter)
2. Format definiert (Blogartikel, 600 Wörter)
3. Ton festgelegt (locker, motivierend)
4. Fokus eingeschränkt (3 konkrete Themen)
5. Negative Anweisung ergänzt (kein belehrender Ton)

AUSFÜHRUNG:
[Der Artikel basierend auf dem verbesserten Prompt]

Siehst du, was passiert ist? Das Modell hat alle Schwächen deines Prompts erkannt und behoben – genau die Dinge, die wir in Band 1 und 2 gelernt haben (Bausteine, Kontext, Ton). Das Modell kennt die Best Practices und kann sie auf deinen Prompt anwenden.

Form 2: Antwort-Verbesserung

Das Modell gibt eine Antwort, reflektiert darüber und verbessert sie.

Einzel-Prompt-Methode

Aufgabe: [Deine Aufgabe]

Gib zuerst eine Antwort (Entwurf).
Dann bewerte deinen eigenen Entwurf:
- Was ist gut?
- Was fehlt?
- Was könnte besser sein?
Dann: Gib eine verbesserte Finalversion.

Zwei-Prompt-Methode

Prompt 1:

[Deine Aufgabe]

→ Modell gibt Antwort.

Prompt 2:

Hier ist deine vorherige Antwort:
"""
[Antwort einfügen]
"""

Bewerte sie kritisch:
1. Ist sie vollständig?
2. Ist sie korrekt?
3. Ist sie gut strukturiert?
4. Was würdest du ändern?

Dann: Schreibe eine verbesserte Version.

Die Zwei-Prompt-Methode ist aufwendiger, aber oft besser, weil der zweite Prompt mit frischen “Augen” auf die Antwort schaut.

Beispiel: E-Mail verbessern

Prompt 1:

Schreib eine E-Mail an meinen Vermieter. Ich möchte eine
Mietminderung, weil seit 3 Wochen die Heizung im Wohnzimmer
nicht funktioniert. Ich habe am 1.3. den Mangel gemeldet.

Prompt 2:

Bewerte diese E-Mail:

"""
[Die generierte E-Mail]
"""

Prüfe:
1. Ist der Ton angemessen? (sachlich, aber bestimmt)
2. Sind alle rechtlich relevanten Punkte enthalten?
   (Mangelmeldung, Frist, Minderungsquote)
3. Fehlen wichtige Informationen?
4. Ist die Struktur klar?

Schreibe eine verbesserte Version.

Form 3: Aufgaben-Dekomposition

Das Modell zerlegt eine komplexe Aufgabe selbst in Teilaufgaben.

Das Grundmuster

Aufgabe: [Komplexe Aufgabe]

Bevor du anfängst:
1. Zerlege diese Aufgabe in 3-5 Teilaufgaben
2. Sortiere sie in die richtige Reihenfolge
3. Bearbeite dann jede Teilaufgabe einzeln
4. Fasse am Ende alles zusammen

Beispiel

Aufgabe: Erstelle ein Konzept für einen Online-Kurs
zum Thema "Persönliche Finanzen für Berufseinsteiger".

Bevor du anfängst:
1. Zerlege das in die nötigen Teilaufgaben
2. Ordne sie logisch
3. Bearbeite jede einzeln
4. Fasse am Ende zusammen

Mögliches Ergebnis:

TEILAUFGABEN:
1. Zielgruppe definieren (Wer? Welches Wissen? Welche Probleme?)
2. Lernziele formulieren (Was können die Teilnehmer danach?)
3. Curriculum entwickeln (Module, Reihenfolge, Inhalte)
4. Format und Didaktik festlegen (Video, Text, Übungen)
5. Marktpositionierung (USP, Preis, Vergleich mit Konkurrenz)

TEILAUFGABE 1: Zielgruppe...
[Ausführliche Bearbeitung]

TEILAUFGABE 2: Lernziele...
[Ausführliche Bearbeitung]

...

ZUSAMMENFASSUNG:
[Kompaktes Gesamtkonzept]

Das Modell hat die Aufgabe besser zerlegt, als die meisten Menschen es tun würden. Es hat die Teilaufgaben in einer logischen Reihenfolge sortiert (Zielgruppe vor Curriculum, weil das Curriculum von der Zielgruppe abhängt).

Der Meta-Prompt-Generator

Mein Lieblings-Meta-Prompt. Er macht aus jeder vagen Idee einen scharfen Prompt:

Ich habe folgende Aufgabe, bin mir aber nicht sicher,
wie ich sie als Prompt formulieren soll:

"""
[Deine vage Aufgabe/Idee]
"""

Erstelle einen optimalen Prompt für diese Aufgabe.
Der Prompt soll enthalten:
- Klare Rolle (wer soll das Modell sein?)
- Präzise Aufgabe (was genau soll es tun?)
- Kontext (was muss es wissen?)
- Format (wie soll die Antwort aussehen?)
- Einschränkungen (was soll es NICHT tun?)

Zeige mir den fertigen Prompt, den ich direkt
kopieren und verwenden kann.

Beispiel

Input:

Ich habe folgende Aufgabe, bin mir aber nicht sicher,
wie ich sie als Prompt formulieren soll:

"""
Ich will irgendwas mit Newsletter machen
"""

Erstelle einen optimalen Prompt für diese Aufgabe.

Output:

GENERIERTER PROMPT:

Du bist ein erfahrener Content-Stratege mit Fokus auf
E-Mail-Marketing.

Entwickle ein Newsletter-Konzept mit folgenden Punkten:

1. ZIELGRUPPE: Für wen ist der Newsletter? (Ich brauche
   hier noch Input von dir – beantworte: Was ist dein
   Thema/deine Branche?)

2. STRATEGIE:
   - Frequenz (wöchentlich/zweiwöchentlich/monatlich)
   - Inhaltsmix (Formate, Rubriken)
   - Ziel (Traffic, Sales, Branding?)

3. ERSTE 5 AUSGABEN:
   - Betreffzeile
   - Inhaltsskizze (3-4 Bullet Points)
   - Call-to-Action

4. WACHSTUMSSTRATEGIE:
   - Wie gewinne ich die ersten 100 Subscriber?
   - Welche Tools brauche ich?

Format: Strukturiert mit Überschriften.
Ton: Praxisnah, keine Marketing-Floskeln.

Aus “irgendwas mit Newsletter” wurde ein professioneller, strukturierter Prompt. Das ist die Magie von Meta-Prompting.

Fortgeschrittene Meta-Techniken

Technik 1: Iteratives Meta-Prompting

Drei Runden Verbesserung:

Runde 1: Beantworte die Aufgabe (Entwurf 1)
Runde 2: Kritisiere Entwurf 1 und erstelle Entwurf 2
Runde 3: Kritisiere Entwurf 2 und erstelle die finale Version

Aufgabe: [Deine Aufgabe]

Jede Runde verbessert die vorherige. Diminishing Returns setzen typischerweise nach 2-3 Runden ein.

Technik 2: Perspektiv-Meta-Prompting

Aufgabe: [Deine Aufgabe]

Schritt 1: Beantworte die Aufgabe
Schritt 2: Lass einen Kritiker die Antwort bewerten
Schritt 3: Lass einen Praktiker Verbesserungen vorschlagen
Schritt 4: Schreibe die finale Version unter
Berücksichtigung beider Feedbacks

Technik 3: Socratic Meta-Prompting

Das Modell stellt sich selbst Fragen:

Aufgabe: [Deine Aufgabe]

Bevor du antwortest:
1. Stelle 5 klärende Fragen, die du bräuchtest,
   um die beste Antwort zu geben
2. Beantworte die Fragen selbst (basierend auf
   dem verfügbaren Kontext)
3. Dann: Gib die Antwort, die diese Klärung berücksichtigt

Technik 4: Adversarial Meta-Prompting

Das Modell argumentiert gegen sich selbst:

Aufgabe: [Deine Aufgabe/These/Empfehlung]

Phase 1: Verteidige die Position (stärkste Argumente dafür)
Phase 2: Greife die Position an (stärkste Argumente dagegen)
Phase 3: Synthese (was bleibt nach beiden Runden?)
Phase 4: Finale Einschätzung

Das ist besonders wertvoll für Entscheidungsfindung und Meinungsbildung.

Meta-Prompting im Arbeitsalltag

Template-Erstellung

Ich brauche ein Prompt-Template für folgende wiederkehrende
Aufgabe: [Beschreibe die Aufgabe]

Erstelle ein Template mit Platzhaltern [IN GROSSBUCHSTABEN],
das ich jedes Mal nur ausfüllen muss.
Optimiere das Template für maximale Ergebnisqualität.
Erkläre, warum du jeden Teil so formuliert hast.

Meeting-Vor- und Nachbereitung

Ich habe in 1 Stunde ein Meeting zum Thema "[THEMA]".
Teilnehmer: [LISTE].
Mein Ziel: [WAS ICH ERREICHEN WILL].

Bevor du mir Tipps gibst:
1. Welche Fragen sollte ICH mir stellen, um gut vorbereitet zu sein?
2. Beantworte diese Fragen basierend auf meinem Kontext
3. Dann: Gib mir einen konkreten Plan für das Meeting

Präsentationsstruktur

Ich muss eine 15-minütige Präsentation halten:
Thema: [THEMA]
Zielgruppe: [WER HÖRT ZU]
Ziel: [WAS SOLL DAS PUBLIKUM DANACH DENKEN/TUN]

Bevor du die Struktur erstellst:
1. Was sind die 3 häufigsten Fehler bei Präsentationen
   zu diesem Thema?
2. Wie vermeide ich sie?
3. Dann: Erstelle die Präsentationsstruktur

Wann Meta-Prompting nutzen?

Ideal bei:

  • Ersten Entwürfen – Wenn du weißt, dass der erste Versuch nicht perfekt sein wird
  • Wichtigen Dokumenten – E-Mails an den Chef, Bewerbungen, Verträge
  • Komplexen Aufgaben – Wenn du nicht sicher bist, ob du alles bedacht hast
  • Prompt-Entwicklung – Wenn du Prompts für wiederkehrende Aufgaben baust
  • Kreativ-Iterationen – Texte, Konzepte, Strategien verbessern

Nicht nötig bei:

  • Einfachen, klaren Aufgaben – “Übersetze X” braucht kein Meta-Prompting
  • Zeitkritischen Aufgaben – Meta-Prompting kostet Zeit und Tokens
  • Faktenfragen – “Wann wurde X gegründet?” profitiert nicht von Meta-Reflexion

Häufige Fehler

Fehler 1: Endlose Iterationsschleifen

Verbessere die Antwort.
→ Jetzt verbessere diese Verbesserung.
→ Und jetzt verbessere das nochmal.
→ ...

Nach 2-3 Runden sinkt der Mehrwert. Manchmal wird es sogar schlechter (Over-Editing). Setze ein Limit.

Fehler 2: Unkritische Selbstbewertung

Das Modell neigt dazu, seine eigene Arbeit zu mild zu bewerten:

"Mein Entwurf ist insgesamt gut, nur kleine Verbesserungen nötig."

Gegenmaßnahme: Fordere harte Kritik explizit:

Sei ein strenger Kritiker. Finde mindestens 3 echte Schwächen.
Keine Schmeicheleien.

Fehler 3: Form über Inhalt

Meta-Prompting kann dazu führen, dass die Antwort “polierter” wird, ohne inhaltlich besser zu sein. Achte auf Substanz, nicht nur auf Stil.


Übungen

Übung 1: Meta-Prompt-Generator

Nimm 3 vage Aufgaben aus deinem Alltag und füttere sie durch den Meta-Prompt-Generator. Vergleiche die generierten Prompts mit dem, was du selbst geschrieben hättest. Was ist besser?

Übung 2: Dreifach-Iteration

Wähle eine wichtige Schreibaufgabe (z.B. Bewerbungsanschreiben, Projektvorschlag). Nutze das iterative Meta-Prompting (3 Runden). Vergleiche Entwurf 1 mit der Finalversion. Wie viel besser ist die Finalversion?

Übung 3: Adversarial Meta-Prompting

Teste eine kontroverse These mit der Adversarial-Technik: “Remote-Arbeit ist produktiver als Büroarbeit.” Hat die Synthese (Phase 3) deine Meinung verändert?

Übung 4: Socratic Meta-Prompting

Nutze die Socratic-Technik für eine Entscheidung, die du gerade triffst. Welche Fragen hat das Modell sich gestellt, die du selbst nicht gestellt hättest?

Kapitel 8: Reflexion und Selbstkorrektur – Das Modell als eigener Lektor

Im letzten Kapitel hast du Meta-Prompting kennengelernt: Prompts, die Prompts verbessern. Dieses Kapitel geht einen Schritt weiter. Hier bringst du das Modell dazu, seine eigene Arbeit systematisch zu überprüfen und Fehler zu korrigieren.

Der Unterschied zu Meta-Prompting: Meta-Prompting verbessert die Qualität. Reflexion korrigiert Fehler.

Die Idee

Reflexion in LLMs basiert auf einer einfachen Beobachtung: Modelle sind besser darin, Fehler in einem Text zu finden, als einen fehlerfreien Text beim ersten Versuch zu schreiben.

Das kennst du von dir selbst. Wenn du einen Text schreibst, übersiehst du Tippfehler und logische Lücken. Wenn du denselben Text eine Stunde später nochmal liest, springt dich jeder Fehler an. Die “Betriebsblindheit” der Erstellung weicht dem frischen Blick der Prüfung.

Bei LLMs funktioniert das ähnlich. In der Generierungsphase fokussiert sich das Modell auf den nächsten Token. In der Reflexionsphase kann es den gesamten Text überblicken und Inkonsistenzen erkennen.

Das Reflexion-Framework

Das Paper “Reflexion: Language Agents with Verbal Reinforcement Learning” (Shinn et al., 2023) formalisierte den Ansatz:

  1. Generieren: Das Modell produziert eine Antwort
  2. Bewerten: Die Antwort wird gegen Kriterien geprüft
  3. Reflektieren: Das Modell analysiert, was falsch war
  4. Verbessern: Das Modell erstellt eine korrigierte Version

Dieser Zyklus kann mehrfach durchlaufen werden, bis die Antwort die Qualitätskriterien erfüllt.

Reflexion in einem einzigen Prompt

Das Grundmuster

Aufgabe: [Deine Aufgabe]

Schritt 1 – ENTWURF:
Beantworte die Aufgabe.

Schritt 2 – PRÜFUNG:
Prüfe deinen Entwurf auf:
- Sachliche Fehler
- Logische Lücken
- Fehlende wichtige Punkte
- Widersprüche
- Unklare Formulierungen

Schritt 3 – KORREKTUR:
Erstelle eine korrigierte Version, die alle gefundenen
Probleme behebt. Markiere, was du geändert hast.

Beispiel: Sachtext

Aufgabe: Erkläre, wie Photosynthese funktioniert.
Zielgruppe: 15-Jährige.

Schritt 1 – ENTWURF:
[Modell schreibt Erklärung]

Schritt 2 – PRÜFUNG:
Prüfe auf: Sachliche Korrektheit, Verständlichkeit
für 15-Jährige, Vollständigkeit.

Schritt 3 – KORREKTUR:
[Modell korrigiert und verbessert]

Was typischerweise passiert: - Entwurf: Verwendet Fachbegriffe wie “Thylakoid-Membran” ohne Erklärung - Prüfung: “Für 15-Jährige zu komplex. Thylakoid-Membran nicht erklärt.” - Korrektur: Ersetzt Fachbegriffe durch Alltagssprache, fügt Analogien hinzu

Gezielte Reflexions-Checklisten

Die allgemeine Prüfung (“Ist das gut?”) liefert vage Ergebnisse. Besser: Spezifische Checklisten.

Für Texte

Prüfe den Text auf folgende Punkte:

□ FAKTEN: Sind alle Behauptungen korrekt? Welche kann
  ich nicht verifizieren?
□ LOGIK: Folgt die Argumentation? Gibt es Sprünge?
□ VOLLSTÄNDIGKEIT: Fehlt ein wichtiger Aspekt?
□ WIDERSPRÜCHE: Widerspricht sich der Text irgendwo?
□ TON: Passt der Ton zur Zielgruppe?
□ LÄNGE: Ist die Länge angemessen? Zu lang? Zu kurz?
□ STRUKTUR: Ist die Reihenfolge sinnvoll?

Für jedes Problem: Beschreibe es und schlage einen Fix vor.

Für Code

Prüfe den Code auf:

□ KORREKTHEIT: Tut er, was er soll?
□ EDGE CASES: Was passiert bei leeren Eingaben, Null-Werten,
  sehr großen Zahlen?
□ FEHLERBEHANDLUNG: Werden Fehler sinnvoll abgefangen?
□ PERFORMANCE: Gibt es offensichtliche Performance-Probleme?
□ SICHERHEIT: Gibt es Injection-Risiken oder andere
  Sicherheitslücken?
□ LESBARKEIT: Versteht ein anderer Entwickler den Code?

Für jedes Problem: Erkläre es und zeige den Fix.

Für Analysen

Prüfe die Analyse auf:

□ ANNAHMEN: Welche Annahmen wurden gemacht?
  Sind sie gerechtfertigt?
□ DATEN: Basiert die Analyse auf korrekten Daten?
□ KAUSALITÄT VS. KORRELATION: Werden Zusammenhänge
  als Ursache-Wirkung dargestellt, die keine sind?
□ GEGENARGUMENTE: Wurden Gegenargumente berücksichtigt?
□ BIAS: Ist die Analyse einseitig?
□ SCHLUSSFOLGERUNG: Folgt die Schlussfolgerung logisch
  aus der Analyse?

Selbstkorrektur in der Praxis

Praxis-Beispiel 1: Vertragsprüfung

Prüfe folgenden Vertragsentwurf für einen Freelancer-Auftrag:

"""
[Vertragstext]
"""

Phase 1 – ERSTE EINSCHÄTZUNG:
Ist der Vertrag grundsätzlich fair und vollständig?

Phase 2 – DETAILPRÜFUNG:
Prüfe Klausel für Klausel:
- Ist sie klar formuliert?
- Fehlen wichtige Regelungen?
- Gibt es Fallstricke für den Freelancer?
- Gibt es Fallstricke für den Auftraggeber?

Phase 3 – VERBESSERUNGSVORSCHLÄGE:
Für jedes gefundene Problem: Schlage eine
verbesserte Formulierung vor.

Phase 4 – ZUSAMMENFASSUNG:
Top 3 der wichtigsten Änderungen.

Praxis-Beispiel 2: Business-Idee validieren

Bewerte folgende Geschäftsidee:

"[Deine Geschäftsidee]"

Runde 1 – ENTHUSIAST:
Beschreibe die Idee so positiv wie möglich.
Was sind die größten Chancen?

Runde 2 – SKEPTIKER:
Hinterfrage alles. Was sind die größten Risiken?
Warum könnte die Idee scheitern?

Runde 3 – REALITÄTSCHECK:
Prüfe, ob der Enthusiast die Risiken unterschätzt hat.
Prüfe, ob der Skeptiker die Chancen ignoriert hat.

Runde 4 – FINALE BEWERTUNG:
Basierend auf allen drei Perspektiven:
Bewertung auf einer Skala von 1-10 mit Begründung.
Nenne die 3 wichtigsten Dinge, die du zuerst klären
würdest, bevor du investierst.

Praxis-Beispiel 3: Bewerbungsanschreiben

Schreibe ein Bewerbungsanschreiben für folgende Stelle:

Stelle: [Stellenbeschreibung]
Mein Profil: [Kurzprofil]

ENTWURF:
[Modell schreibt Anschreiben]

SELBSTKORREKTUR:
Lies das Anschreiben nochmal und prüfe:
1. Geht es konkret auf die Stellenanforderungen ein?
   (Nicht nur allgemeine Phrasen)
2. Zeigt es echten Mehrwert für das Unternehmen?
3. Klingt es nach einer echten Person oder nach
   einem KI-Template?
4. Ist der erste Satz so interessant, dass man weiterliest?
5. Ist der letzte Satz ein konkreter Call-to-Action?

FINALE VERSION:
[Korrigiertes Anschreiben]

Die Chain-of-Verification (CoVe)

Eine spezielle Reflexionstechnik, die sich auf Faktentreue konzentriert:

Aufgabe: [Deine Frage/Aufgabe]

Schritt 1: Beantworte die Frage.

Schritt 2: Extrahiere aus deiner Antwort alle
faktischen Behauptungen (einzeln auflisten).

Schritt 3: Überprüfe jede Behauptung einzeln:
- Behauptung: [X]
  Korrekt? JA / NEIN / UNSICHER
  Falls NEIN/UNSICHER: Korrektur

Schritt 4: Erstelle eine korrigierte Antwort,
die nur verifizierte Fakten enthält. Kennzeichne
unsichere Angaben als solche.

Beispiel

Erzähle mir über die Geschichte von Spotify.

Schritt 1: ANTWORT:
Spotify wurde 2006 von Daniel Ek und Martin Lorentzon
in Stockholm gegründet. Der Dienst ging 2008 in Europa
an den Start. 2011 expandierte Spotify in die USA.
2018 ging das Unternehmen an die Börse (NYSE). Heute
hat Spotify über 600 Millionen Nutzer.

Schritt 2: BEHAUPTUNGEN:
1. Gründung 2006
2. Gründer: Daniel Ek und Martin Lorentzon
3. Ort: Stockholm
4. Europastart: 2008
5. USA-Expansion: 2011
6. Börsengang: 2018 (NYSE)
7. Über 600 Millionen Nutzer

Schritt 3: VERIFIKATION:
1. Gründung 2006 → KORREKT
2. Daniel Ek und Martin Lorentzon → KORREKT
3. Stockholm → KORREKT
4. Europastart 2008 → KORREKT
5. USA-Expansion 2011 → KORREKT
6. Börsengang 2018 → KORREKT, aber NYSE stimmt nicht.
   Korrektur: Spotify ging an die NYSE als Direct Listing.
   Tatsächlich war es die NYSE – also doch korrekt.
7. 600+ Millionen Nutzer → UNSICHER. Stand meines Wissens
   hatte Spotify Anfang 2024 rund 615 Millionen Nutzer.
   Aktuellere Zahlen habe ich nicht.

Schritt 4: KORRIGIERTE ANTWORT:
[Antwort mit Unsicherheitsmarkierung bei Nutzerzahl]

CoVe ist besonders wertvoll bei: - Historischen Darstellungen - Biographien - Statistiken und Zahlen - Wissenschaftlichen Erklärungen

Es eliminiert Halluzinationen nicht vollständig, macht sie aber sichtbar.

Reflexion bei kreativen Aufgaben

Reflexion ist nicht nur für Fakten nützlich. Auch bei kreativen Aufgaben hilft eine Überprüfungsrunde:

Schreibe eine Kurzgeschichte (300 Wörter):
Thema: Ein Programmierer findet einen Bug,
der die Realität verändert.

ENTWURF:
[Geschichte]

REFLEXION:
1. Hat die Geschichte einen klaren Spannungsbogen?
   (Setup, Konflikt, Auflösung)
2. Ist der Protagonist greifbar?
3. Ist das Ende befriedigend oder fühlt es sich
   abgebrochen an?
4. Gibt es einen Satz, der besonders schwach ist?
   → Umschreiben.
5. Gibt es einen Satz, der besonders stark ist?
   → Behalten und verstärken.

FINALE VERSION:
[Verbesserte Geschichte]

Automatisierte Selbstkorrektur

Für fortgeschrittene Nutzer: Du kannst Reflexion als festen Bestandteil jedes Prompts einbauen:

System-Prompt für Selbstkorrektur

Du bist ein Assistent mit eingebauter Qualitätskontrolle.

Für JEDE Antwort, die du gibst:
1. Schreibe zuerst deine Antwort
2. Prüfe sie intern auf: Sachfehler, Lücken, Klarheit
3. Wenn du Probleme findest, korrigiere sie BEVOR du
   die Antwort abschickst
4. Markiere korrigierte Stellen mit [korrigiert]
5. Gib am Ende einen Confidence Score (0-100%)

Wenn dein Confidence Score unter 70% liegt, sag das
explizit und erkläre, warum du unsicher bist.

Das als System-Prompt oder Custom Instruction einzurichten bedeutet: Jede Antwort durchläuft automatisch einen Reflexionsprozess.

Grenzen der Selbstkorrektur

Grenze 1: Das Modell weiß nicht, was es nicht weiß

Wenn eine Halluzination plausibel klingt, wird sie im Reflexionsschritt nicht unbedingt entdeckt. Das Modell prüft gegen sein Wissen – und wenn das Wissen falsch ist, bleibt die Halluzination bestehen.

Grenze 2: Über-Korrektur

Manchmal korrigiert das Modell etwas Richtiges zu etwas Falschem. Besonders bei Grenzfällen, wo es unsicher ist, kann es die richtige Antwort durch eine falsche ersetzen.

Grenze 3: Bestätigungs-Bias

Das Modell neigt dazu, seine eigene Arbeit zu bestätigen. “Ja, das sieht gut aus” kommt häufiger als ehrliche Kritik. Gegenmaßnahme: Explizit harte Kritik fordern.

Grenze 4: Token-Kosten

Reflexion verdoppelt (oder verdreifacht) die Antwortlänge. Bei API-Nutzung heißt das: doppelte Kosten. Nutze Reflexion gezielt, nicht bei jeder Antwort.

Reflexion vs. Self-Consistency

Beides sind Methoden, um die Qualität zu erhöhen. Aber sie arbeiten unterschiedlich:

Reflexion Self-Consistency
Ein Durchlauf mit Prüfung Mehrere unabhängige Durchläufe
Findet qualitative Fehler Findet quantitative Fehler
Verbessert Texte, Analysen, Code Verbessert Berechnungen, Fakten
“Ist das gut?” “Ist das richtig?”
Kostet ~2x Tokens Kostet 3-5x Tokens

Ideal: Kombiniere beide. Self-Consistency für die Antwort, Reflexion für die Qualität.


Übungen

Übung 1: Faktencheck mit CoVe

Lass das Modell einen kurzen Text über ein Thema schreiben, das du gut kennst. Dann lass es CoVe durchführen. Hat es seine eigenen Fehler gefunden? Welche hat es übersehen?

Übung 2: Code-Reflexion

Lass das Modell eine Programmieraufgabe lösen (z.B. eine Funktion, die prüft, ob eine Klammer-Sequenz gültig ist). Dann lass es den Code mit der Code-Checkliste prüfen. Hat es Bugs gefunden?

Übung 3: Drei-Runden-Reflexion

Wähle eine Aufgabe und führe 3 Reflexionsrunden durch. Vergleiche Version 1, 2 und 3. Ab welcher Runde sinkt der Verbesserungseffekt?

Übung 4: Selbstkorrektur-System-Prompt

Richte den automatischen Selbstkorrektur-System-Prompt ein und nutze ihn einen Tag lang für alle Aufgaben. Beobachte: Bei welchen Aufgaben hilft die automatische Reflexion? Bei welchen ist sie überflüssig?

Kapitel 9: Reasoning-Techniken kombinieren – Das Orchester

Du hast jetzt sieben Instrumente gelernt: Chain-of-Thought, Zero-Shot CoT, Tree-of-Thought, Self-Consistency, ReAct, Meta-Prompting und Reflexion. Jedes für sich ist mächtig. Aber die wahre Kraft entsteht, wenn du sie kombinierst.

Ein Orchester klingt nicht großartig, weil jedes Instrument einzeln gut ist. Es klingt großartig, weil die Instrumente zusammenspielen.

Die Kombinations-Matrix

Nicht jede Kombination macht Sinn. Hier ist meine Matrix:

Kombination Sinn? Wann?
CoT + Reflexion ★★★★★ Immer bei wichtigen Aufgaben
CoT + Self-Consistency ★★★★★ Wenn Korrektheit kritisch ist
ToT + Reflexion ★★★★☆ Komplexe Entscheidungen
ReAct + CoT ★★★★☆ Recherche-Aufgaben
Meta + Reflexion ★★★★☆ Prompt-Entwicklung
CoT + ToT ★★★☆☆ Selten – ähnliche Funktion
SC + Reflexion ★★★☆☆ Doppelte Qualitätssicherung
ToT + SC ★★☆☆☆ Overkill für die meisten Aufgaben

Kombination 1: CoT + Reflexion (Der Standard)

Die häufigste und nützlichste Kombination. Das Modell denkt Schritt für Schritt und überprüft dann seine Arbeit.

Aufgabe: [Deine Aufgabe]

PHASE 1 – DENKEN (Chain-of-Thought):
Löse die Aufgabe Schritt für Schritt.
Zeige jeden Denkschritt.

PHASE 2 – PRÜFEN (Reflexion):
Gehe jeden Denkschritt nochmal durch.
Gibt es Fehler? Logische Lücken? Falsche Annahmen?

PHASE 3 – KORRIGIEREN:
Falls Fehler gefunden: Korrigiere und gib die
bereinigte Antwort.
Falls keine Fehler: Bestätige und gib die finale Antwort.

Beispiel: Finanzberechnung

Ein Unternehmen hat folgende Quartalszahlen:
- Umsatz Q1: 120.000 Euro
- Umsatz Q2: 145.000 Euro
- Umsatz Q3: 130.000 Euro
- Umsatz Q4: 180.000 Euro
- Fixkosten: 40.000 Euro/Quartal
- Variable Kosten: 35% des Umsatzes

Berechne den Jahresgewinn und die Gewinnmarge.

PHASE 1 – Schritt für Schritt:
[Berechnung]

PHASE 2 – Prüfung:
[Jeden Schritt verifizieren]

PHASE 3 – Finale Antwort:
[Korrigierte Berechnung, falls nötig]

Kombination 2: ToT + Reflexion (Der Stratege)

Für komplexe Entscheidungen: Erst mehrere Optionen erkunden, dann die gewählte Option kritisch prüfen.

Aufgabe: [Strategische Entscheidung]

PHASE 1 – EXPLORATION (Tree-of-Thought):
Generiere 3 verschiedene Strategien.
Bewerte jede (Stärken, Schwächen, Risiken).
Wähle die beste.

PHASE 2 – STRESSTEST (Reflexion):
Nimm die gewählte Strategie und hinterfrage sie:
- Was sind die schwächsten Annahmen?
- Was passiert im Worst Case?
- Welchen Einwand würde ein Skeptiker haben?

PHASE 3 – OPTIMIERUNG:
Passe die Strategie an, um die gefundenen
Schwächen zu adressieren.

PHASE 4 – FINALE EMPFEHLUNG:
Zusammenfassung mit konkretem Aktionsplan.

Beispiel: Markteintrittsstrategie

Wir sind ein deutsches Softwareunternehmen (B2B, ERP)
und möchten in den US-Markt expandieren.

Team: 45 Mitarbeiter, 8 Mio Euro Jahresumsatz.
Budget für Expansion: 500.000 Euro.

PHASE 1 – EXPLORATION:
3 Eintrittsstrategien entwickeln und bewerten.

PHASE 2 – STRESSTEST:
Die beste Strategie auf Herz und Nieren prüfen.

PHASE 3 – OPTIMIERUNG:
Schwächen adressieren.

PHASE 4 – AKTIONSPLAN:
Erste 90 Tage, konkrete Schritte.

Kombination 3: ReAct + CoT + Reflexion (Der Forscher)

Für Recherche-Aufgaben, bei denen Fakten gesammelt, analysiert und verifiziert werden müssen.

Frage: [Recherche-Frage]

PHASE 1 – RECHERCHE (ReAct):
Sammle relevante Informationen.
Für jeden Fakt: Quelle/Grundlage angeben.
Gedanke → Aktion → Beobachtung (3-5 Zyklen)

PHASE 2 – ANALYSE (Chain-of-Thought):
Analysiere die gesammelten Informationen
Schritt für Schritt.
Welche Schlüsse lassen sich ziehen?

PHASE 3 – VERIFIKATION (Reflexion):
Prüfe die Analyse:
- Basiert sie auf soliden Fakten?
- Gibt es alternative Interpretationen?
- Was habe ich möglicherweise übersehen?

PHASE 4 – ERGEBNIS:
Zusammenfassung mit Confidence-Bewertung.

Kombination 4: Meta + CoT + SC (Der Perfektionist)

Für Aufgaben, bei denen die Antwort wirklich stimmen muss.

Aufgabe: [Kritische Aufgabe]

PHASE 1 – META-ANALYSE:
Bevor du anfängst: Was ist die beste Herangehensweise
an diese Aufgabe? Welche Schritte brauchst du?

PHASE 2 – AUSFÜHRUNG (Chain-of-Thought):
Führe die Aufgabe Schritt für Schritt aus.

PHASE 3 – GEGENPROBE (Self-Consistency):
Löse die Aufgabe nochmal mit einem anderen Ansatz.
Kommen beide Ansätze zum selben Ergebnis?

PHASE 4 – FINALISIERUNG:
Wenn ja: Finale Antwort.
Wenn nein: Analysiere den Unterschied und bestimme
die korrekte Antwort.

Die Reasoning-Pipeline

Für regelmäßig wiederkehrende komplexe Aufgaben lohnt es sich, eine feste Pipeline zu definieren. Hier ist mein Template:

=== REASONING-PIPELINE ===

INPUT:
[Aufgabe/Frage]

STUFE 1 – VERSTEHEN:
Was genau wird gefragt?
Welche Informationen habe ich?
Welche fehlen?
Welche Annahmen muss ich treffen?

STUFE 2 – PLANEN:
Welche Reasoning-Technik(en) passen?
In welcher Reihenfolge?
Was sind meine Erfolgskriterien?

STUFE 3 – AUSFÜHREN:
[Hier kommt die gewählte Technik-Kombination]

STUFE 4 – PRÜFEN:
Erfüllt das Ergebnis die Erfolgskriterien?
Gibt es offene Fragen?
Wie sicher bin ich (0-100%)?

STUFE 5 – LIEFERN:
Finale Antwort.
Confidence Score.
Offene Punkte (falls vorhanden).

=== PIPELINE ENDE ===

Praxis-Beispiel: Vollständige Pipeline

=== REASONING-PIPELINE ===

INPUT:
Soll ich als Freelancer eine GmbH gründen?
Aktuell: 75.000 Euro Jahresumsatz, allein, keine
Mitarbeiter geplant, Software-Entwicklung.

STUFE 1 – VERSTEHEN:
- Gefragt: GmbH ja/nein für einen Solo-Freelancer
- Vorhandene Infos: Umsatz, Branche, Teamgröße
- Fehlend: Gewinnmarge, private Situation, Wachstumspläne,
  aktuelle Steuerbelastung
- Annahmen: Gewinnmarge ~60% (typisch für Software-Freelancer),
  keine besonderen privaten Umstände

STUFE 2 – PLANEN:
- Technik: ToT (mehrere Optionen) + Reflexion (Prüfung)
- Reihenfolge: 1) Optionen erkunden 2) Beste vertiefen
  3) Prüfen
- Erfolgskriterien: Klare Empfehlung mit Zahlen

STUFE 3 – AUSFÜHREN:

[Tree-of-Thought]
Option A: Weiter als Freiberufler
+ Kein Gründungsaufwand
+ Keine Buchführungspflicht (EÜR reicht)
+ Kein Mindestkapital
- Volle persönliche Haftung
- Hoher persönlicher Steuersatz bei 75k Umsatz
Bewertung: 6/10

Option B: GmbH gründen
+ Haftungsbeschränkung
+ Steuervorteile ab ~60.000 Euro Gewinn
+ Professionelleres Auftreten
- 25.000 Euro Stammkapital (12.500 einzuzahlen)
- Buchführungspflicht, Jahresabschluss
- Geschäftsführergehalt nötig
- Kosten: Steuerberater ~3.000-5.000 Euro/Jahr
Bewertung: 7/10

Option C: UG (haftungsbeschränkt)
+ Haftungsbeschränkung
+ Nur 1 Euro Stammkapital
+ Steuervorteile ähnlich GmbH
- Muss 25% des Gewinns zurücklegen bis 25.000 Euro
- Weniger seriös als GmbH
- Gleicher Verwaltungsaufwand wie GmbH
Bewertung: 5/10

Gewählt: Option B (GmbH)

[Reflexion – Stresstest]
- Schwache Annahme: 60% Gewinnmarge. Bei niedrigerer
  Marge lohnt sich die GmbH weniger.
- Steuervergleich nötig:
  Freiberufler: ~45.000 Gewinn × ~42% (inkl. Soli) ≈ 18.900 Euro
  GmbH: ~45.000 Gewinn × 15% KSt + ~15% GewSt ≈ 13.500 Euro
  + Geschäftsführergehalt separat besteuert
  → Tatsächliche Ersparnis geringer als gedacht
- Bei 75.000 Umsatz ist der Break-Even knapp.
  Eher ab 100.000+ Umsatz sinnvoll.

STUFE 4 – PRÜFEN:
Die Reflexion hat die erste Einschätzung korrigiert.
GmbH lohnt sich bei 75.000 Euro Umsatz wahrscheinlich
NOCH NICHT. Erst ab ~100.000 Euro.
Confidence: 70% (Steuerrecht ist komplex, individuelle
Beratung nötig).

STUFE 5 – LIEFERN:

EMPFEHLUNG: Bei 75.000 Euro Jahresumsatz als Solo-
Freelancer: NOCH KEINE GmbH gründen.

Begründung: Der Steuervorteil bei deinem Umsatzniveau
ist marginal und wird durch die Gründungskosten und
laufenden Verwaltungsaufwand aufgefressen. Die GmbH
lohnt sich typischerweise ab ~100.000 Euro Umsatz.

Nächste Schritte:
1. Wachstum anstreben auf 100k+ Umsatz
2. Dann: Steuerberater-Gespräch mit konkretem Vergleich
3. UG als Einstieg erwägen, wenn Haftung das Hauptthema ist

Confidence: 70%
Offener Punkt: Individuelle Steuerberatung eineholen,
da persönliche Faktoren den Break-Even verschieben können.

=== PIPELINE ENDE ===

Wann welche Kombination?

Hier ist mein Entscheidungsbaum:

Ist die Aufgabe einfach?
├── JA → Kein Reasoning nötig. Normaler Prompt.
└── NEIN → Braucht Reasoning.
    │
    Gibt es einen klaren Lösungsweg?
    ├── JA → CoT (+ Reflexion bei wichtigen Aufgaben)
    └── NEIN → Gibt es mehrere mögliche Ansätze?
        ├── JA → ToT (+ Reflexion)
        └── NEIN → Braucht das Modell externe Infos?
            ├── JA → ReAct (+ CoT)
            └── NEIN → Ist Korrektheit kritisch?
                ├── JA → CoT + SC + Reflexion
                └── NEIN → CoT reicht.

Die Kosten-Nutzen-Rechnung

Jede zusätzliche Technik kostet Tokens. Hier sind ungefähre Faktoren:

Technik Token-Faktor Qualitätsgewinn
Nur Prompt (Baseline) 1x Baseline
+ CoT 2-3x +30-50%
+ Reflexion 3-5x +15-25%
+ SC (3 Durchläufe) 6-9x +10-20%
+ ToT 4-6x +20-30%
Volle Pipeline 10-15x +50-80%

Die volle Pipeline lohnt sich nicht für eine Alltagsfrage. Aber für eine Geschäftsentscheidung, die zehntausende Euro beeinflusst? Absolut.

Eigene Pipelines bauen

Du musst nicht meine Pipelines nutzen. Bau deine eigenen. Hier ist das Framework:

Schritt 1: Definiere deine häufigsten Aufgabentypen

z.B. “Kundenpräsentationen erstellen”, “Code Reviews”, “Strategische Analysen”

Schritt 2: Wähle die passenden Techniken pro Typ

  • Kundenpräsentation: Meta (Prompt optimieren) → CoT (Inhalt strukturieren) → Reflexion (Qualität prüfen)
  • Code Review: CoT (Code durchgehen) → Reflexion (Checkliste) → Self-Consistency (zweite Meinung)
  • Strategische Analyse: ToT (Optionen erkunden) → CoT (beste vertiefen) → Reflexion (Stresstest)

Schritt 3: Erstelle Templates

Schreibe fertige Prompt-Templates für jede Pipeline. Speichere sie in deiner Template-Bibliothek (Band 2).

Schritt 4: Iteriere

Teste jedes Template mit mindestens 5 Aufgaben. Passe an, was nicht funktioniert. Entferne Schritte, die keinen Mehrwert bringen.

Häufige Fehler bei Kombinationen

Fehler 1: Alles auf einmal

Du brauchst nicht für jede Frage die volle Pipeline. Das ist wie mit Kanonen auf Spatzen schießen. Starte simpel (CoT) und eskaliere nur, wenn nötig.

Fehler 2: Falsche Reihenfolge

ToT vor CoT macht Sinn (erst erkunden, dann vertiefen). CoT vor ToT nicht (warum erst vertieft denken, um dann breit zu suchen?).

Fehler 3: Redundante Techniken

CoT + Zero-Shot CoT ist redundant. SC + 3-Runden-Reflexion ist Overkill. Jede Technik in der Pipeline sollte einen einzigartigen Mehrwert bringen.

Fehler 4: Kein Abbruchkriterium

Ohne klares Ziel kann die Pipeline endlos laufen. Definiere immer: “Wann bin ich fertig?” und “Was ist gut genug?”


Übungen

Übung 1: Pipeline für deinen Beruf

Identifiziere die 3 häufigsten komplexen Aufgaben in deinem Job. Entwerfe für jede eine Reasoning-Pipeline. Teste jede mit einer echten Aufgabe.

Übung 2: Kombinations-Experiment

Nimm diese Aufgabe und löse sie mit 3 verschiedenen Kombinations-Ansätzen:

“Ein Restaurant-Besitzer möchte seinen Umsatz in 6 Monaten um 30% steigern. Budget: 15.000 Euro. Standort: Mittelgroße Stadt, 80.000 Einwohner.”

  • Ansatz 1: CoT allein
  • Ansatz 2: ToT + Reflexion
  • Ansatz 3: Volle Pipeline

Vergleiche Qualität, Tiefe und Nützlichkeit der Ergebnisse.

Übung 3: Pipeline-Optimierung

Nimm die volle Pipeline aus diesem Kapitel und kürze sie. Entferne Schritte, die du für überflüssig hältst. Teste die gekürzte Version. Ist das Ergebnis gleich gut? Besser? Schlechter?

Übung 4: Template-Bibliothek

Erstelle 3 fertige Pipeline-Templates für verschiedene Aufgabentypen. Speichere sie so, dass du sie schnell kopieren und anpassen kannst. Teste jedes Template mit 3 verschiedenen Aufgaben.

Kapitel 10: Zusammenfassung und Ausblick

Vier Bände. Du bist jetzt offiziell im Fortgeschrittenen-Bereich angekommen.

Lass mich zusammenfassen, was du in Band 4 gelernt hast – und einen Blick darauf werfen, was als Nächstes kommt.

Was du jetzt kannst

  1. Reasoning verstehen – Du weißt, was Reasoning bei LLMs bedeutet und wann du es brauchst. Du kennst die fünf Ebenen (linear, verzweigt, validiert, interaktiv, rekursiv) und kannst einschätzen, welche Ebene für welche Aufgabe passt.

  2. Chain-of-Thought – Du bringst LLMs dazu, Schritt für Schritt zu denken. Du kennst die vier CoT-Varianten (explizite Schritte, offene Schritte, Few-Shot CoT, CoT mit Zusammenfassung) und weißt, wann welche Variante die beste ist. Du optimierst die Granularität und nutzt domänenspezifische Schrittfolgen.

  3. Zero-Shot Chain-of-Thought – Du weißt, dass manchmal fünf Wörter reichen: “Denke Schritt für Schritt.” Du hast ein Arsenal an Triggern – von den Klassikern bis zu den Power-Kombinationen. Und du kennst fortgeschrittene Strategien wie Zweistufiges CoT, Negatives CoT und Perspektiv-CoT.

  4. Tree-of-Thought – Du erkundest mehrere Lösungswege parallel, bewertest sie systematisch und wählst den besten. Du nutzt den 4-Phasen-Prozess (Erkunden, Bewerten, Vertiefen, Prüfen) und kannst auch den erweiterten ToT-Prompt mit vier Runden.

  5. Self-Consistency – Du weißt, dass Mehrfach-Fragen die Zuverlässigkeit erhöht. Du nutzt Majority Voting, variierte Formulierungen und Confidence Scores. Du kombinierst Self-Consistency mit Rollen für robustere Ergebnisse.

  6. ReAct – Du verstehst den Denken-Handeln-Beobachten-Loop und kannst ihn sowohl als Simulation als auch mit echten Werkzeugen nutzen. Du weißt, wie KI-Agenten auf ReAct basieren, und kannst Agenten-Prompts schreiben.

  7. Meta-Prompting – Du lässt das Modell Prompts verbessern, bevor es sie ausführt. Du nutzt Prompt-Optimierung, Antwort-Verbesserung und Aufgaben-Dekomposition. Du kennst den Meta-Prompt-Generator und fortgeschrittene Techniken wie Adversarial Meta-Prompting.

  8. Reflexion und Selbstkorrektur – Du bringst das Modell dazu, seine eigene Arbeit zu überprüfen und Fehler zu korrigieren. Du nutzt gezielte Checklisten für Texte, Code und Analysen. Du kennst Chain-of-Verification für Faktenprüfung.

  9. Techniken kombinieren – Du baust eigene Reasoning-Pipelines aus mehreren Techniken. Du kennst die Kombinations-Matrix, den Entscheidungsbaum und die Kosten-Nutzen-Rechnung. Du erstellst Templates für wiederkehrende Aufgaben.

Checkliste: Bin ich bereit für Band 5?

  • [ ] Ich nutze CoT automatisch bei allen komplexen Aufgaben
  • [ ] Ich kann zwischen Zero-Shot CoT und Few-Shot CoT bewusst wählen
  • [ ] Ich habe Tree-of-Thought für mindestens 3 Entscheidungen genutzt
  • [ ] Ich habe Self-Consistency getestet und weiß, wann es sich lohnt
  • [ ] Ich verstehe den ReAct-Loop und kann ihn für Recherche einsetzen
  • [ ] Ich habe Meta-Prompting genutzt, um meine eigenen Prompts zu verbessern
  • [ ] Ich nutze Reflexion bei wichtigen Outputs
  • [ ] Ich habe mindestens eine eigene Reasoning-Pipeline gebaut und getestet
  • [ ] Mein Prompt-Protokoll hat Einträge zu mindestens 5 verschiedenen Reasoning-Techniken
  • [ ] Ich kann spontan einschätzen, welche Technik für eine Aufgabe am besten passt

Bei 7 von 10? Weiter zu Band 5.

Was dich in Band 5 erwartet

Band 5 heißt “Kreatives Prompting” – und hier verlassen wir die analytische Welt und betreten die kreative.

Storytelling mit KI

Kurzgeschichten, Romananfänge, Drehbücher – wie du KI als kreativen Partner nutzt, ohne dass es sich nach KI anhört. Du lernst Techniken, die über “Schreib mir eine Geschichte über…” hinausgehen: Perspektivwechsel, Ton-Kontrolle, Charakterentwicklung, Spannungsaufbau.

Bild-Generierung

DALL-E, Midjourney, Stable Diffusion – die Welt der KI-generierten Bilder. Wie du Prompts schreibst, die nicht “generisch” aussehen. Stile, Komposition, Beleuchtung, Negative Prompts (die du aus Band 3 schon kennst, aber hier anders eingesetzt werden).

Musik und Audio

KI-generierte Musik, Soundeffekte, Voice-Overs. Wie du Prompts für Audio-Modelle schreibst und was sie (noch) nicht können.

Multimodales Prompting

Text + Bild + Audio zusammenbringen. Wie du Prompts für Modelle schreibst, die mehrere Modalitäten gleichzeitig verstehen und generieren können.

Kreative Frameworks

Kreativitätstechniken (SCAMPER, Brainstorming, Mind Mapping) in Prompts übersetzen. Wie du KI als Kreativpartner statt als Kreativkiller nutzt.

Wie die Reihe weitergeht

Anfänger (Band 1–3) ✓ - Band 1: Grundlagen ✓ - Band 2: Prompt-Frameworks ✓ - Band 3: Fortgeschrittene Basics ✓

Fortgeschritten (Band 4–6) - Band 4: Reasoning-Techniken ✓ (du bist hier) - Band 5: Kreatives Prompting ← als Nächstes - Band 6: Spezialisiertes Prompting

Profi (Band 7–9) - Band 7: Prompting für Entwickler - Band 8: Business & Produktivität - Band 9: Sicherheit & Ethik

Experte (Band 10) - Band 10: Die Zukunft

Reasoning-Spickzettel

Hier ist dein Spickzettel – ausdrucken, neben den Monitor kleben:

╔═══════════════════════════════════════════════╗
║         REASONING-TECHNIKEN – SPICKZETTEL     ║
╠═══════════════════════════════════════════════╣
║                                               ║
║  CoT     → "Denke Schritt für Schritt"        ║
║             Für: Mathe, Logik, Analyse         ║
║                                               ║
║  ZS-CoT  → Nur den Trigger-Satz anhängen      ║
║             Für: Schnelle Verbesserung         ║
║                                               ║
║  ToT     → "Generiere 3 Ansätze, bewerte,     ║
║             wähle den besten"                  ║
║             Für: Entscheidungen, Strategie     ║
║                                               ║
║  SC      → Dieselbe Frage 3-5x stellen,       ║
║             Mehrheit gewinnt                   ║
║             Für: Korrektheit sicherstellen     ║
║                                               ║
║  ReAct   → Denken → Handeln → Beobachten      ║
║             Für: Recherche, Debugging          ║
║                                               ║
║  Meta    → "Verbessere diesen Prompt zuerst"   ║
║             Für: Prompt-Entwicklung            ║
║                                               ║
║  Reflex. → "Prüfe deine Antwort auf Fehler"   ║
║             Für: Qualitätssicherung            ║
║                                               ║
║  FAUSTREGEL: Einfache Aufgabe → kein Reasoning ║
║  Komplexe Aufgabe → CoT + Reflexion            ║
║  Kritische Aufgabe → Volle Pipeline             ║
║                                               ║
╚═══════════════════════════════════════════════╝

Ein Gedanke zum Schluss

In den letzten vier Bänden hast du eine Transformation durchgemacht. Du bist gestartet als jemand, der nicht wusste, was ein Prompt ist. Jetzt kannst du mehrstufige Reasoning-Pipelines bauen, die Ergebnisse liefern, die sich vor jeder professionellen Analyse nicht verstecken müssen.

Das ist keine Kleinigkeit.

Aber ich möchte ehrlich sein: Die Techniken aus diesem Band sind mächtig, aber sie sind auch aufwendig. Im Alltag wirst du nicht für jede Frage eine volle Pipeline aufsetzen. Du wirst CoT benutzen. Oft. Zero-Shot CoT mit einem simplen “Denke Schritt für Schritt” am Ende deines Prompts. Das allein ist schon ein Game-Changer.

Die komplexeren Techniken – ToT, SC, ReAct, die Kombinationen – die hebst du dir für die Momente auf, wo es wirklich zählt. Für die Geschäftsentscheidung, die tausende Euro beeinflusst. Für die Analyse, die deinen Chef überzeugen muss. Für das Problem, das du seit Tagen nicht lösen kannst.

Und wenn dieser Moment kommt, bist du vorbereitet.

In Band 5 wechseln wir die Seite. Weg von Logik und Analyse, hin zu Kreativität und Kunst. Wie schreibst du Prompts, die nicht nur korrekt sind, sondern schön? Die nicht nur informieren, sondern berühren? Die nicht nur analysieren, sondern erschaffen?

Ich freu mich drauf. Du dich auch?

Dann los.

Belkis Aslani


Chain-of-Thought: - “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (Wei et al., 2022) – Das Original-Paper - “Large Language Models are Zero-Shot Reasoners” (Kojma et al., 2022) – Zero-Shot CoT

Tree-of-Thought: - “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (Yao et al., 2023) – ToT-Paper - Yao’s GitHub Repository – Implementierung und Beispiele

Self-Consistency: - “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (Wang et al., 2023)

ReAct: - “ReAct: Synergizing Reasoning and Acting in Language Models” (Yao et al., 2023) - LangChain ReAct Agent Dokumentation – Praktische Implementierung

Reflexion: - “Reflexion: Language Agents with Verbal Reinforcement Learning” (Shinn et al., 2023) - “Chain-of-Verification Reduces Hallucination in Large Language Models” (Dhuliawala et al., 2023)

Meta-Prompting: - “Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding” (Suzgun & Kalai, 2024)

Allgemein: - Anthropic Prompt Engineering Guide – Best Practices von Claude’s Machern - OpenAI Cookbook – Praktische Beispiele und Tutorials - Prompt Engineering Guide (promptingguide.ai) – Community-Ressource