Backtesting in der Praxis — ein mehrstufiger Validierungsprozess
Fast jeder ernsthafte Trader führt einen Backtest durch — doch nur wenige folgen einem ehrlichen, mehrstufigen Validierungsprozess. Genau dieser Prozess entscheidet, ob ein Konto das erste Jahr übersteht oder bereits im dritten Monat aufgerieben wird. In diesem Artikel gehe ich die gesamte Pipeline durch: Regeln klar formulieren, das Datenfenster wählen, die Daten aufteilen, Walk-Forward ausführen, Demo handeln und schließlich den ersten Micro-Lot live einsetzen. Das hier ist keine Anleitung für einen einzelnen Test, sondern die Disziplin, eine Strategie von der Idee bis zum Live-Konto zu führen.
Warum ein einzelner Backtest noch kein Prozess ist
Ein einzelner Backtest liefert eine Zahl, die du nicht kennst. Die Strategie hat dreißig Prozent verdient — hat sie eine echte Edge gefangen, oder hast du dreihundert Parameterkombinationen ausprobiert, bis eine die historischen Zufallsschwankungen passend abgebildet hat? Die Zahl allein beantwortet das nicht. Ein Prozess kann es, indem er dir schrittweise die Möglichkeit nimmt, aus denjenigen Daten zu lernen, auf denen die Strategie am Ende bewertet wird. Jede Stufe ist ein Sieb mit kleineren Maschen. Den einzelnen sauberen Test beschreibe ich in meinem Artikel über das korrekte Backtesting einer Strategie in der Praktischen Werkstatt; hier geht es um die Disziplin, die lange vor dem ersten Klick auf „Start" beginnt.
Regeln auf Papier, ohne Interpretationsspielraum
Eine Strategie, die sich nicht in Code oder ein präzises Regelblatt übersetzen lässt, ist noch nicht testbereit. Schreibe Einstieg, Ausstieg, Stop Loss, Take Profit (Gewinnmitnahme) und Positionsgröße so genau auf, dass ein zweiter Mensch beim Lesen des Dokuments identische Trades platzieren würde. „Ich kaufe, wenn ich einen Trend sehe" ist kein Regelwerk, sondern ein Gefühl. Eine testbare Version lautet: „Kauf beim Tagesschluss, wenn EMA(50) über EMA(200) liegt, RSI(14) unter siebzig, der Kurs die 20-Perioden-Durchschnittslinie von oben berührt; Stop Loss 1,5 ATR(14) unter dem Einstieg; Ziel 2,5 ATR darüber; Risiko ein Prozent des Kontos." Diese Disziplin allein filtert die meisten Ideen heraus, bevor auch nur ein Test gestartet wird.
Das Datenfenster muss mehr als eine Marktphase abdecken
Der zweite Filter ist die Geschichte. Meine Regel: mindestens zehn Jahre für Tagesstrategien, fünf für M30 und M15, zwei für Sub-M15-Scalping — aus echten Tick-Daten, nicht aus der synthetischen Broker-Historie. Das vergangene Jahrzehnt enthielt lange DXY-Trends (2014–2017), den Volatilitätsschock im März 2020, den Zinserhöhungszyklus (2022–2023) und die Konsolidierung 2024. Eine Strategie, die nur in einem dieser Marktregimes funktioniert, ist eine auf eine Epoche zugeschnittene Illusion. Weniger als hundert Trades in fünf Jahren sind eine zu kleine Stichprobe — hundert ist die Untergrenze für statistische Aussagekraft, Profis zielen auf dreihundert.
Datenteilung und Schutz des Out-of-Sample-Blocks
Die dritte Stufe bedeutet, dir selbst Daten wegzunehmen. Teile die Historie in siebzig Prozent In-Sample für die Optimierung und fünfundzwanzig bis dreißig Prozent Out-of-Sample, die du bis zum Abschluss der Optimierung nicht anfasst. OOS ist das Ehrlichkeitssieb — es zeigt, ob die auf den Trainingsdaten gefundenen Parameter auch außerhalb davon Wert haben. Wenn du auf IS achtzig Prozent Trefferquote und Profit Factor 2,4 hast, dieselben Parameter auf OOS aber nur fünfzig Prozent und 1,1 liefern, hast du dich gerade beim Curve-Fitting erwischt. Zwölf Prozent annualisiert auf IS und elf auf OOS ist echt besser als dreißig auf IS und acht auf OOS. Gesucht wird Konsistenz, nicht das Maximum.
Walk-Forward als feinstes Sieb
Eine einzelne IS/OOS-Teilung ergibt eine einzige Zahl. Walk-Forward wiederholt diesen Vorgang fünf bis sieben Mal: erstes IS 2018–2021, OOS 2022; zweites IS verschiebt sich auf 2019–2022, OOS 2023; und so weiter. Für jedes Fenster optimierst du neu, frierst die besten Parameter ein, testest auf OOS, notierst das Ergebnis und verschiebst das Fenster. Nach fünf bis sieben Zyklen ist der durchschnittliche OOS-Wert der ehrlichste Näherungswert für das, was ein Live-Konto liefern wird. Ein WFE zwischen 0,5 und 0,75 signalisiert eine Strategie, die den nächsten Schritt verdient; unter 0,3 ist es ein Curve-Fitting-Geständnis. Mehr zur Methodik und zum Unterschied zwischen rollendem und verankertem Fenster findest du im Artikel zur Walk-Forward-Analyse im Bereich Handelsstrategien.
„Der eigentliche Zweck der Walk-Forward-Analyse besteht darin, die Echtzeit-Performance einer Handelsstrategie zu messen, ohne sie tatsächlich mit echtem Geld in Echtzeit zu handeln." — Robert Pardo, 2008
Demo und Micro-Lot live — wo die Strategie auf die Realität trifft
Eine Strategie, die Walk-Forward bestanden hat, ist bereit für das Demo-Konto, nicht für echtes Geld. Drei bis sechs Monate Forward-Testing mit eingefrorenen Parametern sind der erste Echtzeit-Belastungstest: live Spreads, echte Makro-Veröffentlichungen, der Sonntagabend-Gap, reale Liquidität während der Handelszeiten. Das Demo-Konto zeigt, was kein Backtest je offenbart — eine historisch als liquide eingestufte Strategie kann sich als schwer ausführbar erweisen, weil Signale entstehen, wenn du schläfst. Das sind keine Datenprobleme, sondern Probleme von dir und deinem Markt.
Nach dem Forward-Testing steigst du nicht sofort auf volle Größe um. Du startest mit einem Micro-Lot — einem Zehntel der Zielgröße — für drei bis sechs Monate auf echtem Geld. Der Zweck ist informativ: Wie unterscheidet sich die reale Ausführung vom Demo? Wie hoch ist die tatsächliche Slippage (Kursschlupf)? Wie verhält sich der Broker beim NFP? Und wie reagierst du auf echte, wenn auch bescheidene Verluste? Die Tabelle über alle Stufen hat vier Spalten: IS, OOS, Demo, Micro-Lot live. Je näher die Zahlen beieinander liegen, desto geringer das Risiko, in einer Illusion zu leben. Eine größere Abweichung ist das Signal, einen Schritt zurückzugehen — nicht die Position zu skalieren. Zum Risikomanagement zwischen den Stufen findest du weitere Grundsätze im Bereich Risikomanagement.
Illustratives Beispiel — vollständige Pipeline für eine Breakout-Strategie
Eine Breakout-Strategie auf EUR/USD, M30: Einstieg beim Durchbruch des höchsten Hochs der letzten zwanzig Kerzen, Ausstieg beim tiefsten Tief der letzten zehn. Historie 2014–2023, IS 2014–2020, OOS 2021–2023. Optimierung auf IS: dreiundzwanzig für das Hoch, elf für das Tief, Stop Loss 1,4 ATR, Trefferquote 58 Prozent, Profit Factor 1,72, 22 Prozent annualisiert. Auf OOS: 54 Prozent Trefferquote, Profit Factor 1,51, 18 Prozent annualisiert. Fünf Walk-Forward-Iterationen ergeben einen durchschnittlichen WFE von 0,71. Vier Monate Demo bestätigen eine um einen halben Pip höhere Slippage als angenommen; Trefferquote und Profit Factor bleiben im Bereich. Micro-Lot live ab Januar liefert nach drei Monaten 51 Prozent — unter dem Backtest, aber netto positiv. Im dritten Quartal fällt die Entscheidung: skalieren oder warten, falls die Volatilität von der historischen Norm abweicht. Die Zahlen sind illustrativ.
Was jetzt zu tun ist
- Schreibe die Regeln deiner Strategie in eine einfache Textdatei, präzise genug, damit ein zweiter Mensch beim Lesen identische Trades platzieren würde — ohne Interpretationsspielraum, mit exakten Parameterwerten, einer Stop-Loss-Formel und der Positionsgröße als prozentualer Anteil des Konto-Eigenkapitals (Equity).
- Lade historische Daten für das Paar herunter, das du tatsächlich handelst — mindestens zehn Jahre für Tages-Charts, fünf für M30 und M15, zwei Jahre echter Tick-Daten für Scalping; überprüfe, ob die Stichprobe verschiedene Marktphasen abdeckt: Trend, Konsolidierung, Volatilitätsschocks und Zinszyklen.
- Teile die Daten in siebzig Prozent In-Sample und fünfundzwanzig bis dreißig Prozent Out-of-Sample; rühre den OOS-Block erst an, wenn die IS-Optimierung vollständig abgeschlossen ist, und führe anschließend fünf bis sieben Walk-Forward-Iterationen durch — wenn der WFE unter 0,5 fällt oder Parameter zwischen Iterationen um mehr als fünfzig Prozent springen, vereinfache die Logik.
- Für eine Strategie, die Walk-Forward bestanden hat, führe drei bis sechs Monate Forward-Testing im Demo-Konto mit eingefrorenen Parametern durch, danach drei bis sechs Monate Micro-Lot live; skaliere auf die Zielgröße erst dann, wenn alle vier Ergebnissets konsistent sind — ergänze das Bild mit einer Monte-Carlo-Simulation.
- Lies die Ergebnisse durch die Brille der Konsistenz, nicht der höchsten Rendite: zwölf Prozent annualisiert auf jeder Stufe ist echt besser als dreißig auf IS und acht auf OOS, denn Konsistenz entscheidet darüber, ob das Konto das erste Jahr übersteht — die Edge, die dieser Prozess prüft, kannst du im Artikel zum Entdecken einer Trading-Edge vertiefen.
Quellen und Literatur
-
Robert Pardo The Evaluation and Optimization of Trading Strategies · klasyczny podręcznik o ewaluacji systemów transakcyjnych i metodyce walk-forward onlinelibrary.wiley.com ↗
-
MetaQuotes MetaTrader 5 Help — Strategy Tester · oficjalna dokumentacja MT5 dotycząca Strategy Testera, forward testingu i optymalizacji parametrów www.metatrader5.com ↗
-
MetaQuotes MetaTrader 4 Help — Strategy Testing · opis Strategy Testera MT4: parametry uruchomienia, modele tickowe, interpretacja raportu www.metatrader4.com ↗
-
Backtrader Backtrader documentation — Introduction · wprowadzenie do otwartego silnika backtestowego w Pythonie używanego przez quants www.backtrader.com ↗
-
TradingView Pine Script v6 — Welcome · oficjalna dokumentacja Pine Script i Strategy Testera w TradingView www.tradingview.com ↗
Häufig gestellte Fragen
Wie unterscheidet sich dieser mehrstufige Prozess von einem einzelnen Backtest?
Ein einzelner Backtest liefert eine Zahl und eine Interpretation. Er zeigt, ob die Strategie historisch profitabel war, setzt aber stillschweigend voraus, dass der Optimierungsprozess kein Rauschen gelernt hat. Ein mehrstufiger Prozess verwandelt diese eine Zahl in eine Abfolge von Sieben. Zuerst filtern schriftlich formulierte Regeln nicht überprüfbare Ideen heraus. Dann filtert ein langes Datenfenster Strategien heraus, die nur in einem Marktregime funktionieren. Anschließend filtert die IS/OOS-Teilung Parameter heraus, die nur auf Trainingsdaten funktionieren. Walk-Forward filtert Parameter heraus, die nur in einem zufälligen OOS-Fenster funktionieren. Demo filtert Strategien heraus, die sich auf Live-Spreads nicht ausführen lassen. Micro-Lot live filtert Trader heraus, die psychologisch nicht standhalten. Nach allen sechs Sieben bleibt ein Bruchteil der ursprünglichen Strategie-Gruppe übrig — genau der Bruchteil, der eine reale Chance hat, das erste Jahr zu überstehen. Ein einzelner Backtest erzwingt diese Selektion nicht, weshalb achtzig Prozent der Retail-Trader verlieren, obwohl achtzig Prozent irgendeinen historischen Test durchgeführt haben.
Wie lange dauert der gesamte Prozess von der Idee bis zum Micro-Lot live?
Ein realistischer Zeitplan umfasst neun bis fünfzehn Monate von der ersten Regelformulierung bis zur Skalierung auf die Zielgröße. Die ersten zwei Wochen gehen für die präzise Regelformulierung und den Download historischer Daten drauf. Die nächsten zwei bis vier Wochen decken die In-Sample-Optimierung und die erste Out-of-Sample-Validierung ab; scheitert das Ergebnis, gehst du zurück zu den Regeln, statt nach einem besseren Test zu suchen. Walk-Forward mit fünf bis sieben Iterationen braucht einen weiteren Monat, weil jedes Fenster eine eigene Optimierung erfordert. Danach folgen drei bis sechs Monate Forward-Testing im Demo-Konto. Anschließend weitere drei bis sechs Monate Micro-Lot live. Erst nach dem Vergleich aller vier Ergebnissets und der Bestätigung ihrer Konsistenz kannst du auf die Zielgröße skalieren. Den Zeitplan unter neun Monate zu kürzen bedeutet, ein Sieb zu überspringen — und jedes übersprungene Sieb verschiebt das Risiko von der Validierungsphase in die Live-Phase, wo es echtes Geld kostet.
Welche Kennzahlen sollte ich stufenübergreifend verfolgen, um Inkonsistenz zu erkennen?
Die stufenübergreifend geführte Tabelle sollte vier Ergebnisspalten haben (In-Sample, Out-of-Sample, Demo, Micro-Lot live) und für jede mindestens vier Kennzahlenzeilen. Erstens die Trefferquote in Prozent — ein Abstand von mehr als zehn Prozentpunkten zwischen Stufen signalisiert Inkonsistenz. Zweitens der Profit Factor, Bruttogewinn geteilt durch Bruttoverlust — ein Abstand von mehr als 0,3 zwischen Stufen ist ein Warnsignal. Drittens das durchschnittliche Chance-Risiko-Verhältnis (CRV) — ein Abstand von mehr als 0,5 R deutet darauf hin, dass sich der Stop Loss anders verhält als im Test. Viertens der maximale Drawdown (Kapitalrückgang), der fast immer von Stufe zu Stufe wächst; ein Anstieg um mehr als fünfzig Prozent zwischen zwei benachbarten Stufen bedeutet jedoch, dass die Strategie auf Bedingungen trifft, die im Test nicht vorhanden waren. Fünftens, optional, die durchschnittliche Slippage (Kursschlupf) in Pips — die Differenz zwischen Backtest und Demo und zwischen Demo und Micro-Lot zeigt dir, ob der Broker wie angenommen agiert. Inkonsistenz bei einer der Kennzahlen ist das Signal, eine Stufe zurückzugehen und die Ursache zu verstehen — nicht die Position zu skalieren.
Garantiert das Bestehen des gesamten Prozesses, dass die Strategie live Gewinne erwirtschaftet?
Nein. Jede Stufe erhöht die Wahrscheinlichkeit, dass die Strategie eine echte Edge hat, aber kein Satz historischer oder vorwärtsgerichteter Tests beseitigt das fundamentale Risiko: Der Markt des nächsten Quartals kann sich von allem unterscheiden, was du in den Daten gesehen hast. Der gesamte Prozess setzt stillschweigend voraus, dass das Marktregime in den OOS-Fenstern und im Demo dem Live-Regime ähnlich genug ist. Hat die Strategie den Markt von 2018 bis 2023 mit zwei Volatilitätsschocks und zwei Zinszyklen gelernt und handelt ab 2024 in einer langen Range mit niedriger Volatilität und weniger marktbewegenden Veröffentlichungen, kann das Micro-Lot live weit vom Backtest abweichen. Deshalb besteht die Disziplin nicht allein darin, die Siebe sauber zu durchlaufen, sondern das Micro-Lot lang genug zu halten, um das Ergebnis auf echtem Geld mit den drei vorherigen Stufen zu vergleichen. Die Ergänzung ist eine Monte-Carlo-Simulation, die die Trade-Abfolge zufällig neu ordnet und die Verteilung möglicher Equity-Kurven zeigt — eine Schätzung des realistischen Worst Case, den ein Backtest allein nie offenbart. Dieser Artikel ist ausschließlich zu Bildungszwecken und keine Anlageberatung.