Backtesting einer Strategie — wie macht man es richtig?
Wenn mir jemand schreibt, seine Strategie erziele im Test eine Trefferquote von fünfundneunzig Prozent, weiß ich schon, dass die Geschichte nicht gut ausgeht. Ein Backtest ist weder ein Orakel noch ein Versprechen auf zukünftige Gewinne. Er ist ein Werkzeug, um die eigene Idee zu falsifizieren — um herauszufinden, ob deine Regeln in verschiedenen Marktphasen funktioniert haben oder nur eine glückliche Episode beschreiben. Was folgt: wie du den Test ehrlich durchführst, wo die größten Fallen liegen und warum selbst ein korrekt durchgeführter Backtest kein profitables Livekonto garantiert.
Warum wir Strategien überhaupt auf historischen Daten testen
Bevor du echtes Geld riskierst, prüfst du, ob deine Regeln in den vergangenen Jahren Geld verdient hätten. Die Logik dahinter: Wenn die Regeln in fünf Jahren mit gemischten Marktbedingungen eine positive Erwartung geliefert haben, besitzen sie vermutlich einen dauerhaften Vorteil. Die Annahme ist fragil — Märkte entwickeln sich, Notenbanken wechseln ihre Politik, Liquidität wandert — aber es ist das Beste, was wir haben. Ein Backtest filtert klar unbrauchbare Ideen heraus und lässt jene passieren, die einen Demotest und später eine kleine Liveposition verdienen. Nicht mehr.
Regeln müssen eindeutig sein — sonst testest du Fiktion
Der erste Schritt klingt banal, scheitert aber bei den meisten Anfängern. Die Strategie muss so aufgeschrieben sein, dass ein Fremder, der deine Regeln liest, exakt dieselben Trades eröffnet. Ein Einstieg wie „Ich kaufe, wenn ich einen Trend erkenne" ist keine Strategie — es ist ein Gefühl. Eine testbare Version derselben Idee lautet: „Kauf auf dem Tagesschluss, wenn der 50-Perioden-EMA über dem 200-Perioden-EMA liegt, der 14-Perioden-RSI unter 70 steht und der Kurs die 20-Perioden-Mittellinie von oben berührt; Stop Loss bei 1,5 ATR(14) unter dem Einstieg; Ziel bei 2,5 ATR darüber; Risiko ein Prozent des Kapitals pro Trade." Nur solche Regeln lassen sich ehrlich testen.
Ein verwandtes Thema ist die Suche nach einem echten Trading-Vorteil — wenn du nicht weißt, worin dein Vorteil besteht, sagt dir der Backtest das schnell und brutal. Weitere Grundlagen zur systematischen Herangehensweise findest du in der Praktischen Werkstatt.
Woher historische Daten kommen und wie viele Trades genug sind
Daten sind die zweite große Fehlerquelle. Tick-Historie von einem Broker deckt sich nie Pip für Pip mit der eines anderen — unterschiedliches Ausführungsmodell, unterschiedliche Liquiditätsquelle. Bei einer eng gesetzten Stop-Loss-Strategie entscheidet genau diese Differenz über das Ergebnis. Für Intraday-Strategien empfehlen sich CME-Futures-Daten — zentral und auditierbar. Für Swing auf Tageskerzen reicht die Brokerhistorie eines renommierten Anbieters. Wenn du zwischen dem eingebauten Strategy Tester in MetaTrader und einer dedizierten Software abwägst, lohnt sich ein genauerer Blick in die Backtesting-Werkzeuge im Praxisbereich.
Die zweite Frage ist die Stichprobengröße. Eine seit Jahrzehnten in der Literatur verankerte Regel lautet: mindestens hundert Trades im Test — sonst ist das Ergebnis leicht ein Zufallsgeschenk. Dreißig herausragende Trades in einem Halbjahresfenster bedeuten nichts. Hundert ist die Untergrenze statistischer Signifikanz; Profis zielen auf dreihundert oder mehr. Eine Swing-Strategie auf D1 braucht fünf Jahre, Daytrading zwei, Scalping ein Jahr echter Tick-Daten.
Fünf Jahre haben einen weiteren Vorzug: Sie decken mehrere Marktphasen ab. Das vergangene Jahrzehnt brachte ausgeprägte Trends (DXY 2014–2017), einen Volatilitätsschock (März 2020), einen Straffungszyklus (2022–2023) und anschließend eine Konsolidierungsphase (2024). Eine Strategie, die nur in einer Phase funktioniert, ist keine Strategie — sie ist eine Illusion, die an eine einzige Ära angepasst wurde.
Spread, Kommission und Slippage — ohne sie lügt der Backtest
Der häufigste „Wunder-Backtest" vergaß schlicht, die Transaktionskosten abzuziehen. Bei einem Swing-Trade auf H4 mit einem Ziel von 200 Pips fällt ein Spread von 0,8 Pips kaum ins Gewicht. Für einen Scalper, der täglich dreißig Trades mit einem Fünf-Pip-Ziel macht, frisst derselbe Spread den größten Teil des Vorteils. Ein realistischer Test muss den aktuellen Broker-Spread, die Kommission pro Lot und — bei ausführungssensiblen Strategien — die Slippage (Kursschlupf) berücksichtigen: die Differenz zwischen dem Kurs im Moment des Klicks und dem tatsächlich erhaltenen Ausführungskurs.
Meine eigene Schwelle: Wenn der durchschnittliche Gewinn pro Trade weniger als das Doppelte der durchschnittlichen Gesamtkosten (Spread, Kommission und angenommene Slippage zusammen) beträgt, hat die Strategie keine Sicherheitsmarge. Harsch, aber es erspart monatelange Selbsttäuschung. Eine separate Falle sind Indikatoren, die ihre historischen Werte nachträglich neu zeichnen (Repainting) — im Backtest sehen sie makellos aus, verhalten sich im Livebetrieb aber völlig anders.
Eine an die Geschichte angepasste Kurve ist keine Strategie — sie ist ein Museum
Die Falle, in die die meisten Autodidakten tappen, heißt Überanpassung (Curve-Fitting). Sie sieht so aus: Du testest dreißig Parameterwerte, wählst den besten und verkündest, die Strategie liefere vierzig Prozent pro Jahr. Was du tatsächlich getan hast: Du hast das Rauschen optimiert, nicht das Signal. Je mehr Parameter du dem Optimierer überlässt, desto höher die Wahrscheinlichkeit, dass das Ergebnis Zufall ist. Robert Pardo, Autor des Klassikers zur Bewertung von Handelssystemen, bringt es auf den Punkt:
„Der Out-of-Sample-Test ist das einzige ehrliche Maß für die Qualität einer Strategie. Wenn ein System seinen Vorteil auf Daten, die es während der Optimierung nicht gesehen hat, nicht behält, wurde es an die Geschichte angepasst — nicht an den Markt." — Robert Pardo, The Evaluation and Optimization of Trading Strategies, Wiley, 2008.
Daher die Aufteilung in In-Sample-Tuning und Out-of-Sample-Bestätigung, typischerweise siebzig zu dreißig Prozent. Ist das Out-of-Sample-Ergebnis deutlich schlechter, liegt Überanpassung vor — die Strategie ist in ihrer aktuellen Form nicht livefähig. Ein rigoroserer Ansatz ist die Walk-Forward-Analyse, die abwechselnd ein Optimierungsfenster und ein Bestätigungsfenster durch die Geschichte rollt. Der beste Schutz, den wir haben, gegen falsches Vertrauen in einen Backtest.
Ein hypothetisches Beispiel — wie man die Zahlen ehrlich liest
Stell dir eine Swing-Strategie auf EUR/USD D1 vor, getestet über 2019–2024. Illustratives Ergebnis: 147 Trades, Trefferquote 54 Prozent, durchschnittliches Chance-Risiko-Verhältnis (CRV) 2,3 zu 1, Profit Factor 1,78, Drawdown 14,5 Prozent, Nettorendite plus 87 Prozent über fünf Jahre (rund 13,3 Prozent pro Jahr, annualisiert). Unspektakulär, aber realistisch — eine Schablone, kein echter Kontoauszug. Ein sinnvoller nächster Schritt ist eine Monte-Carlo-Simulation, die die Reihenfolge der Trades zufällig durchmischt und zeigt, wie die Equity-Kurve unter verschiedenen Sequenzen hätte verlaufen können. Die Grundlagen der Strategie-Evaluation helfen dir dabei, solche Zahlen richtig einzuordnen.
Was jetzt zu tun ist
Wissen über Backtesting beginnt erst dann zu wirken, wenn du selbst einen Test durchführst und die Ergebnisse mit deinem Handelsjournal abgleichst. Die fünf Schritte unten kosten einige Nachmittage und schützen vor den häufigsten Fehlern eines wachsenden Traders.
- Schreibe die Strategie vollständig und mechanisch in eine Textdatei. Jeder Einstieg, jeder Ausstieg, jeder Stop Loss und jeder Filter muss so formuliert sein, dass eine andere Person, die dieselben Regeln liest, identische Trades eröffnet. Wenn du irgendwo „hängt von der Situation ab" schreiben musst, kehre zurück und präzisiere die Regel — ein Backtest liest nicht zwischen den Zeilen.
- Sammle fünf Jahre Daten für Swing oder zwei für Daytrading und teile sie vorab auf. Die ersten siebzig Prozent reservierst du für die Regeloptimierung, die letzten dreißig Prozent sperrst du, bis die Strategie endgültig steht. Erst dann führst du den Test auf dem reservierten Teil durch — das ist deine echte Prüfung.
- Injiziere realistische Kosten in jede Simulation. Addiere den aktuellen Broker-Spread, die Kommission pro Lot und eine angenommene Slippage — mit separaten Werten für ruhige Phasen und für Fenster rund um wichtige Makrodaten. Wenn die Strategie nach Abzug der Kosten mehr als zwanzig Prozent ihres Gewinns verliert, ist das Urteil klar: keine Sicherheitsmarge.
- Setze eine harte Untergrenze von hundert Trades. Produziert das Zeitfenster weniger, verlängere die Historie, füge Instrumente aus derselben Familie hinzu oder akzeptiere, dass das Ergebnis eine Hypothese ist und kein Beweis. Notiere Tradeanzahl, durchschnittlichen Drawdown und Trefferquote — diese drei Zahlen sagen mehr als die Gesamtrendite allein.
- Nach einem erfolgreichen Backtest mindestens drei Monate im Demo handeln, bevor du live gehst. Vergleiche die Demo-Statistiken mit dem Backtest — liegt die Demo deutlich darunter, ist das ein Signal für Überanpassung, unterschätzte Kosten oder einen Programmierfehler. Kehre zu den Regeln zurück, nicht zur Hoffnung, dass es auf dem Livekonto besser wird. Ein guter Backtest garantiert nie ein gutes Liveergebnis — er verdient lediglich das Recht auf einen Versuch.
Quellen und Literatur
-
MetaQuotes Strategy Testing in MetaTrader 5 · oficjalna dokumentacja testera strategii (testowanie i optymalizacja na danych historycznych) www.metatrader5.com ↗
-
MQL5 Reference Testing Trading Strategies · dokumentacja deweloperska MQL5: tryby generowania tików, symulacja spreadu, testy wielowalutowe www.mql5.com ↗
-
Bank for International Settlements OTC foreign exchange turnover in April 2022 · Triennial Central Bank Survey — dane o strukturze rynku FX (kontekst dla backtestu instrumentów detalicznych) www.bis.org ↗
Häufig gestellte Fragen
Was ist Überanpassung einer Strategie?
Überanpassung (Curve-Fitting) ist die Situation, in der die Parameter einer Strategie so eng an vergangene Kursdaten angepasst wurden, dass sie mit neuen Daten nicht mehr umgehen können. Das klassische Symptom: ein Backtest mit fünfundneunzig Prozent Trefferquote und ein Livekonto mit dreißig. Der Grund ist einfach: Eine Trefferquote von fünfundneunzig Prozent ist im Forex-Handel langfristig nicht haltbar — reale Strategien bewegen sich im Bereich von fünfzig bis sechzig Prozent. Zeigt dein Backtest mehr als siebzig Prozent Gewinner, werte das als Warnsignal und verdächtige Überanpassung, bis das Gegenteil bewiesen ist.
Welche Software eignet sich für das Backtesting?
Für Einsteiger ist die beste Wahl der eingebaute Strategy Tester in MetaTrader 5: kostenlos, unterstützt Multi-Währungstests, echte Tick-Daten und genetische Optimierung. MetaTrader 4 wird noch verwendet, ist aber auf ein Instrument und einen Zeitrahmen beschränkt. Forex Tester 5 kostet rund dreihundert Dollar und bietet manuelles Kerze-für-Kerze-Testing — ein gutes Werkzeug für Trader, die ein visuelles Gespür für die Regeln entwickeln möchten, bevor sie automatisieren. Pine Script in TradingView reicht für einfache Tests auf einem einzelnen Instrument. In der Praxis gehören die meisten ernsthaften Tests in MT5 oder in eine Python-Skriptumgebung mit dedizierten Backtesting-Bibliotheken.
Wie viele historische Daten brauche ich für einen ehrlichen Test?
Für Swing- und Positionsstrategien gilt als Faustregel mindestens fünf Jahre Daten, für Daytrading zwei Jahre und für Scalping ein Jahr echter Tick-Historie. Diese Fenster sind nicht nach Kalendermagie gewählt — sie sorgen dafür, dass der Test verschiedene Marktphasen abdeckt: Trend, Range und hohe Volatilität. Unabhängig vom Zeitrahmen gilt zudem eine statistische Bedingung: mindestens hundert Trades im Test, damit das Ergebnis kein Zufallstreffer ist. Profis zielen auf dreihundert oder mehr. Produziert deine Historie weniger Trades, verlängere das Fenster oder füge Instrumente aus derselben Familie hinzu — sonst testest du eine Hypothese, keine Strategie.
Wie sehen realistische Ergebnisse eines guten Backtests aus?
Realistische Zahlen sind eine Trefferquote von fünfzig bis sechzig Prozent, ein durchschnittliches Chance-Risiko-Verhältnis (CRV) von mindestens 2 zu 1, ein Profit Factor im Bereich 1,5 bis 3,0 und ein maximaler Drawdown unter zwanzig Prozent — bei mindestens hundert Trades und dem Ergebnis bestätigt in einem Out-of-Sample-Fenster. Ein Sharpe-Quotient über eins zeigt ein vernünftiges Verhältnis von Rendite zu Volatilität. Rote Flaggen sind eine Trefferquote über achtzig Prozent, ein Profit Factor über fünf und ein Drawdown unter fünf Prozent — diese Kombination signalisiert fast immer Überanpassung, keinen echten Vorteil.