⚡ Satoshi

Jak się buduje system automatycznego tradingu — ile danych, ile czasu, jak nie oszukać samego siebie

research wdepyd24p 2026-06-23 4 wątki u źródła + sceptyk Carver · López de Prado · Chan
Pełne wyjaśnienie po ludzku — bez wymyślonych skrótów. Odpowiedź na pytanie: „skoro testujesz coś na małych danych i odkładasz — ile realnie trzeba?"
Werdykt jednym zdaniem
Od wiarygodnego „tak/nie" dzieli nas: dla mikrostruktury ~6–12 tygodni ciągłego zbierania danych i kilkaset niezależnych transakcji, dla trendu ~2–4 miesiące badań — a odłożenie 3-dniowego wyniku „na półkę" było słuszne, bo na takiej próbie da się strategię tylko obalić, nigdy potwierdzić.

Wnioski — co z tego wynika dla NAS

Nie „co mówią książki", tylko co MY z tego robimy. Sześć decyzji:

  1. Nasz 3-dniowy wynik to nie porażka i nie sukces — to „za mało danych". Decyzja: model zamrażamy, zbieramy 6–12 tygodni, re-testujemy na nowych oknach. Zero dłubania parametrów, żeby „przeskoczyć" koszt.
  2. Gramy w DWIE strategie naraz, nie w jedną. Mikrostruktura nigdy nie da nam „tak" — może tylko obalać i pilnować, że wypełnienie nie kłamie. Trend na koszyku monet to jedyny realny kandydat na „tak". Budujemy portfel, nie zakład.
  3. Celujemy w Sharpe 1–2 netto, nie 5–8. Nie ścigamy Medallionu. Ścigamy coś, co da się udowodnić na liczbie danych, którą realnie zbierzemy.
  4. Największe ryzyko to nie brak sygnału — to oszukanie samego siebie. Stąd żelazne: kontrole losowe, skrytka na dane, korekta o liczbę prób. Każdy „ładny wynik" jest podejrzanym, póki nie przejdzie bramek.
  5. Jesteśmy ~4–6 miesięcy od pierwszego uczciwego micro-live — i to jest NORMALNE. Nie spóźnieni, nie na minusie. Brakuje nam głównie danych, które same się zbierają.
  6. Najpilniejszy ruch teraz: policzyć, ile NAPRAWDĘ mamy niezależnych obserwacji (efektywne N) — bo „72 tysiące etykiet" to złudzenie. To ustawi czarno na białym, jak daleko realnie jesteśmy.

1Sedno: czemu „mało danych" to realny problem

Jest jedna asymetria, którą trzeba zrozumieć, bo z niej wynika wszystko inne:

Mała próba może strategię OBALIĆ — ale NIGDY jej nie POTWIERDZI.
Łatwo coś zepsuć (jeden zły dzień obala), trudno udowodnić (potrzeba wielu różnych sytuacji rynku, żeby uwierzyć).

Druga rzecz, mniej oczywista: liczy się liczba NIEZALEŻNYCH transakcji, a nie dni ani „ticków" (pojedynczych drgnięć ceny). Trzy dni dają tysiące ticków — ale one są ze sobą silnie powiązane (ten sam nastrój rynku, jeden reżim). Po odjęciu tego powiązania zostaje garstka naprawdę niezależnych obserwacji. „72 tysiące etykiet" potrafi być w praktyce wartością kilkudziesięciu.

Gdzie jesteśmy my (uczciwie): nasz sygnał bije test losowy (czyli to nie czysty przypadek), ale leży ~1 punkt bazowy POD ścianą kosztu. To nie jest „obalone" ani „potwierdzone" — to jest „za mało danych, żeby rozstrzygnąć". Dlatego: odłożyć i zbierać dalej — a nie kasować, i absolutnie nie wdrażać.
(1 punkt bazowy = 0,01%. „Ściana kosztu" = prowizja + poślizg, które trzeba przeskoczyć, żeby w ogóle wyjść na zero.)
→ dla nas: nasz wynik nie jest wyrokiem — jest „odłóż i zbieraj dalej". Jedyny błąd byłby teraz uwierzyć w niego (za mało danych) albo wyrzucić (bije test losowy, więc coś tam jest).

2Jak się buduje — 7 bramek

Zasada zawodowców jest jedna: najpierw falsyfikuj tanio, kapitał wydawaj na końcu. Każda następna bramka odpala się TYLKO, gdy poprzednia zaliczona. Im dalej, tym drożej — więc odsiewamy jak najwięcej jak najwcześniej.

Hipoteza Dane Backtest OOS Kontrole losowe Paper Micro live tanio, dużo pomysłów → ← drogo, realny kapitał
Każdy odsiew po lewej oszczędza pieniądze po prawej. Kontroli losowych (czy bijesz rzut monetą) nie wolno pominąć — to bramka nr 1.
  1. Hipoteza — pisemna i obalalna, z uzasadnieniem, dlaczego ta przewaga ma prawo istnieć (gdzie leży pieniądz i czemu ktoś nam go oddaje). Nie „momentum działa", tylko „dlaczego akurat tu".
  2. Dane — uczciwe: bez „przeżywalności" (uwzględnij monety, które zdechły), z prawdziwą głębokością książki i realnym wypełnieniem zleceń. To nasza blizna (iluzja płynności).
  3. Backtest na danych historycznych — z kosztami i poślizgiem od pierwszej świecy, proste reguły, max ~5 pokręteł (parametrów).
  4. Sprawdzian na nieznanych danych (out-of-sample / walk-forward) — uczysz na starszym okresie, testujesz na nowszym, którego model nie widział, w wielu sytuacjach rynku.
  5. Kontrole negatywne — strategia musi bić wchodzenie losowe i pomieszany sygnał. To jedyny uczciwy test szczelności.
  6. Paper / na sucho na żywo — świeże dane, realny czas, zero pieniędzy; sprawdzamy, czy live zgadza się z backtestem.
  7. Micro-live → skalowanie — najpierw grosze realnego kapitału, dopiero gdy live = paper bez rozjazdu, powoli zwiększamy.
→ dla nas: jesteśmy na bramce 4–5 dla mikrostruktury (mamy sprawdzian na nieznanych danych + kontrole losowe) i przed bramką 1 dla trendu (nie napisaliśmy jeszcze hipotezy). Realny kapitał (bramka 7) jest świadomie daleko — i dobrze.

3Ile danych i czasu — twarde liczby

Najczęstszy błąd: mylić „dużo ticków" z „dużo dowodu". Liczy się liczba niezależnych transakcji. Konkrety ze źródeł:

PytanieLiczbaŹródło
Potwierdzić, że przewaga > 0 (95% pewności)681 niezależnych punktów ≈ 2,7 roku dziennychChan
Potwierdzić mocną przewagę (Sharpe ≈ 1)273910,9 rokuChan
Liczba transakcji do wiarygodności~30 podłoga · ~100 podstawa · 200–500 poważniepraktyka
Minimum danych dziennych na jedną regułę~10 latCarver
Ile prób, zanim wynik to już przypadekjuż po 7 niezależnych wariantach Sharpe 1,0 = szumBailey–López de Prado, AMS 2014
Czas rozwoju strategii w funduszu6 mies. – 2 latapraktyka

„Sharpe" = miara jakości: ile zysku na jednostkę ryzyka (wahań). Sharpe 1 to solidnie, Sharpe 5–8 to poziom legendarnego funduszu Medallion (wymaga dziesiątek tysięcy niezależnych zakładów — nie nasz cel).

Po ludzku: żeby UWIERZYĆ w strategię, trzeba ją zobaczyć działającą przez setki różnych transakcji w wielu różnych nastrojach rynku. Trzy dni jednej monety to jeden nastrój — z definicji za mało, nawet gdyby liczby wyglądały pięknie.
→ dla nas: 3 dni jednej monety to ułamek tego, co trzeba. Konkretny próg, zanim cokolwiek zaczniemy traktować poważnie: tygodnie zbierania + kilkaset niezależnych transakcji przez różne nastroje rynku — nie liczba ticków.

4Jak się tweakuje strategię, NIE oszukując samego siebie

Nie ma magicznego limitu „ile wariantów wolno". Jest mechanizm — i jest brutalny:

Jeśli wypróbujesz dość wariantów, zawsze trafisz taki, który na przeszłości wygląda świetnie — czysto przez przypadek. Według teorii (Bailey–López de Prado): już po 7 niezależnych próbach najlepszy z nich może mieć Sharpe 1,0 na przeszłości i zero na przyszłości.

Jak się przed tym bronić

Reguła decyzji: zabić, odłożyć czy trzymać

DecyzjaKiedy
ZABIĆna nieznanych danych traci po kosztach, albo wynik znika po korekcie o liczbę prób
ODŁOŻYĆprzewaga istnieje strukturalnie, ale za mało danych, by ją potwierdzić → zbieraj dalej, NIE dłub. ← to my teraz
TRZYMAĆdodatni wynik po realnych kosztach na danych, których model nie widział, z udokumentowaną liczbą prób
→ dla nas: nasz wynik „+1 bps pod ścianą" to dokładnie miejsce, gdzie kuszi dłubać. Dlatego decyzja jest twarda: model zamrożony, re-test na nowych danych, a nie podkręcanie aż „zadziała".

5Jak się tym zarządza — portfel, nie jedna strategia

Zawodowcy nie szukają „jednej świętej strategii". Prowadzą portfel wielu. Dlaczego — to czysta matematyka:

Fabryka strategii: kilka słabych, ale niezależnych strumieni, każdy doskalowany do tego samego ryzyka, razem dają jakość rosnącą jak √N (pierwiastek z ich liczby). Cztery niezależne, średnie strategie biją jedną świetną.
Ale: powiązanie zabija. Dwie strategie skorelowane w 50% to nie 2 niezależne zakłady, tylko 1,33. Dlatego goni się o nieskorelowane źródła zysku.
→ dla nas: mikrostruktura (A) i trend (B) są z natury nieskorelowane — to idealny materiał na portfel. Nie wybieramy „A albo B"; budujemy obie i łączymy, gdy każda osobno przejdzie bramki.

6Plan dla NAS — dwie ścieżki jako portfel

Nie stawiamy na jedną. Prowadzimy obie, bo mają różne role:

 A — mikrostruktura (orderbook BTC)B — trend na koszyku monet
rolamaszyna do falsyfikacji + test szczelności (czy fill nie kłamie)jedyny realny kandydat na potwierdzony zysk (wiele monet × reżimów)
danezbierać 6–12 tyg. BTC + ETH + SOLlata świec, top-100 płynnych monet
modelZAMROŻONY — zero dłubania, re-test na nowych oknachmax ~5 parametrów, sprawdzian na nieznanych danych
celnie obiecujemy zysku — ma falsyfikowaćSharpe 1,0–2,0 netto (nie 5–8)
decyzjapo 6–12 tyg.: dalej pod kosztem na uczciwym fillu → zabić; przeskoczy trwale → micro-livekandydat do paper za ~2–4 mies.
teraz ~6–12 tyg. ~2–4 mies. ~4–6 mies. A: zbieranie + analiza → werdykt B: research + walidacja → kandydat do paper 1. micro-live
Do pierwszego uczciwego micro-live: ~4–6 miesięcy. To normalne tempo małego zespołu — nie porażka, nie spóźnienie.

7Uczciwe korekty — mity i folklor

8Źródła — i co realnie potwierdzono

Praca / autorCo z niejStatus
Bailey, Borwein, López de Prado, Zhu — „Pseudo-Mathematics…", Notices of the AMS 20147 prób → Sharpe 1 = szum; liczba prób a przeuczenierecenzowane
Bailey & López de Prado — Deflated Sharpe / minimalna długość historii, JPM 2014jak korygować wynik o liczbę prób i długość próbyrecenzowane
López de Prado — Advances in Financial ML 2018; HRP 2016walidacja bez wycieku przyszłości; podział kapitału po grupachksiążka / recenz.
E. Chan — Quantitative/Algorithmic Trading681 punktów / 2,7 roku na potwierdzenie przewagizweryfikowane u źródła
R. Carver — Systematic Tradingfabryka strategii, √N, ~10 lat danych, pół-Kellypraktyka (CTA dzienne)
McLean & Pontiff, J. Finance 2016wygasanie przewagi: −26% / −58%recenzowane
⚡ Satoshi · strona-wyjaśnienie do researchu wdepyd24p · 2026-06-23 · sędzia zawsze = zysk po kosztach na uczciwym wypełnieniu.
Najważniejszy wniosek: nie jesteśmy spóźnieni ani na minusie — jesteśmy ~4–6 miesięcy w normalnym procesie, a brakuje nam głównie danych, które same się zbierają.