Jak się buduje system automatycznego tradingu — ile danych, ile czasu, jak nie oszukać samego siebie
research wdepyd24p2026-06-234 wątki u źródła + sceptykCarver · López de Prado · Chan
Pełne wyjaśnienie po ludzku — bez wymyślonych skrótów. Odpowiedź na pytanie: „skoro testujesz coś na małych danych i odkładasz — ile realnie trzeba?"
Werdykt jednym zdaniem
Od wiarygodnego „tak/nie" dzieli nas: dla mikrostruktury ~6–12 tygodni ciągłego zbierania danych i kilkaset niezależnych transakcji, dla trendu ~2–4 miesiące badań — a odłożenie 3-dniowego wyniku „na półkę" było słuszne, bo na takiej próbie da się strategię tylko obalić, nigdy potwierdzić.
→Wnioski — co z tego wynika dla NAS
Nie „co mówią książki", tylko co MY z tego robimy. Sześć decyzji:
Nasz 3-dniowy wynik to nie porażka i nie sukces — to „za mało danych". Decyzja: model zamrażamy, zbieramy 6–12 tygodni, re-testujemy na nowych oknach. Zero dłubania parametrów, żeby „przeskoczyć" koszt.
Gramy w DWIE strategie naraz, nie w jedną. Mikrostruktura nigdy nie da nam „tak" — może tylko obalać i pilnować, że wypełnienie nie kłamie. Trend na koszyku monet to jedyny realny kandydat na „tak". Budujemy portfel, nie zakład.
Celujemy w Sharpe 1–2 netto, nie 5–8. Nie ścigamy Medallionu. Ścigamy coś, co da się udowodnić na liczbie danych, którą realnie zbierzemy.
Największe ryzyko to nie brak sygnału — to oszukanie samego siebie. Stąd żelazne: kontrole losowe, skrytka na dane, korekta o liczbę prób. Każdy „ładny wynik" jest podejrzanym, póki nie przejdzie bramek.
Jesteśmy ~4–6 miesięcy od pierwszego uczciwego micro-live — i to jest NORMALNE. Nie spóźnieni, nie na minusie. Brakuje nam głównie danych, które same się zbierają.
Najpilniejszy ruch teraz: policzyć, ile NAPRAWDĘ mamy niezależnych obserwacji (efektywne N) — bo „72 tysiące etykiet" to złudzenie. To ustawi czarno na białym, jak daleko realnie jesteśmy.
1Sedno: czemu „mało danych" to realny problem
Jest jedna asymetria, którą trzeba zrozumieć, bo z niej wynika wszystko inne:
Mała próba może strategię OBALIĆ — ale NIGDY jej nie POTWIERDZI. Łatwo coś zepsuć (jeden zły dzień obala), trudno udowodnić (potrzeba wielu różnych sytuacji rynku, żeby uwierzyć).
Druga rzecz, mniej oczywista: liczy się liczba NIEZALEŻNYCH transakcji, a nie dni ani „ticków" (pojedynczych drgnięć ceny).
Trzy dni dają tysiące ticków — ale one są ze sobą silnie powiązane (ten sam nastrój rynku, jeden reżim).
Po odjęciu tego powiązania zostaje garstka naprawdę niezależnych obserwacji. „72 tysiące etykiet" potrafi być w praktyce wartością kilkudziesięciu.
Gdzie jesteśmy my (uczciwie): nasz sygnał bije test losowy (czyli to nie czysty przypadek),
ale leży ~1 punkt bazowy POD ścianą kosztu. To nie jest „obalone" ani „potwierdzone" — to jest
„za mało danych, żeby rozstrzygnąć". Dlatego: odłożyć i zbierać dalej — a nie kasować, i absolutnie nie wdrażać.
(1 punkt bazowy = 0,01%. „Ściana kosztu" = prowizja + poślizg, które trzeba przeskoczyć, żeby w ogóle wyjść na zero.)
→ dla nas: nasz wynik nie jest wyrokiem — jest „odłóż i zbieraj dalej". Jedyny błąd byłby teraz uwierzyć w niego (za mało danych) albo wyrzucić (bije test losowy, więc coś tam jest).
2Jak się buduje — 7 bramek
Zasada zawodowców jest jedna: najpierw falsyfikuj tanio, kapitał wydawaj na końcu.
Każda następna bramka odpala się TYLKO, gdy poprzednia zaliczona. Im dalej, tym drożej — więc odsiewamy jak najwięcej jak najwcześniej.
Każdy odsiew po lewej oszczędza pieniądze po prawej. Kontroli losowych (czy bijesz rzut monetą) nie wolno pominąć — to bramka nr 1.
Hipoteza — pisemna i obalalna, z uzasadnieniem, dlaczego ta przewaga ma prawo istnieć (gdzie leży pieniądz i czemu ktoś nam go oddaje). Nie „momentum działa", tylko „dlaczego akurat tu".
Dane — uczciwe: bez „przeżywalności" (uwzględnij monety, które zdechły), z prawdziwą głębokością książki i realnym wypełnieniem zleceń. To nasza blizna (iluzja płynności).
Backtest na danych historycznych — z kosztami i poślizgiem od pierwszej świecy, proste reguły, max ~5 pokręteł (parametrów).
Sprawdzian na nieznanych danych (out-of-sample / walk-forward) — uczysz na starszym okresie, testujesz na nowszym, którego model nie widział, w wielu sytuacjach rynku.
Kontrole negatywne — strategia musi bić wchodzenie losowe i pomieszany sygnał. To jedyny uczciwy test szczelności.
Paper / na sucho na żywo — świeże dane, realny czas, zero pieniędzy; sprawdzamy, czy live zgadza się z backtestem.
Micro-live → skalowanie — najpierw grosze realnego kapitału, dopiero gdy live = paper bez rozjazdu, powoli zwiększamy.
→ dla nas: jesteśmy na bramce 4–5 dla mikrostruktury (mamy sprawdzian na nieznanych danych + kontrole losowe) i przed bramką 1 dla trendu (nie napisaliśmy jeszcze hipotezy). Realny kapitał (bramka 7) jest świadomie daleko — i dobrze.
3Ile danych i czasu — twarde liczby
Najczęstszy błąd: mylić „dużo ticków" z „dużo dowodu". Liczy się liczba niezależnych transakcji. Konkrety ze źródeł:
Pytanie
Liczba
Źródło
Potwierdzić, że przewaga > 0 (95% pewności)
681 niezależnych punktów ≈ 2,7 roku dziennych
Chan
Potwierdzić mocną przewagę (Sharpe ≈ 1)
2739 ≈ 10,9 roku
Chan
Liczba transakcji do wiarygodności
~30 podłoga · ~100 podstawa · 200–500 poważnie
praktyka
Minimum danych dziennych na jedną regułę
~10 lat
Carver
Ile prób, zanim wynik to już przypadek
już po 7 niezależnych wariantach Sharpe 1,0 = szum
Bailey–López de Prado, AMS 2014
Czas rozwoju strategii w funduszu
6 mies. – 2 lata
praktyka
„Sharpe" = miara jakości: ile zysku na jednostkę ryzyka (wahań). Sharpe 1 to solidnie, Sharpe 5–8 to poziom legendarnego funduszu Medallion (wymaga dziesiątek tysięcy niezależnych zakładów — nie nasz cel).
Po ludzku: żeby UWIERZYĆ w strategię, trzeba ją zobaczyć działającą przez setki różnych transakcji w wielu różnych nastrojach rynku. Trzy dni jednej monety to jeden nastrój — z definicji za mało, nawet gdyby liczby wyglądały pięknie.
→ dla nas: 3 dni jednej monety to ułamek tego, co trzeba. Konkretny próg, zanim cokolwiek zaczniemy traktować poważnie: tygodnie zbierania + kilkaset niezależnych transakcji przez różne nastroje rynku — nie liczba ticków.
4Jak się tweakuje strategię, NIE oszukując samego siebie
Nie ma magicznego limitu „ile wariantów wolno". Jest mechanizm — i jest brutalny:
Jeśli wypróbujesz dość wariantów, zawsze trafisz taki, który na przeszłości wygląda świetnie — czysto przez przypadek.
Według teorii (Bailey–López de Prado): już po 7 niezależnych próbach najlepszy z nich może mieć Sharpe 1,0 na przeszłości i zero na przyszłości.
Jak się przed tym bronić
Licz uczciwie liczbę NIEZALEŻNYCH prób. 200 wariantów jednego pomysłu na BTC to nie 200 niezależnych prób — może 10. Policzysz za nisko = znów się oszukasz.
Podnoś poprzeczkę z liczbą prób („zdeflowany Sharpe"): im więcej wariantów testowałeś, tym wyższy wynik musisz pokazać, żeby był wiarygodny.
Skrytka (lockbox). Odłóż kawałek danych, którego dotykasz raz, na samym końcu. Jak zaglądasz iteracyjnie — przestaje być sprawdzianem.
Nie dłub parametrów, żeby „przeskoczyć" próg. Wynik tuż pod kreską to najgroźniejsze miejsce — kuszące do podkręcania, aż „zadziała". Tak się robi krzywą dopasowaną do przeszłości, bezużyteczną w przyszłości.
Reguła decyzji: zabić, odłożyć czy trzymać
Decyzja
Kiedy
ZABIĆ
na nieznanych danych traci po kosztach, albo wynik znika po korekcie o liczbę prób
ODŁOŻYĆ
przewaga istnieje strukturalnie, ale za mało danych, by ją potwierdzić → zbieraj dalej, NIE dłub. ← to my teraz
TRZYMAĆ
dodatni wynik po realnych kosztach na danych, których model nie widział, z udokumentowaną liczbą prób
→ dla nas: nasz wynik „+1 bps pod ścianą" to dokładnie miejsce, gdzie kuszi dłubać. Dlatego decyzja jest twarda: model zamrożony, re-test na nowych danych, a nie podkręcanie aż „zadziała".
5Jak się tym zarządza — portfel, nie jedna strategia
Zawodowcy nie szukają „jednej świętej strategii". Prowadzą portfel wielu. Dlaczego — to czysta matematyka:
Fabryka strategii: kilka słabych, ale niezależnych strumieni, każdy doskalowany do tego samego ryzyka, razem dają jakość rosnącą jak √N (pierwiastek z ich liczby). Cztery niezależne, średnie strategie biją jedną świetną.
Ale: powiązanie zabija. Dwie strategie skorelowane w 50% to nie 2 niezależne zakłady, tylko 1,33. Dlatego goni się o nieskorelowane źródła zysku.
Podział kapitału: grupuj strategie po podobieństwie (co się rusza razem, konkuruje jako grupa), zamiast traktować każdą osobno.
Budżet ryzyka: celuj w stałą zmienność portfela i bierz pół-Kelly (połowę matematycznie „optymalnej" wielkości) — bo nigdy nie jesteś pewien swojej przewagi. Start ~12% rocznej zmienności.
Wygasanie przewagi (zmierzone, nie opinia): przewagi słabną — średnio −26% już na nieznanych danych, −58% po opublikowaniu (McLean–Pontiff). Monitoruj kształt rozkładu wyników, nie samą sumę — zmiana kształtu wyprzedza spadek zysku.
Wyłącznik bezpieczeństwa (kill-switch) od pierwszego dnia z realnym kapitałem + limity przed-transakcyjne. Knight Capital stracił 440 mln USD w 45 minut, bo ich nie miał.
→ dla nas: mikrostruktura (A) i trend (B) są z natury nieskorelowane — to idealny materiał na portfel. Nie wybieramy „A albo B"; budujemy obie i łączymy, gdy każda osobno przejdzie bramki.
6Plan dla NAS — dwie ścieżki jako portfel
Nie stawiamy na jedną. Prowadzimy obie, bo mają różne role:
A — mikrostruktura (orderbook BTC)
B — trend na koszyku monet
rola
maszyna do falsyfikacji + test szczelności (czy fill nie kłamie)
jedyny realny kandydat na potwierdzony zysk (wiele monet × reżimów)
dane
zbierać 6–12 tyg. BTC + ETH + SOL
lata świec, top-100 płynnych monet
model
ZAMROŻONY — zero dłubania, re-test na nowych oknach
max ~5 parametrów, sprawdzian na nieznanych danych
cel
nie obiecujemy zysku — ma falsyfikować
Sharpe 1,0–2,0 netto (nie 5–8)
decyzja
po 6–12 tyg.: dalej pod kosztem na uczciwym fillu → zabić; przeskoczy trwale → micro-live
kandydat do paper za ~2–4 mies.
Do pierwszego uczciwego micro-live: ~4–6 miesięcy. To normalne tempo małego zespołu — nie porażka, nie spóźnienie.
7Uczciwe korekty — mity i folklor
„Trend ma Sharpe 1,8+" to MIT. Realny długoterminowy Sharpe strategii trendowych to ~0,3–0,7. Dla ścieżki B: nie celuj w jakość, której trend nie ma. (Świeży krypto-wynik 1,3–1,9 traktujemy z rezerwą — to ostatnie lata, nie pewnik.)
„200–500 transakcji = poziom instytucjonalny (López de Prado)" — liczba rozsądna, ale to folklor branżowy doklejony do nazwiska, nie twierdzenie z pracy.
„95% backtestów pada w realu" — krąży bez jednego twardego źródła. Orientacyjnie tak, ale to nie udowodniona stała.
8Źródła — i co realnie potwierdzono
Praca / autor
Co z niej
Status
Bailey, Borwein, López de Prado, Zhu — „Pseudo-Mathematics…", Notices of the AMS 2014
7 prób → Sharpe 1 = szum; liczba prób a przeuczenie
recenzowane
Bailey & López de Prado — Deflated Sharpe / minimalna długość historii, JPM 2014
jak korygować wynik o liczbę prób i długość próby
recenzowane
López de Prado — Advances in Financial ML 2018; HRP 2016
walidacja bez wycieku przyszłości; podział kapitału po grupach
książka / recenz.
E. Chan — Quantitative/Algorithmic Trading
681 punktów / 2,7 roku na potwierdzenie przewagi
zweryfikowane u źródła
R. Carver — Systematic Trading
fabryka strategii, √N, ~10 lat danych, pół-Kelly
praktyka (CTA dzienne)
McLean & Pontiff, J. Finance 2016
wygasanie przewagi: −26% / −58%
recenzowane
⚡ Satoshi · strona-wyjaśnienie do researchu wdepyd24p · 2026-06-23 · sędzia zawsze = zysk po kosztach na uczciwym wypełnieniu.
Najważniejszy wniosek: nie jesteśmy spóźnieni ani na minusie — jesteśmy ~4–6 miesięcy w normalnym procesie, a brakuje nam głównie danych, które same się zbierają.