Jak się buduje system automatycznego tradingu — ile danych, ile czasu, jak nie oszukać samego siebie

research wdepyd24p 2026-06-23 4 wątki u źródła + sceptyk Carver · López de Prado · Chan
Pełne wyjaśnienie po ludzku — bez wymyślonych skrótów. Odpowiedź na pytanie: „skoro testujesz coś na małych danych i odkładasz — ile realnie trzeba?"

Werdykt jednym zdaniem

Od wiarygodnego „tak/nie" dzieli nas: dla mikrostruktury ~6–12 tygodni ciągłego zbierania danych i kilkaset niezależnych transakcji, dla trendu ~2–4 miesiące badań — a odłożenie 3-dniowego wyniku „na półkę" było słuszne, bo na takiej próbie da się strategię tylko obalić, nigdy potwierdzić.

→Wnioski — co z tego wynika dla NAS

Nie „co mówią książki", tylko co MY z tego robimy. Sześć decyzji:

Nasz 3-dniowy wynik to nie porażka i nie sukces — to „za mało danych". Decyzja: model zamrażamy, zbieramy 6–12 tygodni, re-testujemy na nowych oknach. Zero dłubania parametrów, żeby „przeskoczyć" koszt.
Gramy w DWIE strategie naraz, nie w jedną. Mikrostruktura nigdy nie da nam „tak" — może tylko obalać i pilnować, że wypełnienie nie kłamie. Trend na koszyku monet to jedyny realny kandydat na „tak". Budujemy portfel, nie zakład.
Celujemy w Sharpe 1–2 netto, nie 5–8. Nie ścigamy Medallionu. Ścigamy coś, co da się udowodnić na liczbie danych, którą realnie zbierzemy.
Największe ryzyko to nie brak sygnału — to oszukanie samego siebie. Stąd żelazne: kontrole losowe, skrytka na dane, korekta o liczbę prób. Każdy „ładny wynik" jest podejrzanym, póki nie przejdzie bramek.
Jesteśmy ~4–6 miesięcy od pierwszego uczciwego micro-live — i to jest NORMALNE. Nie spóźnieni, nie na minusie. Brakuje nam głównie danych, które same się zbierają.
Najpilniejszy ruch teraz: policzyć, ile NAPRAWDĘ mamy niezależnych obserwacji (efektywne N) — bo „72 tysiące etykiet" to złudzenie. To ustawi czarno na białym, jak daleko realnie jesteśmy.

1Sedno: czemu „mało danych" to realny problem

Jest jedna asymetria, którą trzeba zrozumieć, bo z niej wynika wszystko inne:

Mała próba może strategię OBALIĆ — ale NIGDY jej nie POTWIERDZI.
Łatwo coś zepsuć (jeden zły dzień obala), trudno udowodnić (potrzeba wielu różnych sytuacji rynku, żeby uwierzyć).

Druga rzecz, mniej oczywista: liczy się liczba NIEZALEŻNYCH transakcji, a nie dni ani „ticków" (pojedynczych drgnięć ceny). Trzy dni dają tysiące ticków — ale one są ze sobą silnie powiązane (ten sam nastrój rynku, jeden reżim). Po odjęciu tego powiązania zostaje garstka naprawdę niezależnych obserwacji. „72 tysiące etykiet" potrafi być w praktyce wartością kilkudziesięciu.

Gdzie jesteśmy my (uczciwie): nasz sygnał bije test losowy (czyli to nie czysty przypadek), ale leży ~1 punkt bazowy POD ścianą kosztu. To nie jest „obalone" ani „potwierdzone" — to jest „za mało danych, żeby rozstrzygnąć". Dlatego: odłożyć i zbierać dalej — a nie kasować, i absolutnie nie wdrażać.
(1 punkt bazowy = 0,01%. „Ściana kosztu" = prowizja + poślizg, które trzeba przeskoczyć, żeby w ogóle wyjść na zero.)

→ dla nas: nasz wynik nie jest wyrokiem — jest „odłóż i zbieraj dalej". Jedyny błąd byłby teraz uwierzyć w niego (za mało danych) albo wyrzucić (bije test losowy, więc coś tam jest).

2Jak się buduje — 7 bramek

Zasada zawodowców jest jedna: najpierw falsyfikuj tanio, kapitał wydawaj na końcu. Każda następna bramka odpala się TYLKO, gdy poprzednia zaliczona. Im dalej, tym drożej — więc odsiewamy jak najwięcej jak najwcześniej.

Każdy odsiew po lewej oszczędza pieniądze po prawej. Kontroli losowych (czy bijesz rzut monetą) nie wolno pominąć — to bramka nr 1.

Hipoteza — pisemna i obalalna, z uzasadnieniem, dlaczego ta przewaga ma prawo istnieć (gdzie leży pieniądz i czemu ktoś nam go oddaje). Nie „momentum działa", tylko „dlaczego akurat tu".
Dane — uczciwe: bez „przeżywalności" (uwzględnij monety, które zdechły), z prawdziwą głębokością książki i realnym wypełnieniem zleceń. To nasza blizna (iluzja płynności).
Backtest na danych historycznych — z kosztami i poślizgiem od pierwszej świecy, proste reguły, max ~5 pokręteł (parametrów).
Sprawdzian na nieznanych danych (out-of-sample / walk-forward) — uczysz na starszym okresie, testujesz na nowszym, którego model nie widział, w wielu sytuacjach rynku.
Kontrole negatywne — strategia musi bić wchodzenie losowe i pomieszany sygnał. To jedyny uczciwy test szczelności.
Paper / na sucho na żywo — świeże dane, realny czas, zero pieniędzy; sprawdzamy, czy live zgadza się z backtestem.
Micro-live → skalowanie — najpierw grosze realnego kapitału, dopiero gdy live = paper bez rozjazdu, powoli zwiększamy.

→ dla nas: jesteśmy na bramce 4–5 dla mikrostruktury (mamy sprawdzian na nieznanych danych + kontrole losowe) i przed bramką 1 dla trendu (nie napisaliśmy jeszcze hipotezy). Realny kapitał (bramka 7) jest świadomie daleko — i dobrze.

3Ile danych i czasu — twarde liczby

Najczęstszy błąd: mylić „dużo ticków" z „dużo dowodu". Liczy się liczba niezależnych transakcji. Konkrety ze źródeł:

Pytanie	Liczba	Źródło
Potwierdzić, że przewaga > 0 (95% pewności)	681 niezależnych punktów ≈ 2,7 roku dziennych	Chan
Potwierdzić mocną przewagę (Sharpe ≈ 1)	2739 ≈ 10,9 roku	Chan
Liczba transakcji do wiarygodności	~30 podłoga · ~100 podstawa · 200–500 poważnie	praktyka
Minimum danych dziennych na jedną regułę	~10 lat	Carver
Ile prób, zanim wynik to już przypadek	już po 7 niezależnych wariantach Sharpe 1,0 = szum	Bailey–López de Prado, AMS 2014
Czas rozwoju strategii w funduszu	6 mies. – 2 lata	praktyka

„Sharpe" = miara jakości: ile zysku na jednostkę ryzyka (wahań). Sharpe 1 to solidnie, Sharpe 5–8 to poziom legendarnego funduszu Medallion (wymaga dziesiątek tysięcy niezależnych zakładów — nie nasz cel).

Po ludzku: żeby UWIERZYĆ w strategię, trzeba ją zobaczyć działającą przez setki różnych transakcji w wielu różnych nastrojach rynku. Trzy dni jednej monety to jeden nastrój — z definicji za mało, nawet gdyby liczby wyglądały pięknie.

→ dla nas: 3 dni jednej monety to ułamek tego, co trzeba. Konkretny próg, zanim cokolwiek zaczniemy traktować poważnie: tygodnie zbierania + kilkaset niezależnych transakcji przez różne nastroje rynku — nie liczba ticków.

4Jak się tweakuje strategię, NIE oszukując samego siebie

Nie ma magicznego limitu „ile wariantów wolno". Jest mechanizm — i jest brutalny:

Jeśli wypróbujesz dość wariantów, zawsze trafisz taki, który na przeszłości wygląda świetnie — czysto przez przypadek. Według teorii (Bailey–López de Prado): już po 7 niezależnych próbach najlepszy z nich może mieć Sharpe 1,0 na przeszłości i zero na przyszłości.

Jak się przed tym bronić

Licz uczciwie liczbę NIEZALEŻNYCH prób. 200 wariantów jednego pomysłu na BTC to nie 200 niezależnych prób — może 10. Policzysz za nisko = znów się oszukasz.
Podnoś poprzeczkę z liczbą prób („zdeflowany Sharpe"): im więcej wariantów testowałeś, tym wyższy wynik musisz pokazać, żeby był wiarygodny.
Skrytka (lockbox). Odłóż kawałek danych, którego dotykasz raz, na samym końcu. Jak zaglądasz iteracyjnie — przestaje być sprawdzianem.
Nie dłub parametrów, żeby „przeskoczyć" próg. Wynik tuż pod kreską to najgroźniejsze miejsce — kuszące do podkręcania, aż „zadziała". Tak się robi krzywą dopasowaną do przeszłości, bezużyteczną w przyszłości.

Reguła decyzji: zabić, odłożyć czy trzymać

Decyzja	Kiedy
ZABIĆ	na nieznanych danych traci po kosztach, albo wynik znika po korekcie o liczbę prób
ODŁOŻYĆ	przewaga istnieje strukturalnie, ale za mało danych, by ją potwierdzić → zbieraj dalej, NIE dłub. ← to my teraz
TRZYMAĆ	dodatni wynik po realnych kosztach na danych, których model nie widział, z udokumentowaną liczbą prób

→ dla nas: nasz wynik „+1 bps pod ścianą" to dokładnie miejsce, gdzie kuszi dłubać. Dlatego decyzja jest twarda: model zamrożony, re-test na nowych danych, a nie podkręcanie aż „zadziała".

5Jak się tym zarządza — portfel, nie jedna strategia

Zawodowcy nie szukają „jednej świętej strategii". Prowadzą portfel wielu. Dlaczego — to czysta matematyka:

Fabryka strategii: kilka słabych, ale niezależnych strumieni, każdy doskalowany do tego samego ryzyka, razem dają jakość rosnącą jak √N (pierwiastek z ich liczby). Cztery niezależne, średnie strategie biją jedną świetną.
Ale: powiązanie zabija. Dwie strategie skorelowane w 50% to nie 2 niezależne zakłady, tylko 1,33. Dlatego goni się o nieskorelowane źródła zysku.

Podział kapitału: grupuj strategie po podobieństwie (co się rusza razem, konkuruje jako grupa), zamiast traktować każdą osobno.
Budżet ryzyka: celuj w stałą zmienność portfela i bierz pół-Kelly (połowę matematycznie „optymalnej" wielkości) — bo nigdy nie jesteś pewien swojej przewagi. Start ~12% rocznej zmienności.
Wygasanie przewagi (zmierzone, nie opinia): przewagi słabną — średnio −26% już na nieznanych danych, −58% po opublikowaniu (McLean–Pontiff). Monitoruj kształt rozkładu wyników, nie samą sumę — zmiana kształtu wyprzedza spadek zysku.
Wyłącznik bezpieczeństwa (kill-switch) od pierwszego dnia z realnym kapitałem + limity przed-transakcyjne. Knight Capital stracił 440 mln USD w 45 minut, bo ich nie miał.

→ dla nas: mikrostruktura (A) i trend (B) są z natury nieskorelowane — to idealny materiał na portfel. Nie wybieramy „A albo B"; budujemy obie i łączymy, gdy każda osobno przejdzie bramki.

6Plan dla NAS — dwie ścieżki jako portfel

Nie stawiamy na jedną. Prowadzimy obie, bo mają różne role:

	A — mikrostruktura (orderbook BTC)	B — trend na koszyku monet
rola	maszyna do falsyfikacji + test szczelności (czy fill nie kłamie)	jedyny realny kandydat na potwierdzony zysk (wiele monet × reżimów)
dane	zbierać 6–12 tyg. BTC + ETH + SOL	lata świec, top-100 płynnych monet
model	ZAMROŻONY — zero dłubania, re-test na nowych oknach	max ~5 parametrów, sprawdzian na nieznanych danych
cel	nie obiecujemy zysku — ma falsyfikować	Sharpe 1,0–2,0 netto (nie 5–8)
decyzja	po 6–12 tyg.: dalej pod kosztem na uczciwym fillu → zabić; przeskoczy trwale → micro-live	kandydat do paper za ~2–4 mies.

Do pierwszego uczciwego micro-live: ~4–6 miesięcy. To normalne tempo małego zespołu — nie porażka, nie spóźnienie.

7Uczciwe korekty — mity i folklor

„Trend ma Sharpe 1,8+" to MIT. Realny długoterminowy Sharpe strategii trendowych to ~0,3–0,7. Dla ścieżki B: nie celuj w jakość, której trend nie ma. (Świeży krypto-wynik 1,3–1,9 traktujemy z rezerwą — to ostatnie lata, nie pewnik.)
„200–500 transakcji = poziom instytucjonalny (López de Prado)" — liczba rozsądna, ale to folklor branżowy doklejony do nazwiska, nie twierdzenie z pracy.
„95% backtestów pada w realu" — krąży bez jednego twardego źródła. Orientacyjnie tak, ale to nie udowodniona stała.

8Źródła — i co realnie potwierdzono

Praca / autor	Co z niej	Status
Bailey, Borwein, López de Prado, Zhu — „Pseudo-Mathematics…", Notices of the AMS 2014	7 prób → Sharpe 1 = szum; liczba prób a przeuczenie	recenzowane
Bailey & López de Prado — Deflated Sharpe / minimalna długość historii, JPM 2014	jak korygować wynik o liczbę prób i długość próby	recenzowane
López de Prado — Advances in Financial ML 2018; HRP 2016	walidacja bez wycieku przyszłości; podział kapitału po grupach	książka / recenz.
E. Chan — Quantitative/Algorithmic Trading	681 punktów / 2,7 roku na potwierdzenie przewagi	zweryfikowane u źródła
R. Carver — Systematic Trading	fabryka strategii, √N, ~10 lat danych, pół-Kelly	praktyka (CTA dzienne)
McLean & Pontiff, J. Finance 2016	wygasanie przewagi: −26% / −58%	recenzowane

⚡ Satoshi · strona-wyjaśnienie do researchu wdepyd24p · 2026-06-23 · sędzia zawsze = zysk po kosztach na uczciwym wypełnieniu.
Najważniejszy wniosek: nie jesteśmy spóźnieni ani na minusie — jesteśmy ~4–6 miesięcy w normalnym procesie, a brakuje nam głównie danych, które same się zbierają.