Regresná analýza — Stávkový slovník | Betmana - Športové štatistiky a analýzy

Čo je regresná analýza?

Regresná analýza je štatistická metóda, ktorá hľadá matematický vzťah medzi jednou alebo viacerými nezávislými premennými (vstupmi) a závislou premennou (výsledkom). Jej primárnym cieľom je pochopiť, ako zmeny v nezávislých premenných ovplyvňujú zmeny v závislej premennej a na základe tohto vzťahu vytvoriť prediktívne modely.

V kontexte stávkovania na šport sa regresná analýza používa na budovanie sofistikovaných prediktívnych modelov. Vstupmi môžu byť xG (očakávané góly), forma tímu za posledných päť zápasov, domáca výhoda, počet zranených hráčov, priame štatistiky duelu alebo ďalšie relevantné faktory. Výstupom je potom predpovedaný počet gólov, pravdepodobnosť výsledku alebo ďalšie metriky potrebné pre rozhodovanie o stávkach.

Základný princíp regresnej analýzy je jednoduchý: nájsť najlepšie vyhovujúcu matematickú funkciu (zvyčajne priamku alebo krivku), ktorá opisuje vzťah medzi premennými. Táto funkcia sa potom môže použiť na predpovedanie budúcich hodnôt na základe nových vstupných dát.

Základné pojmy

Aby ste porozumeli regresnej analýze, je dôležité pochopiť nasledujúce pojmy:

Pojem	Definícia	Symbol	Príklad v stávkovaní
Závislá premenná	Premenná, ktorú chcete predpovedať alebo vysvetliť	Y	Počet gólov tímu, pravdepodobnosť výhry
Nezávislá premenná	Premenná, ktorá ovplyvňuje závislú premennú	X	xG, forma, domáca výhoda
Regresný koeficient	Číslo, ktoré hovorí, ako veľmi nezávislá premenná ovplyvňuje závislú	β	Ak β=0,5, zvýšenie xG o 1 zvýši góly o 0,5
Rezíduum	Rozdiel medzi predpovedanou a skutočnou hodnotou	ε	Chyba modelu v konkrétnom zápase
R-squared (R²)	Podiel variácie vysvetlený modelom (0–1)	R²	0,75 znamená, že model vysvetľuje 75% variácie

História a vývoj regresnej analýzy

Regresná analýza nemá starú históriu — jej korene siahajú do 19. storočia. Britský vedec Francis Galton ju vyvinul v 1880-tych rokoch, keď študoval dedičnosť vlastností. Galton pozoroval, že vysokí rodičia majú zvyčajne vysoké deti, ale nie sú to najvyšší ľudia v populácii. Tento jav nazval "regresiou k priemeru" — a z neho sa rodila moderná regresná analýza.

Galton pôvodne používal termín "regresia" na opis situácie, keď sa hodnoty "vracia" k priemeru. Neskôr matematik Karl Pearson a jeho kolegovia formalizovali matematickú teóriu regresnej analýzy a zaviedli korelačný koeficient. V 20. storočí sa regresná analýza stala základným nástrojom v štatistike, ekonometrii a aplikovaných vedách.

Vývoj regresnej analýzy sa zrýchlil s príchodom počítačov. Zatiaľ čo Galton a jeho súčasníci počítali regresné modely ručne alebo pomocou mechanických kalkulátorov, dnes môžeme za sekundy spracovať milióny údajov a testovať zložité modely. Moderné softvéry ako R, Python, Excel alebo špecializované štatistické balíčky sú dostupné každému.

Ako funguje regresná analýza?

Princíp najmenších štvorcov

Srdcom regresnej analýzy je metóda najmenších štvorcov (MNŠ). Jej cieľom je nájsť priamku (alebo krivku), ktorá čo najlepšie popisuje vzťah medzi premennými. "Najlepšie" znamená, že súčet druhých mocnín chýb (rozdielov medzi predpovedanými a skutočnými hodnotami) je čo najmenší.

Predstavte si bodový graf, kde na osi x máte xG a na osi y skutočný počet gólov. Regresná priamka prechádza týmito bodmi takým spôsobom, že súčet zvislých vzdialeností (rezíduí) od bodov k priamke — umocnených na druhú — je minimálny. Táto priamka sa potom používa na predpovedanie budúcich hodnôt.

Vizuálne: ak máte 20 zápasov s rôznymi xG a gólmi, regresná priamka "prechádza" cez tieto body tak, aby bola chyba minimálna. Potom, ak budete mať nový zápas s xG = 1,8, môžete na priamke nájsť predpovedaný počet gólov.

Regresná rovnica a interpretácia koeficientov

Jednoduchá lineárna regresia sa vyjadruje rovnicou:

Y = a + b·X

Kde:

Y = závislá premenná (to, čo predpovedáte)
X = nezávislá premenná (prediktor)
a = intercept (priesečník s osou y) — predpovedaná hodnota Y, keď X = 0
b = sklon priamky — zmena Y pri jednotkovej zmene X

Príklad: Ak model hovorí, že počet gólov = 0,5 + 0,6·xG, potom:

Keď xG = 0, model predpovedá 0,5 gólu
Keď xG = 1, model predpovedá 0,5 + 0,6 = 1,1 gólu
Keď xG = 2, model predpovedá 0,5 + 1,2 = 1,7 gólu

Koeficient b = 0,6 hovorí, že za každý bod xG navyše sa očakáva zvýšenie počtu gólov o 0,6.

Koeficient	Vzorec	Interpretácia	Príklad
Sklon (b)	b = (nΣ(xy) - ΣxΣy) / (nΣ(x²) - (Σx)²)	Zmena Y pri jednotkovej zmene X	b = 0,6: zvýšenie xG o 1 zvýši góly o 0,6
Intercept (a)	a = (Σy - b·Σx) / n	Hodnota Y, keď X = 0	a = 0,5: bez xG model predpovedá 0,5 gólu
R-squared (R²)	R² = 1 - (SS_res / SS_tot)	Podiel variácie vysvetlený modelom	R² = 0,75: model vysvetľuje 75% variácie
P-hodnota	Z t-testu koeficientu	Štatistická významnosť koeficientu	p < 0,05: koeficient je štatisticky významný

Viacnásobná regresia

Keď máte viac ako jednu nezávislú premennú, používate viacnásobnú lineárnu regresiu:

Y = b₀ + b₁·X₁ + b₂·X₂ + ... + bₙ·Xₙ

Napríklad model na predpovedanie gólov tímu môže byť:

Góly = 0,2 + 0,5·xG + 0,3·forma + 0,4·domáca_výhoda + 0,1·počet_zranení

Tento model zohľadňuje štyri faktory súčasne a každý má svoju "váhu" (koeficient). Viacnásobná regresia je výkonnejšia ako jednoduchá, pretože môže zachytiť komplexnejšie vzťahy.

Aké sú typy regresnej analýzy?

Lineárna regresia

Lineárna regresia je najčastejšie používaný typ. Predpokladá, že vzťah medzi premennými je lineárny — teda že zmena v X spôsobí proporcionálnu zmenu v Y.

Kedy ju použiť:

Keď je vzťah medzi premennými približne lineárny
Keď chcete predpovedať spojité hodnoty (počty, ceny, skóre)
Keď potrebujete jednoduchý, ľahko interpretovateľný model

Príklad: Predpovedanie počtu gólov na základe xG. Ak xG rastie, góly zvyčajne rastú približne proporcionálne.

Logistická regresia

Logistická regresia sa používa, keď je závislá premenná binárna — teda má iba dve možné hodnoty (áno/nie, výhra/prehra, 1/0).

Namiesto priamky používa sigmoidnú funkciu, ktorá mapuje výstupy na rozsah 0–1, čo reprezentuje pravdepodobnosť. Matematicky:

P(Y=1|X) = 1 / (1 + e^-(a + b·X))

Kedy ju použiť:

Keď chcete predpovedať pravdepodobnosť udalosti (výhra, remíza, podľa kurzu)
Keď je závislá premenná binárna alebo kategorická
Keď potrebujete výstupy ako pravdepodobnosti, nie spojité hodnoty

Príklad: Predpovedanie pravdepodobnosti výhry domáceho tímu (0 = prehra/remíza, 1 = výhra) na základe xG a formy. Model vráti číslo medzi 0 a 1, napríklad 0,72, čo znamená 72% pravdepodobnosť výhry.

Poissonova regresia

Poissonova regresia je špecializovaný typ určený na modelovanie počtov udalostí — napríklad počtu gólov, počtu kariet alebo počtu ľudí, ktorí prídu na zápas.

Poissonova regresia predpokladá, že dáta pochádzajú z Poissonovho rozdelenia, čo je vhodné pre údaje o počtoch, ktoré sú diskrétne (0, 1, 2, 3...) a zvyčajne majú nižšie hodnoty.

Kedy ju použiť:

Keď chcete modelovať počty udalostí
V futbale na predpovedanie počtu gólov (xG modely)
Keď je závislá premenná počet (0, 1, 2, 3...)

Príklad: Model predpovedá, že domáci tím bude mať 1,8 gólu a hostia 0,9 gólu. Poissonova regresia potom vypočíta pravdepodobnosti všetkých možných výsledkov (0-0, 1-0, 0-1, 1-1, 2-0, atď.). Na základe týchto pravdepodobností sa vypočítajú šance na výhru domácich (58%), remízu (22%) a výhru hostí (20%).

Ostatné typy regresie

Polynomická regresia: Keď je vzťah medzi premennými krivý (kvadratický, kubický). Namiesto priamky používa polynóm.
Logaritmická regresia: Keď vzťah rastie rýchlo na začiatku, potom sa spomaľuje.
Exponenciálna regresia: Keď sa hodnoty exponenciálne zväčšujú alebo zmenšujú.
Ridge a Lasso regresia: Modernéjšie techniky, ktoré redukujú overfitting pridaním penalizácie.

Ako sa líši regresia od korelácie?

Regresia a korelácia sú často zamieňané, ale sú to rôzne koncepty:

Aspekt	Korelácia	Regresia
Čo meria	Silu a smer lineárneho vzťahu medzi dvoma premennými	Ako jednu premennú predpovedať z inej
Výstup	Číslo medzi -1 a 1 (Pearsonov korelačný koeficient)	Rovnica (model), ktorá mapuje X na Y
Smer	Symetrické — korelácia X s Y = korelácia Y s X	Asymetrické — X predpovedá Y, ale Y nemusí predpovedať X
Príklad	Korelácia medzi xG a gólmi je 0,85 (silný pozitívny vzťah)	Regresia: Góly = 0,5 + 0,6·xG
Interpretácia	"Existuje silný vzťah medzi premennými"	"Za každý bod xG sa góly zvýšia o 0,6"
Kauzalita	Korelácia neimplikuje príčinnosť	Regresia predpokladá smer vplyvu, ale nepreukazuje príčinnosť

Dôležité: Vysoká korelácia medzi dvoma premennými nemusí znamenať, že jedna spôsobuje druhú. Napríklad korelácia medzi počtom kníh v domácnosti a IQ detí je vysoká, ale nie preto, že knihy spôsobujú vyšší IQ — obe sú spojené s vzdelanosťou rodičov.

Ako postaviť regresný model — praktický sprievodca

Ak chcete vytvoriť vlastný regresný model, postupujte podľa týchto krokov:

Krok 1: Príprava a čistenie dát

Pred modelovaním musíte mať kvalitné dáta. To znamená:

Zbieranie dát: Zhromažďujte relevantné údaje. V stávkovaní to môžu byť historické výsledky zápasov s xG, formou, domácou výhodou a ďalšími faktormi.
Validácia: Skontrolujte, či sú údaje správne. Či nie sú tam chyby, duplicity alebo nezmyselné hodnoty.
Chýbajúce hodnoty: Rozhodnite, ako zaobchádza s chýbajúcimi údajmi — buď ich odstránite, alebo ich nahradíte priemerom alebo medián.
Outliers: Identifikujte extrémne hodnoty. Niekedy sú to chyby, niekedy sú to legitímne údaje (napríklad zápas, kde jeden tím hral s desiatimi hráčmi). Rozhodnite, či ich zachováte alebo odstránite.

Krok 2: Výber premenných a testovanie predpokladov

Nie všetky premenné sú užitočné. Vyberte tie, ktoré majú logický vzťah so závislou premennou.

Predpoklady lineárnej regresie:

Linearita: Vzťah medzi X a Y by mal byť lineárny. Skontrolujte bodovým grafom.
Normalita rezíduí: Chyby by mali byť približne normálne rozdelené. Testujte Shapiro-Wilkovým testom.
Homoskedasticita: Rozptyl chýb by mal byť konštantný. Skontrolujte grafom rezíduí.
Nezávislosť: Pozorovania by mali byť nezávislé (napríklad zápasy rôznych tímov). Testujte Durbin-Watsonovým testom.
Bez multikolinearity: Nezávislé premenné by nemali byť silne korelované. Skontrolujte VIF (Variance Inflation Factor) — hodnota > 10 signalizuje problém.

Ak sú predpoklady porušené, lineárna regresia nemusí byť vhodná. V takom prípade zvážte logistickú regresiu alebo transformáciu dát.

Krok 3: Fitovanie modelu

V praxi to znamená spustiť model v softvéri. Príklady:

V R:

model <- lm(goals ~ xG + form + home_advantage, data = matches)

V Pythone:

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X, y)

V Exceli: Použite funkciu SLOPE() a INTERCEPT() alebo Dátová analýza → Regresia.

Krok 4: Validácia a interpretácia

Po fitovaní modelu musíte skontrolovať, či je dobrý:

R-squared (R²): Hovorí, akú časť variácie model vysvetľuje. R² = 0,75 znamená, že model vysvetľuje 75% variácie. Vyššie je lepšie, ale závisí od domény — v športe je R² = 0,5 často prijateľný.
P-hodnoty: Skontrolujte, či sú koeficienty štatisticky významné (p < 0,05).
Rezídua: Skontrolujte, či majú normálne rozdelenie a či nie sú vzory.
Validácia: Testujte model na novom datasete (ktorý ste nepoužili na tréning). To sa nazýva out-of-sample testing a je dôležité na zistenie, či model zovšeobecňuje alebo či je overfitted.

Praktické aplikácie regresnej analýzy

Regresná analýza v stávkovaní na šport

V stávkovaní na šport je regresná analýza jedným z najvýkonnejších nástrojov. Analytici a profesionálni stávkári ju používajú na:

1. Predpovedanie počtu gólov (xG modely)

Poissonova regresia je ideálna na modelovanie gólov. Model berie ako vstup xG, formu, domácu výhodu a ďalšie faktory a predpovedá očakávaný počet gólov pre každý tím.

Príklad: Model predpovedá, že Slovan Bratislava (doma) bude mať 1,85 xG a Žilina (vonku) 0,80 xG. Poissonova regresia vypočíta pravdepodobnosti:

Slovan vyhráva (domáci víťazstvo): 58%
Remíza: 22%
Žilina vyhráva (hostia víťazstvo): 20%

Ak bookmaker ponúka Slovana pri kurze 1,70 (implikovaných 58,8%), model nevidí hodnotu. Ale ak kurz je 1,85 (implikovaných 54%), model vidí 4% matematickú výhodu.

2. Predpovedanie výsledkov (výhra/remíza/prehra)

Logistická regresia sa používa na predpovedanie pravdepodobnosti výhry domácich. Model berie vstup:

xG domácich a hostí
Forma domácich a hostí (body za posledných 5 zápasov)
Domáca výhoda
Zranení hráči
Priame štatistiky (strely, prihrávky, posesiu)

Model vráti pravdepodobnosť výhry domácich, napríklad 0,62 (62%). Ak kurz ponúka 1,60 (implikovaných 62,5%), je to približne férové. Ak kurz je 1,72 (implikovaných 58%), model vidí hodnotu.

3. Backtesting stratégií

Stávkári používajú regresné modely na testovanie stratégií na historických dátach. Napríklad:

Trénujte model na zápasoch z rokov 2020–2022
Testujte na zápasoch z roku 2023
Vypočítajte, aké by boli výnosy, ak by ste stávkovali podľa modelu
Ak sú výnosy pozitívne, stratégia je sľubná

Aplikácie v ďalších oblastiach

Zdravotníctvo: Predpovedanie pravdepodobnosti choroby na základe diagnostických ukazovateľov
Financie: Kreditné skórovanie — predpovedanie pravdepodobnosti, že dlžník nesplní úver
Marketing: Predpovedanie odchodu zákazníka (churn) na základe správania a vlastností
Reálny trh: Predpovedanie cien nehnuteľností na základe veľkosti, polohy, veku

Čo sú limitácie a chyby regresnej analýzy?

Regresná analýza je výkonný nástroj, ale má aj limitácie:

Časté chyby pri modelovaní

Ignorácia predpokladov: Mnoho ľudí fituje model bez toho, aby skontrolovali, či sú splnené predpoklady lineárnej regresie. Výsledky potom nemôžu byť spoľahlivé.
Overfitting: Keď pridáte príliš veľa premenných, model sa "preuči" na trénovacích dátach a zle funguje na nových dátach. Napríklad model s 50 premennými na 60 zápasoch bude overfitted.
Underfitting: Keď je model príliš jednoduchý a nevystihuje zložitosť dát. Napríklad model s iba jednou premennou (xG) možno nie je dostatočný.
Kauzalita: Len preto, že model hovorí, že X predpovedá Y, nemusí to znamenať, že X spôsobuje Y. Napríklad počet strelcov môže byť korelovaný s počtom gólov, ale to nemusí byť kauzálny vzťah — oba sú dôsledkami lepšej hry.
Ignorácia interakcií: Niekedy efekt jednej premennej závisí od hodnoty inej. Napríklad domáca výhoda môže byť silnejšia pre slabšie tímy. Ak to model neuváži, výsledky budú skreslenými.

Kedy regresná analýza zlyhá

Nelineárne vzťahy: Ak je vzťah medzi premennými zakrivený, lineárna regresia zlyhá. Skontrolujte to bodovým grafom a zvážte polynomickú regresiu.
Dynamické zmeny: V športe sa tímy menia — nový tréner, prestúpy, zranenia. Historické dáta z minulého roka nemusí byť relevantné. Model potrebuje údaje z nedávneho obdobia.
Extrémne hodnoty (outliers): Jeden zápas s nezvyčajným výsledkom (napríklad 7-0) môže skresliť model. Zvážte, či je to chyba alebo legitímny údaj.
Málo dát: Regresný model potrebuje dostatočne veľa pozorovaní. Pravidlo je minimálne 10–20 pozorovaní na premennú. Ak máte 5 premenných, potrebujete aspoň 50–100 zápasov.
Zmena režimu: Ak sa zásadne zmenia podmienky (napríklad zmena pravidiel futbalu, zmena kvalite ligy), historické dáta nemusí byť relevantné.

Budúcnosť regresnej analýzy

Regresná analýza sa vyvíja. Moderné trendy zahŕňajú:

Regularizácia (Ridge a Lasso regresia)

Tieto techniky pridávajú "penalizáciu" do modelu, aby sa zabránilo overfittingu. Ridge regresia (L2) a Lasso regresia (L1) sú vhodné, keď máte veľa premenných a chcete model zjednodušiť.

Ensemble metódy

Namiesto jedného modelu môžete kombinovať viacero modelov (Random Forest, Gradient Boosting). Tieto metódy sú často presnejšie ako jednoduchá regresia.

Strojové učenie a deep learning

Moderné neurónové siete môžu zachytávať zložitejšie vzorce ako tradičná regresia. Pre veľké datasety a zložité úlohy sú neurónové siete často lepšie.

Bayesovská regresia

Bayesovský prístup umožňuje zahrnutie "predchádzajúcich" poznatkov do modelu a poskytuje nie iba bodové odhady, ale aj intervaly spoľahlivosti.

Často kladené otázky

Čo je regresná analýza a na čo sa používa?

Regresná analýza je štatistická metóda na identifikáciu matematického vzťahu medzi premennými. Používa sa na pochopenie, ako zmeny v jednej premennej ovplyvňujú zmeny v inej, a na vytvorenie prediktívnych modelov. V stávkovaní sa používa na predpovedanie počtu gólov, pravdepodobnosti výsledkov a testovanie stratégií.

Aký je rozdiel medzi lineárnou a logistickou regresiou?

Lineárna regresia sa používa na predpovedanie spojitých hodnôt (napríklad počty, ceny). Logistická regresia sa používa na predpovedanie binárnych výsledkov (áno/nie, výhra/prehra) a vráti pravdepodobnosť medzi 0 a 1. Lineárna regresia používa priamku, logistická regresia používa sigmoidnú krivku.

Čo sú nezávislé a závislé premenné?

Nezávislá premenná (X) je vstup — premenná, ktorá ovplyvňuje iné. Závislá premenná (Y) je výstup — premenná, ktorú chcete predpovedať. Napríklad pri predpovedaní gólov je xG nezávislá premenná a počet gólov je závislá premenná.

Ako sa interpretuje R-squared?

R-squared (R²) je číslo medzi 0 a 1, ktoré hovorí, akú časť variácie v dátach model vysvetľuje. R² = 0,75 znamená, že model vysvetľuje 75% variácie. Vyššie je lepšie, ale v športe je R² = 0,5 často prijateľný, pretože futbal je nepredvídateľný.

Čo je to Poissonova regresia a kedy sa používa?

Poissonova regresia je typ regresie na modelovanie počtov udalostí (0, 1, 2, 3...). V futbale sa používa na predpovedanie počtu gólov. Predpokladá, že dáta pochádzajú z Poissonovho rozdelenia, čo je vhodné pre údaje o počtoch.

Ako validujem regresný model?

Validácia modelu zahŕňa:

Skontrolovať, či sú splnené predpoklady (linearita, normalita, homoskedasticita)
Skontrolovať R² a p-hodnoty
Testovať model na nových dátach (out-of-sample testing), ktoré nebol videl počas trénovania
Vypočítať metriky ako MAE (priemerná absolútna chyba) alebo RMSE (odmocnina priemernej kvadratickej chyby)

Ak model funguje dobre na trénovacích dátach, ale zle na nových dátach, je overfitted.

Ako postavím Poissonov regresný model pre futbal?

V R:

model <- glm(goals ~ xG + form + home_advantage, family=poisson, data=matches)
predictions <- predict(model, newdata=new_matches, type="response")

Model vráti očakávaný počet gólov. Potom použijete Poissonove rozdelenie na výpočet pravdepodobností všetkých možných výsledkov.

Čo sú limitácie regresnej analýzy?

Hlavné limitácie sú:

Predpokladá, že minulé vzorce budú pokračovať v budúcnosti
Nemusí zachytiť nelineárne vzťahy
Citlivá na extrémne hodnoty a chýbajúce údaje
Nie je vhodná na predpovedanie zriedkavých udalostí
Dynamické zmeny (nový tréner, prestúpy) môžu učiniť historické dáta irelevantné

Ako sa líši regresia od korelačnej analýzy?

Korelácia meria silu vzťahu medzi premennými (číslo od -1 do 1). Regresia vytvorí model, ktorý predpovedá jednu premennú z inej. Korelácia je symetrická (korelácia X s Y = korelácia Y s X), regresia je asymetrická (X predpovedá Y, ale Y nemusí predpovedať X). Korelácia neimplikuje príčinnosť, regresia predpokladá smer vplyvu.

Aké softvéry sa používajú na regresnej analýze?

Populárne softvéry sú:

R: Voľný, výkonný na štatistiku a vizualizáciu
Python: Knižnice scikit-learn, statsmodels, TensorFlow
Excel: Jednoduchý, vhodný na základné modely
SPSS, SAS, Stata: Profesionálny softvér s grafickým rozhraním
RStudio: IDE pre R s prívetivým rozhraním

Voľba závisí od vašich potrieb a skúseností.

Čo je regresná analýza?

Základné pojmy

História a vývoj regresnej analýzy

Ako funguje regresná analýza?

Princíp najmenších štvorcov

Regresná rovnica a interpretácia koeficientov

Viacnásobná regresia

Aké sú typy regresnej analýzy?

Lineárna regresia

Logistická regresia

Poissonova regresia

Ostatné typy regresie

Ako sa líši regresia od korelácie?

Ako postaviť regresný model — praktický sprievodca

Krok 1: Príprava a čistenie dát

Krok 2: Výber premenných a testovanie predpokladov

Krok 3: Fitovanie modelu

Krok 4: Validácia a interpretácia

Praktické aplikácie regresnej analýzy

Regresná analýza v stávkovaní na šport

Aplikácie v ďalších oblastiach

Čo sú limitácie a chyby regresnej analýzy?

Časté chyby pri modelovaní

Kedy regresná analýza zlyhá

Budúcnosť regresnej analýzy

Regularizácia (Ridge a Lasso regresia)

Ensemble metódy

Strojové učenie a deep learning

Bayesovská regresia

Často kladené otázky

Súvisiace pojmy