nedeľa 23. septembra 2012

Normálne rozdelenie (Doplnok)

 
V dnešnom článku sa budem musieť vyjadriť k štatistikám, ktoré som použil pri modelovaní viacrozmerného normálneho rozdelenia. Jedná sa o kovariančný a korelačný koeficient. Tieto pojmy sú dôležité a to z hľadiska závislosti náhodných veličín medzi sebou.
Práve otázka popisu náhodných veličín rozhoduje o tom, či môžeme definovať silu lineárnej alebo celkovej závislosti medzi veličinami.
Ak sú dve náhodné veličiny normálne rozdelené, koreláciou nemeriame iba lineárnu závislosť!
Tento fakt sa dá dokázať odvodením marginálnych rozdelení z dvojrozmerného normálneho rozdelenia podľa ktorého platí:
Súčin marginálnych hustôt z dvojrozmerného normálneho rozdelenia je rovný združenej funkcii (nezávislosť náhodných veličín) len v prípade, ak korelačný koeficient (obecne považovaná lineárna nezávislosť) je rovný 0! Táto veta platí aj naopak.
Obecne ide o to, že v prípade normálne rozdelených veličín môžeme prostredníctvom korelačného koeficientu uvažovať závislosť obecnú a nie len lineárnu. Táto skutočnosť neplatí u iných pravdepodobnostných rozdelení.
Kovariančný koeficient
Táto štatistika sa obecne podobná rozptylu, no ak uvažujeme dve rôzne náhodné veličiny, vzorec bude vyzerať tak trocha inak:image
Vo výpočtovom tvare:image
Jeho úlohou je popísať silu lineárnej závislosti medzi veličinami. Obecne nadobúda kladných aj záporných hodnôt bez intervalovej obmedzenosti. Ak sa hodnota blíži 0, veličiny sú lineárne nezávislé. Pri kladných hodnotách sú veličiny priamo závislé (zväčší sa hodnota prvej, mala by sa zväčšiť hodnota druhej), pri záporných hodnotách platí opačný vzťah.
Nevýhoda koeficientu spočíva v jeho neohraničených hodnotách! Obecne je ťažké posúdiť, aký je rozdiel medzi kovarianciou 56 a 156. Môžeme sa maximálne domnievať, že tie veličiny sú priamo závislé.
Z tohto dôvodu sa v štatistike modifikoval na iný koeficient tak, že jeho hodnota je predelená násobkom smerodajných odchyliek náhodných veličín:image 
Výpočtový tvar vyzerá takto:image
 

 
Výhoda korelačného koeficientu spočíva v konečnosti hodnôt od -1 do 1. Hodnoty blížiace sa 0 indikujú lineárnu nezávislosť. Inak platia obdobné vzťahy ako pri kovariančnom koeficiente.
Prejdime na Excel, v ktorom vám v sample file-e ukážem, ako tieto štatistiky spočítať.

Kovariančný koeficient:

image
=COVARIANCE.S(Náh. veličina 1; Náh. veličina 2)
Použil som formulu s koncovkou „S“, ktorá vypočíta koeficient priamo zo vzorku, teda nie aproximuje hodnotu na populáciu.

Korelačný koeficient:

=CORREL(Náh. veličina 1; Náh. veličina 2)
 
 
Týmto stručným prehľadom som potreboval osvetliť  tieto dva dôležité štatistické pojmy. V budúcom článku pokračujeme v Normálnom rozdelení a budeme si modelovať „kopček“.

Žiadne komentáre:

Zverejnenie komentára