nedeľa 23. septembra 2012

Chí-kvadrát rozdelenie

 

Som veľmi rád, že sa pomaly a isto dostávame k tematickému koncu a preto nebudem chodiť okolo horúcej kaše a začnem.

Pamätáte sa na pojem Normovanie? Ak nie skúste listovať v pamäti alebo v skôr narodených článkoch, pre nedočkavých stačí kliknúť na slovo Normovanie.

Spomeniem fakt, že normovaná veličina Ui je normálne rozdelená s parametrami:

image

Ľudské potreby sú však nevyspytateľné, obzvlášť v pitvaní sa v dátach čo viedlo k poznávaniu nasledujúcej štatistiky:image

Využíva sa v rôznych oblastiach, ako príklad spomeniem testovanie závislosti kategoriálnych premenných v kontingenčnej tabuľke. Prejdime k hustote pravdepodobnosti:image

 

V tomto prípade máme zadanú podmienku prirodzeného čísla pre chí-kvadrát štatistiku. V prípade nesplnenia podmienky je hustota rovná nule.

Momentová vytvárajúca funkcia spolu so základnými charakteristikami vyzerá nasledovne:image

Tým pádom vám už nič nebráni k tomu, aby ste si stiahli sample file a pozreli si model rozdelenia a použité vzorčeky:image

Ako ste si určite všimli, pre modelovanie som nepoužil žiadnu funkciu, ktorá by pripomínala pojem Chí kvadrát ale Gama rozdelenie! Ja som Vám totiž zatajoval celkom dôležitý fakt:

Chí kvadrát rozdelenie je konkrétny typ Gama rozdelenia, pre ktoré platí:

image

Vďaka tomuto poznatku som mohol namodelovať rozdelenie nasledovne:

Hustota pravdepodobnosti:

=GAMMADIST($D$2;$B$2;2;FALSE)    =GAMMADIST( X ; v/2 ; 2 ; FALSE )

Distribučná funkcia:

=GAMMADIST($D$2;$B$2;2;TRUE)      =GAMMADIST( X ; v/2 ; 2 ; TRUE )

Aby ste nepovedali, že som skúpy na informácie, prezradím vám ďalší vylepšovák: Ak je ν (tiež sa nazýva stupeň voľnosti) dostatočne veľké, povedzme že väčšie ako 30, môžeme aj toto rozdelenie definovať tzv. Fischerovou aproximáciou

imageKde up je kvantil normovaného normálneho rozdelenia. Na záver článku a taktiež tematického celku by som chcel ako bonus pridať súbor, ktorý som vypracoval v rámci úlohy o Weibullovom rozdelení (mal príjemne pozitívnu odozvu). V ňom samozrejme nezabudnite povoliť makra a ak sa dostanete do VBA prostredia (Alt + F11), môžu vám základné makra poslúžiť ako inšpirácia.

Logaritmicko-normálne rozdelenie (modelovanie)

 
V predchádzajúcom článku sme si zobrali pod lupu akcie automobilky Ford Motor Company a ukázali, že ich zlogaritmované koeficienty rastu sú približne normálne rozdelené. Tento poznatok je kľúčový v štatistike aplikovanej vo financiách aj keď v praxi sa skoro každý stretne s problematikou tzv. fat tails a špicatejšieho pravdepodobnostného kopčeka.
My sa pre dnešok budeme zaoberať modelovaním log-normálneho rozdelenia na základe charakteristík, vývoja kurzu akcií Ford Motor Company (viď predchádzajúci článok).
Ponechajme si dáta zo sample file-u v minulom článku a pokúsme sa odhadnúť strednú hodnotu a rozptyl log-normálneho rozdelenia.
 
Pre strednú hodnotu sme použili, populárnu funkciu =average()  a smerodajné odchýlky zase =STDEV.S().image
Hodnoty v modrom riadku sú vypočítané charakteristiky normálneho rozdelenia, pri znalosti µ a δ2 z log-normálneho (skoro zhodné s  charakteristikami relatívneho prírastku).
V tomto prípade to znamená, že my môžeme budúce ceny modelovať normálnym alebo log-normálnym rozdelením!
Prečo potom log-normálne rozdelenie má svoje opodstatnenie???
Vo financiách sa každý stretol so spôsobmi úročenia. Jednoduché, zložené, zmiešané apod. no v konečnom dôsledku sa pri väčšine výpočtoch a oceňovaní derivátov používa spojité úročenie.
Čo sa týka limitného vzťahu, nebudem ho rozoberať (Google it! smev), spomeniem však základný vzorec, z ktorého vyplýva opodstatnenie prirodzeného logaritmu v spojení s úrokom – koeficientom rastu pri cenách akciíimage.
 
Kde čas t je relatívne vyjadrené časové obdobie vzhľadom k určenej úrokovej (rastovej) miere r.  Ak je spojitá miera r vyjadrená na ročnej báze, bude potom jeden rok vyjadrený číslom 1, pol roka 0,5 atď.. A keďže každá úroková miera sa môže transformovať na spojitú, takto si pri rôznych úlohách zjednodušíme počty použitím spojitého úročenia.
Vráťme sa však k akciám a uvažujme dve dôležité vlastnosti:
1) Nulová autokorelácia
2) Stacionarita časovej rady
Potom môžeme na základe modelovania rastových koeficientov (ich logaritmov) určiť budúce ceny akcie takto:image
Červená a žltá časová rada je predikcia vývoja cien akcie za stanovených podmienok, teda zjednodušený model, ktorý vyzerá nasledovne:
=$K$2*LOGNORM.INV(RAND();$K$3;$K$4)
 
=Si*LOGNORM.INV(RAND();Slog-priemer;δlog-výnosu)
alebo cez normálne rozdelenie:
=B252*NORM.INV(RAND();$M$4;$N$4)
 
=Si*NORM.INV(RAND();Spriemer;δvýnosu)
Takto nagenerujeme hodnoty ceny akcie pre Si+1, ; Si+2, ; Si+3, …. atď. V porovnaní s realitou je to zjednodušená verzia, lebo všeobecne časové rady zápasia s mnoho problémami ako sú heteroskedasticita, autokorelácia, nestacionarita. Preto v praxi sa používajú trocha odlišné modely, ktoré sú napríklad sezónne očistené, dynamizujúce apod..
Teraz sa pokúsim priblížiť pohľad na vec prostredníctvom rozptylu, ktorý sa bude zväčšovať takto:
image
Máme k dispozícii poslednú cenu akcie, priemernú hodnotu zlogaritmovaného výnosu a taktiež log-smerodajnú odchýlku. Na základe týchto parametrov sme urobili model pre danú akciu a potom, následnou zmenou smerodajných odchyliek vytvorili ukážky modelov PR1 až PR7.
Ak sa vrátim k skutočnosti a modelu, je vidieť značný rozdiel v špicatosti modelu a zároveň, že model dostatočne nedemonštruje výskyt relatívne hrubých koncov rozdelenia. imageČo sa týka ostatných vlastností rozdelenia, za zmienku stojí šikmosť, ktorá sa zmenou smerodajnej odchýlky mení.
Čím je menšia, tým rozdelenie sa blíži k symetrickému, no ak hodnota smerodajnej odchýlky prevýši hodnotu 1, rozdelenie sa zošikmí doľava.
Tento prípad zobrazuje nasledujúci obrázok, v ktorom model PR7 má v porovnaní so vstupnou tabuľkou pozmenenú smerodajnú odchýlku rovnú 2image.
Tento typ grafu som uprednostnil pred klasickým stĺpcovým kvôli prehľadnosti jednotlivých modelov log-normálneho rozdelenia. Je evidentné, že s väčším rozptylom sa kopček spľaskne do viacerých cenových kategórií, tým pádom akcia má väčšiu tendenciu rapídne meniť cenu.
Nabudúce nás čaká ešte jedno, možno dve rozdelenia a potom dvere k iným zaujímavostiam, pre zmenu z fundamentálnej analýzy akcií.

Logaritmicko-normálne rozdelenie

 
Na úvod začneme burzou. Ukážeme si, v akom zmysle má Logaritmicko-normálne rozdelenie význam. No na začiatok by sme potrebovali dáta.
Navštívime stránku http://www.google.com/finance v ktorej si nájdeme titul ľubovoľnej akcie. Ja som si zvolil Ford Motor Company: image
imageKlikneme na Historical prices a potom stiahneme historické ceny do súboru v Excel-i. Dáta sa uložili do formátu .csv tým pádom si ich musíme spracovať do použiteľnej podoby. Použijeme možnosť Text-To-Columns, ktorý som opísal v jednom z úvodných článkov. Ďalej môžeme vymazať všetky stĺpce okrem Close. Všimnime si dôležitý poznatok, t.j. hodnoty sú uložené ako dátum! Je to dosť nepríjemná záležitosť a my potrebujeme mať hodnoty vo formáte číslo s oddeľovačom desatinných miest čiarkou!
Ako na to?
1) stĺpec Close skopírujeme do Word súboru a nahradíme znak bodka - “ . “ čiarkou - “,
2) potom dáta z Word-u skopírujeme späť do Excel-u a upravíme ich na formát číslo
 
Tento “prenos” do Word súboru odporúčam urobiť v zmysle zbavenia sa formátu ako dátumu. Takto prenesené dáta sú v podstate kľúčové hodnoty, v ktorých stačí urobiť náhradu bodky čiarkou (Ak by sme sa pokúsili nahradzovať v Excel-i, dostali by sme nežiaduci formát: dd,mm,rrrr). Výsledná časová rada by mala vyzerať nasledovne:image
Takto ošetrené dáta sú pripravené na analýzu! Pomocou histogramu si môžeme analyzovať charakter časovej rady. Budeme sa snažiť priblížiť tvaru normálneho rozdelenia. V nasledujúcom obrázku budete mať náhľad histogramov pre pôvodnú časovú radu, potom pre  medzi-denný koeficient rastu a nakoniec logaritmická transformácia daného koeficientu(viď sample file).image
Nakoľko sa svetlo-sfarbené histogramy podobajú, vhodnejšie je uvažovať transformáciu logaritmom z dôvodu nižšieho rozptylu ale hlavne:image
Tým pádom môžeme konštatovať, že náhodná veličina ln(Y) má normálne rozdelenie. Otázka však znie, aké rozdelenie bude mať veličina Y ? Odpoveď znie Logaritmicko-normálne a spôsob, akým ho môžeme odvodiť je pomocou tzv. funkcie náhodných veličín!  Nakoľko sa jedná o celkom obsiahly proces, nebudem ho rozpitvávať, len uvediem dôležitý predpoklad:
Funkcia musí byť spojitého/hladkého charakteru pre celý definičný obor (existuje derivácia)!
Naša funkcia logaritmu je hladká v intervale nezáporných čísel (koeficient rastu je vždy kladné číslo). Vďaka tomu bude rozdelenie veličiny Y –> koeficient rastu (základná štatistika pri časových radách) vyzerať nasledovne:image
Takto vytvorené rozdelenie má nasledujúce charakteristiky polohy a variability:image
Pamätajte, hodnoty µ a δ2 sú stredná hodnota a rozptyl pre veličinu ln(X), ktorá je normálne rozdelená. Avšak ak budeme uvažovať len veličinu Y, vyššie uvedené charakteristiky pre ňu platia ako log-normálne rozdelenú. Na budúce si namodelujeme log-normálne rozdelenie na základe stiahnutých dát.

Všetky cesty vedú do Ríma (k Normálnemu rozdeleniu)

 
V súčasnosti, dávam Normálnemu rozdeleniu veľký priestor v článkoch, no ako sami vidíte – je to potrebné. Existujú isté cesty, alebo povedzme dôkazy pomocou ktorých si môžeme zjednodušiť štatistický život tak, že budeme používať user friendly - Normálne rozdelenie. My si totižto empiricky ukážeme, že Binomicky, Poissonovo rozdelenú a všeobecne akúkoľvek náhodnú veličinu môžeme pri dostatočnom množstve dát bezpečne popísať Normálnym rozdelením vďaka ich aproximácii.
Jedná sa o tzv. limitné vety. No na začiatok si ukážeme, že Binomické rozdelenie pri veľkom počte možných náhodných javov a nízkej pravdepodobnosti aproximuje k Poissonovmu rozdeleniu.image
V priloženom sample file-e si môžete prezrieť výpočty, no ako ilustrácia poslúži obrázok grafov rozdelení pre rôzne parametre binomického rozdelenia:image




Moivreova-Laplaceova veta
Uvažujme proces, ktorým by sme mohli generovať možné výsledky náhodnej veličiny. Povedzme Alternatívnym rozdelením by sme generovali hodnoty x1 ; x2 atď. Každá hodnota je generovaná nezávisle na výsledku predchádzajúcich hodnôt (Dôležitý predpoklad!).
Čo s takto danými hodnotami náhodných veličín? Môžeme uvažovať napríklad ich úhrn. V praxi si predstavíme zjednodušenú prípadovú štúdiu:
Každý sa na pár minút zahrá na poistného matematika v malej krajinke s 10 000 obyvateľmi. Keďže krajinka vznikla nedávno, všetci jej obyvatelia sú ekonomicky aktívni – odvádzajú peniaze na dôchodkové sporenie! Takto každý z nich musí odvádzať ešte 40 rokov istú čiastku, ktorú my ako ministri krajinky potrebujeme odhadnúť!
Zistime odhad množstva ľudí, ktorí o 40 rokov budú poberať dôchodok. Keďže naši spoluobčania musia tvrdo pracovať, aby našu maličkú ostrovnú krajinku postavili na nohy, povedzme že ich pravdepodobnosť dovŕšenia dôchodkového veku je 0.6.  To znamená, že štyria z desiatich sa dôchodku nedožijú a preto odvádzali peniaze nadarmo!
Dostaneme 10 000 náhodných veličín z Alternatívneho rozdelenia a nás zaujíma úhrn, t.j. množstvo budúcich dôchodcov o 40 rokov! Táto štatistika je už samozrejme Binomicky rozdelená a na základe Moivreovej-Laplaceovej vety pri veľkom počte ľudí môžeme tvrdiť, že:image Ak sa ešte pamätáte na normovanie, potom nasledujúci kľúčový vzorec pre vás nebude problém pochopiť:image
Výsledok zobrazuje nasledujúci obrázok:image

Vzhľadom k takmer identickej podobe (použil som priehľadný typ dátovej čiary - vidieť tmavé sfarbenie binomického rozdelenia) môžeme hravo použiť pri výpočte očakávaného počtu dôchodcov Normálne rozdelenie. Problém výpočtu sumy, ktorú budú musieť spoluobčania platiť po dobu 40 rokov necháme pre ozajstných poistných matematikov a našu hru ukončíme Úsmev
Lindeberg – Lévy
Táto tzv. zovšeobecnená verzia predchádzajúcej uvažuje akéhokoľvek rozdelenie  (identicky rozdelené a nezávislé náhodné veličiny). V tomto prípade musíme vedieť odvodiť konečnú strednú hodnotu a rozptyl.image
 
Pamätajte na dôležitú vec! Pri manipulácii s normovaním je potrebné disponovať veľkým výberovým súborom (číslo n).
V prípade nesplnenia dostatočnej veľkosti hrozí, že váš prieskum nebude mať kvalitnú vypovedaciu schopnosť. Z hľadiska opodstatnenia veľkosti výberového súboru vám postačí nazrieť späť na prvý obrázok s ilustráciou Poissonovho a Binomického rozdelenia.
Budúci článok budeme rozoberať dôležitosť log–normálneho rozdelenia a taktiež prvýkrát použijeme dáta z reality (ceny burzovo obchodovaného titulu).

Normálne rozdelenie–3. diel

 

Dostávame sa do ďalšej fázy skúmania normálneho rozdelenia, v ktorej si namodelujeme dvojrozmerný typ – pravdepodobnostný kopček.

Uvažujme vektor náhodných veličín:

image

Modelovaním danej funkcie dostaneme pravdepodobnostný kopček. Vrátim sa však k charakteristikám, ktoré nebudem odvodzovať, len ich pomenujem. Sú to tzv. podmienené charakteristiky, ktoré sú celkom dôležité a používajú sa v regresnej analýze.

Podmienená stredná hodnota:image

Ako ste si už všimli postrehnúť, táto podmienená stredná hodnota nie je konštantná, mení sa v závislosti od vstupnej vysvetľujúcej premennej. V praxi môžeme pomocou vysvetľujúcich (vopred známych) premenných modelovať vývoj vysvetľovanej premennej.

Táto funkcia sa odborne nazýva regresná. V tomto prípade uvažujeme priamku, ako typ, ktorým chceme popísať vysvetľovanú premennú.

Otázku regresnej analýzy budem podrobne rozoberať o niečo neskôr, až prejdeme nutné štatistické základy.

Podmienený rozptyl:

Podmienený rozptyl je vo svojej podstate konštantný (vstupné štatistiky poznáme z historických dát).image

Táto vlastnosť sa taktiež nazýva homoskedasticita. V prípade regresnej analýzy je veľmi dôležitým predpokladom k tomu aby použitie regresnej analýzy bolo opodstatnené! V praxi pri analýze rôznorodých časových rad sa prakticky nepohnete bez toho, aby ste nezápasili s heteroskedasticitou.

Dané problematiky patria ku komplexným, preto je potrebné im venovať viac riadkov Úsmev. Vráťme sa k modelovaniu nášho kopčeka. Aby ste nezúfali, ponúkam vám sample file na stiahnutie, stačí pozorne prejsť článok spolu so sample file-om.

1) Vypočítate zo vstupných dát potrebné charakteristiky, viď predchádzajúci článok

2) Pripravíte si dvojrozmerné rozhranie

image

3) Vyplníte “štvorec” pravdepodobnostnou funkciou, odkazujúcou sa na bočné/hraničné hodnoty takto:

=1/(2*PI()*$A$16*$B$16*SQRT(1-POWER($B$22;2)))*EXP(-1*(2*(1-POWER($B$22;2)))*(POWER(($I8-$A$18);2)/$D$15+POWER((K$1-$B$18);2)/$E$16-2*$B$22*($I8-$A$16)*(K$1-$B$18)/($A$18*$B$18)))

Pre ilustráciu som farebne oddelil hodnoty pred mocninou Eulerovho čísla. Dôležité je správne ukotviť bunky tak, aby sa pri kopírovaní posúvali vstupné hodnoty správne, pamätajte že:

$A$16 ukotvuje riadok aj stĺpec, takže sa vstupná hodnota pri kopírovaní nemení

$A16 ukotvuje stĺpec, takže pri kopírovaní vzorca sa vám budú hodnoty posúvať po ukotvenom stĺpci

A$16 ukotvuje riadok, takže pri kopírovaní vzorca sa budú meniť hodnoty podľa stĺpcov, teda budú sa posúvať po vopred stanovenom riadku.

4) Vyplnený dátový štvorec zobrazíme prostredníctvom 3D grafu, upravíme podľa chuti a máme hotový kopček.

V mojom sample file-e kopček vyzerá nasledovne:

image

V budúcom diele budeme pokračovať normálnym rozdelením. Mám pre vás potešujúcu správu, čakajú nás ešte aproximácie a normálne rozdelenie pre zlogaritmované hodnoty. Potom sa budeme zaoberať ešte dvomi-tromi rozdeleniami a prejdeme na zaujímavejšie články - budeme oceňovať akcie.

Normálne rozdelenie (Doplnok)

 
V dnešnom článku sa budem musieť vyjadriť k štatistikám, ktoré som použil pri modelovaní viacrozmerného normálneho rozdelenia. Jedná sa o kovariančný a korelačný koeficient. Tieto pojmy sú dôležité a to z hľadiska závislosti náhodných veličín medzi sebou.
Práve otázka popisu náhodných veličín rozhoduje o tom, či môžeme definovať silu lineárnej alebo celkovej závislosti medzi veličinami.
Ak sú dve náhodné veličiny normálne rozdelené, koreláciou nemeriame iba lineárnu závislosť!
Tento fakt sa dá dokázať odvodením marginálnych rozdelení z dvojrozmerného normálneho rozdelenia podľa ktorého platí:
Súčin marginálnych hustôt z dvojrozmerného normálneho rozdelenia je rovný združenej funkcii (nezávislosť náhodných veličín) len v prípade, ak korelačný koeficient (obecne považovaná lineárna nezávislosť) je rovný 0! Táto veta platí aj naopak.
Obecne ide o to, že v prípade normálne rozdelených veličín môžeme prostredníctvom korelačného koeficientu uvažovať závislosť obecnú a nie len lineárnu. Táto skutočnosť neplatí u iných pravdepodobnostných rozdelení.
Kovariančný koeficient
Táto štatistika sa obecne podobná rozptylu, no ak uvažujeme dve rôzne náhodné veličiny, vzorec bude vyzerať tak trocha inak:image
Vo výpočtovom tvare:image
Jeho úlohou je popísať silu lineárnej závislosti medzi veličinami. Obecne nadobúda kladných aj záporných hodnôt bez intervalovej obmedzenosti. Ak sa hodnota blíži 0, veličiny sú lineárne nezávislé. Pri kladných hodnotách sú veličiny priamo závislé (zväčší sa hodnota prvej, mala by sa zväčšiť hodnota druhej), pri záporných hodnotách platí opačný vzťah.
Nevýhoda koeficientu spočíva v jeho neohraničených hodnotách! Obecne je ťažké posúdiť, aký je rozdiel medzi kovarianciou 56 a 156. Môžeme sa maximálne domnievať, že tie veličiny sú priamo závislé.
Z tohto dôvodu sa v štatistike modifikoval na iný koeficient tak, že jeho hodnota je predelená násobkom smerodajných odchyliek náhodných veličín:image 
Výpočtový tvar vyzerá takto:image
 

 
Výhoda korelačného koeficientu spočíva v konečnosti hodnôt od -1 do 1. Hodnoty blížiace sa 0 indikujú lineárnu nezávislosť. Inak platia obdobné vzťahy ako pri kovariančnom koeficiente.
Prejdime na Excel, v ktorom vám v sample file-e ukážem, ako tieto štatistiky spočítať.

Kovariančný koeficient:

image
=COVARIANCE.S(Náh. veličina 1; Náh. veličina 2)
Použil som formulu s koncovkou „S“, ktorá vypočíta koeficient priamo zo vzorku, teda nie aproximuje hodnotu na populáciu.

Korelačný koeficient:

=CORREL(Náh. veličina 1; Náh. veličina 2)
 
 
Týmto stručným prehľadom som potreboval osvetliť  tieto dva dôležité štatistické pojmy. V budúcom článku pokračujeme v Normálnom rozdelení a budeme si modelovať „kopček“.

Normálne rozdelenie - 2. diel

 
Praktické využitie normálneho rozdelenia vyžaduje poznatok viacrozmerného modelu. Ak by sme mali riešiť chyby  objemu náplne alkoholu do fliaš, je logické, že potrebujeme brať v úvahu nielen čas plnenia, ale aj tlak trysky a iné náhodné faktory.
Otázka viac rozmernosti rozdelenia náhodných veličín je na mieste aj u iných rozdelení, nie len u normálneho. Avšak my si neskôr ukážeme, že niektoré rozdelenia (nie je ich málo) sa za splnenia istých podmienok nahradzujú normálnym!
To je jeden z hlavných dôvodov, prečo chcem normálne rozdelenie rozpísať do viacerých dielov!
Začnime teda modelom viacrozmerného rozdelenia, ktorý je podobný modelu jednorozmerného. Povedzme, že sa budeme hrať s vektormi stredných hodnôt, konkrétnych hodnôt veličín a nezaobídeme sa bez kovariančnej matice a jej determinantu.
1) Vektor hodnôt náhodných veličín a stredných hodnôt náhodných veličín (s-rozmerný vektor)
image
2) Kovariančná matica:
image
Ktorá má na diagonále rozptyly jednotlivých veličín a mimo diagonálu kovariančné koeficienty. Z toho vyplýva, že bude pozitívne definitná. Jej determinant označíme takto:

image
Takto pripravené hodnoty použijeme v nasledujúcom rozdelení:
image
My si ukážeme, ako zostrojiť takúto funkciu povedzme pre tri náhodné imageveličiny. Na začiatok si prosím stiahnite sample file a môžeme začať.
V liste INPUT máme k dispozícii v čase usporiadané hodnoty náhodných veličín.  Tieto veličiny môžu byť napríklad tlak, konzistencia tekutiny, čas procesu a iné. My potrebujeme definovať vzťahy medzi týmito veličinami.
Začneme charakteristikou polohy, ktorú definujeme priemerom, použijeme nasledujúcu funkciu:
=AVERAGE(Oblasť hodnôt náhodnej veličiny)
Ďalej potrebujeme určiť rozptyl jednotlivých veličín:
=VARA(Oblasť hodnôt náhodnej veličiny)
Stretávame sa tu s pojmom kovariančný koeficient, tento pojem bližšie budem opisovať pri regresnej analýze, nám bude pre túto časť stačiť vzorec:
=COVARIANCE.S(Oblasť hodnôt náhodnej veličiny A;Oblasť hodnôt náhodnej veličiny B)
Takto vytvorené údaje môžeme zoskupiť do vektora stredných hodnôt a kovariančnej matice a nesmieme zabudnúť na determinant matice:
=MDETERM(Oblasť matice)
Výsledok môže vyzerať taktoimage:
Teraz nám stačí nadefinovať rozumnú škálu konkrétnych hodnôt náhodných veličín (viď list OUTPUT). Z nich vytvoríme diferencie so strednými hodnotami a vypočítame separátne pravdepodobnosti:
=(1/((POWER(2*PI();1,5)*SQRT(INPUT!$F$28))))*EXP(1)^(-0,5*MMULT(MMULT(D2:F2;INPUT!$F$23:$H$25);TRANSPOSE(D2:F2)))
POZNÁMKA: pri súčine matíc je veľmi dôležité poznať metodiku počtu riadkov/stĺpcov. Taktiež ak násobíte matice, vektory alebo kombináciu matíc a vektorov, MUSÍTE použiť kombináciu klávesníc Ctrl + Shift + Enter. V opačnom prípade sa vám vyskytne chyba typu: #VALUE!
Výsledné pravdepodobnosti pre konkrétne hodnoty veličín X1, X2 a X3 sa dajú prakticky považovať za nulové. Dôvod? Uvažujeme spojité rozdelenie, t.z. že každá jednotlivá izolovaná hodnota(y) ako výsledok pokusu prakticky neprichádza v úvahu (nedokážete naliať do nádrže presne 1,00000… liter benzínu). Avšak, ak sčítame tieto skoro nulové pravdepodobnosti pre jednotlivé hodnoty a tento súčet budeme uvažovať ako pravdepodobnosť, že výsledok pokusu sa bude nachádzať v našom intervale, vtedy táto práca má zmysel!
Spojité rozdelenie má zmysel využívať pri analýze pravdepodobností, že sa výsledok bude nachádzať v intervale!
Nabudúce sa budeme zaoberať kovariančným a korelačným koeficientom ako vsuvkou pre praktickú ukážku 2-rozmerného normálneho rozdelenia.

Normálne rozdelenie - 1.diel

 
Toto, štatisticky významné rozdelenie je tak dôležité, že sa mu budem venovať vo viacerých dieloch.
Už pri popise charakteristík náhodných veličín som ho spomenul v súvislosti so špicatosťou a šikmosťou. Ak si nájdete pojmy ako regresná analýza, alebo chcete modelovať úrokové miery, ceny finančných derivátov apod., všade sa stretnete so základom (axióm) normálne alebo log-normálne rozdelenej veličiny, ktorú mienite analyzovať.
Otázka splnenia normálnosti veličiny je už odlišná kapitola, ktorá sa rieši individuálnymi testami tzv. normality, poprípade sa používajú sofistikovanejšie modely s použitím napríklad Študentovho rozdelenia.
Jednorozmerné normálne rozdelenie vyzerá takto:
image
V Excel-i (viď sample file) si ho môžeme vygenerovať nasledovne:
1) Nadefinujte strednú hodnotu µ a smerodajnú odchýlku δ
2) zvoľte si interval hodnôt X, so stredom rovným µ a rozpätím rovným aspoň
3) Vedľa v novom stĺpci použijeme funkciu norm.dist:
=NORM.DIST(hodnota X;Priemer - stredná hodnota; Smerodajná odchýlka;1-Kumulovaná distr. a 0- pravdepodobnostná funkcia)
Výsledok si môžete zobraziť do grafu napríklad takto:
image
Modro sfarbená funkcia je pravdepodobnostné rozdelenie (symetrické okolo strednej hodnoty) a bordová je distribučná funkcia, ktorá evidentne konverguje k hodnote 1. Závislosť “ostrosti” pravdepodobnostnej funkcie a tiež uhol rastu distribučnej funkcie spravidla závisí na veľkosti rozptylu (smerodajnej odchýlky).
Platí: čím menší rozptyl, tým je rozdelenie náhodnej veličiny presnejšie, kopec je strmší a spád distribučnej funkcie väčší.
image











Pokračujme definíciou momentovej vytvárajúcej funkcie. Najprv pre náhodnú veličinu X a potom z nej odvodíme momentovú funkciu pre normovanú Y:
image















 
 
 
 
 
 
 






image



























Prečo sme vlastne použili normovanú veličinu Y? Lebo uvažovaná veličina X má normované normálne rozdelenie s nulovou strednou hodnotou a rozptylom rovným 1.
Ak chceme z normálne rozdelenej veličiny utvoriť normovanú normálne rozdelenú veličinu, použijeme:
image
Tento vzťah je veľmi užitočný, bez ktorého sa ťažko riešia problémy v praxi. Takže ho doporučujem ovládať Úsmev.  V rámci článku by bolo vhodné uviesť charakteristiky rozdelenia, tie však nebudem odvodzovať, nakoľko sa jedná o ten istý princíp ako v predchádzajúcich rozdeleniach, takže:
image
To by bolo pre dnešok všetko. Vyzerá to byť náročnejšie na mozgové bunky, no pri riešení praktických problémov sa relatívne často používa štatistika, teda človek potrebuje definovať to, ako sa správa pravdepodobnosť (definovať rozdelenie) a na základe charakteru pravdepodobnosti môže predpovedať a rozhodovať. O to lepšie sa ľuďom manipuluje s dátami a problematikou, ak dokážu posúdiť ktoré rozdelenie je vhodné a ktoré nie!
Nemusíte si pamätať vzorčeky, stačí ak sa na ne pozriete a viete podstatu! Prakticky stačí, ak poznáte momentovú funkciu, z ktorej dokážete nadefinovať čokoľvek!