Štatistika

nedeľa 23. septembra 2012

Poissonovo rozdelenie a neočakávané deti

Kto si z vás pamätá na Taylorov rozvoj alebo Maclaurinov? Našou úlohou nebude venovať sa týmto pojmom, no dnes musím poukázať na ich dôležitosť a to nie len pri Poissonovom rozdelení, ale celkovo pri akýchkoľvek iných problematikách.

Nám bude postačovať fakt, že:

Čo musíme urobiť aby sa daný výraz rovnal 1? Predelíme ho e^λ. Dôvod? Predsa súčet pravdepodobností výskytu všetkých možných náhodných javov musí byť rovný 1. Tým pádom, môžeme pravdepodobnosť veličiny {x} vyjadriť takto:

Pokračujme momentovou vytvárajúcou funkciou, z ktorej odvodíme strednú hodnotu a rozptyl (parciálna derivácia podľa Z a potom dosadenie Z=0):

Použitie rozdelenia

Už samotný názov článku naznačuje, že použijem príklad zo života, príklad ktorý v učebniciach nenájdete. Predstavme si, že vyrábame prezervatívy. Celkom triviálna vec, čo na

tom bude vyrobiť kus poväčšine latexovej čiapočky na jedno použitie. No podstata a náklady nespočívajú v samotnom výrobnom procese, ale taktiež v testovaní a vývoji komfortnejších typov.

Existujú rôzne typy testov bezpečnosti kondómov, no všeobecne sa delia na dve skupiny:

Deštruktívne testy – techniky, ktoré testujú výberové vzorky kondómov až pokiaľ sa nezničia, pritom vyhodnocujú rôzne parametre.

Nedeštruktívny test – kondóm ako izolácia pri elektrickom prúde.

Budeme uvažovať nedeštruktívnu metódu testu a povedzme, že podľa štandardov 99,9% vyrobených kondómov musí úspešne absolvovať túto kontrolu pred tým, než si ich kúpite. Naša prevádzka je zatiaľ malá, s kapacitou 10000 kondómov denne. To znamená, že môžeme denne odhadnúť v priemere 10 zle izolovaných kondómov. Ak ich zaznamenáme viac, musíme výrobu pozastaviť a analyzovať výrobný proces spolu s materiálom individuálne.

Naša výroba eviduje v priemere 7 zlých izolantov (kondómov), To znamená, že naše λ=7. Takto si pomocou Excel-u môžeme zostaviť rozdelenie pomocou pravdepodobnostnej a distribučnej funkcie takto:

=POISSON.DIST(počet očakávaných chýb ; priemerný počet chýb ; 0 – separovaná pravdepodobnosť, 1 – kumulovaná pravdepodobnosť)

Výsledok si samozrejme môžete stiahnuť.

Graficky môžeme toto rozdelenie interpretovať takto:

Rozdelenie síce na obrázku vyzerá symetricky, obecne tento fakt neplatí pre každé λ. Avšak platí, že čím je λ väčšie, tým je rozdelenie menej šikmé, teda symetrickejšie.

Pokúsme sa sa vrátiť k testu kondómov a analyzujme, s akou pravdepodobnosťou budeme musieť prerušiť výrobu a vykonávať hĺbkovú kontrolu?

Odpoveď:

Hodnoty z nášho testu nesmú byť väčšie ako 10! Pozrime sa na kumulovanú pravdepodobnosť pre hodnotu 10. Potom túto hodnotu odčítame od 1 a máme výsledok:

Je vidieť, že s pravdepodobnosťou 0,09852 môžeme celkom predpovedať, že naša denná produkcia kondómov nemusí byť dostatočne bezpečná.

Poučenie:

Nejde o to s kým, kde a za akých okolností, ale o to že aj za tak triviálnou antikoncepciou akou sú kondómy stojí fakt, že tie testy nezaručujú 100% bezpečnosť produktu. Takto som sa snažil priblížiť, že aj tak na prvý pohľad triviálne rozdelenie môže (a ono aj v praxi skutočne má) veľké využitie a existencia firiem v mnohých prípadoch visí na viac-menej na podobnom štatistickom vlásku. Avšak nechcem tým garantovať, že presne takto sa vyhodnocuje kvalita prezervatívov Smiech

, no hypoteticky to môže byť podobné – povedzme o niečo zložitejšie! Takže prosím nezľaknite sa a ak sa vám “stane nehoda”, tak pamätajte že nič nie je dokonalé.

Budúcim článkom by sme mali prejsť k spojitým rozdeleniam, takže máte sa na čo tešiť.

Binomické rozdelenie – prehľad

Po dlhšej dobe sa opäť vraciam k písaniu a budem pokračovať v binomickom rozdelení. Z hľadiska znalosti jednotlivých vzorčekov je veľmi jednoduché, stačí ak sa pozrieme na povedzme vývoj rozdelenia. V podstate môžeme konštatovať, že Binomické rozdelenie je zovšeobecnený model Alternatívneho rozdelenia.

Alternatívne rozdelenie

Jedného krásneho dňa sedíte napríklad v električke a ani sa nenazdáte a prisadne si k vám nádherné dievča. Keďže ste vo veľkomeste, prakticky nemáte šancu ju ešte niekedy stretnúť a preto viete, že ak s ňou chcete ísť von, musíte ju presvedčiť práve v ten nie príliš všedný okamih Úsmev

Vezmime v úvahu niekoľko faktorov: výzor, úsmev, charizma, komunikačné schopnosti (niektorí chlapci-lovci môžu zobrať v úvahu aj relatívnu úspešnosť všetkých svojich pokusov) a stanovme si šancu, že ju “zbalíme”. Pre ilustráciu, kamarát Adam bude optimistický a verí si, že to zvládne na 70%. Čo môže nastať?

1) pozitívny jav, slečnu presvedčil dohodol napr. večeru

2) negatívny jav, slečna mu slušným spôsobom naznačila, že nemá záujem

Definujeme náhodnú veličinu {x}, v ktorej úspech označíme číslom 1 a neúspech 0 (nula-jednotkový typ) a vypočítame si pravdepodobnosť úspechu takto:

V našom prípade bude pravdepodobnosť, že Adam bude skórovať vyzerať takto:

Analogicky to bude vyzerať pre neúspech (dievča ho odmietne s pravdepodobnosťou 0,3). Takýto pohľad na problematiku sa možno zdá tak trocha zbytočný, ale berieme v úvahu štatisticky najjednoduchší prípad (aj keď zoznámiť sa za takýchto okolností nemusí byť jednoduché).

Prejdime k momentovej vytvárajúcej funkcii:

Tým pádom môžeme parciálnou deriváciou podľa Z a dosadením Z=0 do zderivovanej funkcie dostať jednotlivé momenty takto:

Opustíme jednoduché alternatívne rozdelenie, uvažujme fakt, že Adam zlyhal. Čo sa môže diať po tom?

1) Takéto prípady zbytočne nedramatizuje, berie život optimisticky a verí, že ta pravá ho niekde čaká
2) Zdôverí sa mi s tým a čaká povzbudenie

Uvažujeme druhý prípad a mňa nenapadne nič rozumnejšie ako štatistický pohľad na vec Úsmev

. Adam proste musí pochopiť, že uvažovať v takýchto prípadoch Alternatívnym rozdelením jednoducho nestačí!

Musí si uvedomiť, že je síce pravda, že každá žena je istým spôsobom výnimočná, no existuje isté konečné množstvo prvkov alebo čŕt, ktoré vzhľadom k jeho povahe potrebuje jeho budúca polovička spĺňať. Preto musí uvažovať zovšeobecnene, Binomickým rozdelením!

Uznáme, že tá žena v električke síce bola sympatická, no podobný typ (vzhľadom ku konečnému počtu spoločných a pre Adama dôležitých čŕt) môže stretnúť povedzme 5 krát za mesiac (často sa pohybuje medzi ľuďmi).

Tým pádom sa ho opýtam: aká je pravdepodobnosť, že z 5 žien aspoň jedna z nich pôjde povedzme na večeru?

V takom prípade bude Adamovi jedno, ktoré dievča z piatich si s nim vyrazí von. Prakticky sa mu otvoril nový pohľad na vec: výzor-zjav, ktorý ho upúta nie je všetko! Tá nemenej dôležitá povahová zložka je náhodná (nedokážeme pohľadom definovať povahu). Vráťme sa k položenej otázke a ukážeme si odpoveď:

Obecný vzorec:

Alebo Alternatívne rozdelenie v ktorom sme nahradili jednu slečnu viacerými, teda n a pridali sme kombinačný člen (je nám prakticky jedno, ktorá z n slečien pôjde von).

Riešenie: potrebujeme si vyjadriť pravdepodobnosť, že ani jedna z žien s ním nepôjde von a potom odčítať od 1. Výraz aspoň jedna znamená prvá, druhá, tretia, štvrtá, piata alebo prvá a taktiež aj druhá apod. Teda všetky možnosti (kombinácie) okrem možnosti ani jedna. Preto:

P(aspoň jedna) = 1 – P(ani jedna)

S tak vysokou pravdepodobnosťou je viac menej jasné, že Adam sa nemá čoho obávať alebo mať zbytočné depresie Úsmev

. Touto interpretáciou náš kamarát Adam bude mať určite viac elánu a chuti hľadať si svoju spriaznenú dušičku. Nastal čas opustiť Adama a pozrieť sa tak trochu do Excel-u a preto sample file vás neminie.

Pre výpočet pravdepodobnosti používame funkciu =BINOM.DIST(počet úspechov;počet možností;pravdepodobnosť úspechu;0 – separovaná pravdepodobnosť, 1- kumulovaná pravdepodobnosť).

Je vidieť, že kumulovaný súčet separovaných pravdepodobností je rovný distribučnej funkcii (viď graf).

Charakteristiky Binomicky rozdelenej náhodnej veličiny
Uvažujme všetkých n dievčat zvlášť, teda Alternatívne rozdelené pravdepodobnosti úspechu.

S momentovou funkciou:

ďalej chceme vedieť ako je rozdelená štatistika úhrnu {y}.

Táto štatistika je vlastne pozmenený pohľad, v ktorom “hádžeme Adamove dievčatá do jedného vreca”. Odvoďme si momentovú funkciu:

Táto funkcia je momentovou vytvárajúcou funkciou Binomického rozdelenia a analogicky ako pri Alternatívnom z nej dostaneme nasledujúce charakteristiky polohy a variability:

Myslím, že to by bolo asi všetko k Binomickému rozdeleniu, nabudúce ochutnáme Poissonovo rozdelenie.

Binomické rozdelenie (I <3 shopping)

Chodíte radi nakupovať a nepoznáte Binomické rozdelenie? Potom je na čase, aby ste sa s nim oboznámili! Ako ste si už určite zvykli, sample file je opäť k dispozícii, takže po stiahnutí môžeme pekne začať príkladom.

Predstavte si svoj obľúbený obchod, do ktorého zavítate vždy, ak máte chuť utratiť zopár €. Elektronika, oblečenie, topánky, kabelky, v podstate je to jedno. Každý obchod tvorí určitý marketing, aby si budoval klientelu.

Predstavme si, že dostaneme 5000€, ktoré máme v priebehu nasledujúceho mesiaca rozdať ľuďom vo forme darčekových poukážok tak, aby sme oslovili tých s najväčšou lojalitou!

Niektorí z vás si povedia, čo je na tom tak zložité – vezmem a rozdám každému, kto navštívi obchod a zopár € tam utratí. No v skutočnosti to vyzerá tak, že zdanlivo minorita zákazníkov permanentne vytvára majoritnú časť tržby! Chceme azda peniaze rozdať tým, ktorí utrácajú len ak sú výpredaje a diskonty? Nie! Chceme sa odvďačiť tým, ktorí si poctivo aktualizujú šatník a sú zdravými piliermi brandu. Vráťme sa k našim 5000€ a kvázi investičnej úlohe. Investičná v zmysle – ak oslovíte lojálneho zákazníka, ten v skutočnosti utratí omnoho viac, než by sme si dokázali predstaviť, on je povedzme dojná kravička nášho biznisu.

Ako ich vyselektovať? Sú na to rôzne spôsoby z oblasti dataminingu a štatistických metód, ktoré nie sú lacná záležitosť avšak retailovo orientovaná spoločnosť sa v dnešnej dobre bez nich nezaobíde. Povedzme, že sme na základe regresnej analýzy určili tri možné scenáre počtu nakupujúcich pre budúci mesiac:

Vezmime si údaje o nákupoch za posledné tri mesiace a zistíme, že množstvo ľudí, ktorí utrácajú sa zvyšuje s príchodom leta (Máj – 72, Jún – 85, Júl –96). Výstup z externého dataminingového modelu hovorí ,že ľudia, ktorých platby presahujú hranicu 60€ sú cieľová skupina, skupina na ktorú je potreba cieľovať kupóny, zľavy benefity a iné nástroje komunikácie.

Z disponibilných štatistík za posledné tri mesiace zistíme relatívnu početnosť ľudí, ktorí utratili viac ako 60€. Použijeme funkciu =COUNTIF(B3:B98;">60")/COUNT(B3:B98).

Tieto relatívne početnosti budeme používať v modeli binomického rozdelenia, ktoré vyzerá takto:

V danej pravdepodobnostnej funkcii používame relatívnu početnosť p ako odhad pravdepodobnosti výskytu javu. Použiteľný vzorec bude vyzerať nasledovne:

A v Exceli máme funkciu =BINOM.DIST(Počet úspechov;Počet všetkých pokusov;p;0-pravdepodobnosť alebo 1-distribučná funkcia), ktorá počíta pravdepodobnosť výskytu javu, resp. kumulovanú pravdepodobnosť.

Stredná hodnota a rozptyl rozdelenia vyzerajú nasledovne:

Nasledujúca tabuľka nám ukáže hodnoty pravdepodobnosti, že náhodný kupujúci v obchode dostane zľavu, plus očakávaný počet takýchto šťastlivcov spolu so smerodajnou odchýlkou.

Ako nasledujúce dáta môžeme použiť? Zatiaľ sme nehovorili o veľkosti zľavy, resp. ako rozdeliť tých 5000€ pre skupinu vyvolených! V tomto prípade musíme byť opatrní, nemôžeme prehliadnuť rozpočet!!! Použijeme dva prístupy.

Prvý: odhadneme počty bonusových zákazníkov pomocou súčtu strednej hodnoty a smerodajnej odchýlky. Následne predelíme rozpočet množstvom očakávaných ľudí.

Druhý: pomocou funkcie =BINOM.INV(počet pokusov;p;0,95) vypočítame množstvo prípadov, pre ktoré by binomicky rozdelený náhodný jav mal nastať s pravdepodobnosťou 0.95 (interval spoľahlivosti). Tieto hodnoty taktiež použijeme na predelenie rozpočtu a výsledok je k dispozícii tu:

V našom prípade, kedy potrebujeme byť maximálne opatrní, vyberieme si ten najpriaznivejší scenár o počte zákazníkov, takže obmedzíme výšku bonusového kupónu na 60€. Úloha tvorby benefičných programov a celkovo vernostných stratégií je enormne citlivá problematika. Je preto nevyhnutné jej venovať dostatok pozornosti a HLAVNE používať sofistikované štatistické prístupy.

V nasledujúcom diele si ešte ukážeme ostatné charakteristiky a taktiež vzhľad binomického rozdelenia.

Charakteristiky náhodnej veličiny (4.diel)

Šikmosť a špicatosť

Tieto charakteristiky bude tak trocha problematické vysvetliť, nakoľko sme si nedefinovali jedno z asi najviac skloňovaných pravdepodobnostných rozdelení: Normálne rozdelenie. Zatiaľ si ukážeme iba postup, ako takéto rozdelenie modelovať! Stiahnite si prosím nový sample file a môžeme začať.

V prvom rade si musíme nagenerovať hodnoty náhodnej veličiny od -4 do 4 s

absolútnym prírastom 0.01. Tieto hodnoty dostaneme napríklad tým, že do bunky A2 vložíme hodnotu –4 a v A3 bunke napíšeme vzorec =A2+0,01. Tento vzorec skopírujeme a vložíme do oblasti od A3 do A802. Tento stĺpec si označíme ako x a potom sa budeme v ďalšom stĺpci f(x) zaoberať nasledujúcou hustotou pravdepodobnosti:

Daný vzorec môžeme napísať takto: =(1/POWER(2*PI();0,5))*EXP(1)^(-0,5*(A3^2)), kde pomocou funkcie POWER vytvoríme odmocninu, PI() je zase Ludolfovo číslo a EXP(1) pre zmenu Eulerovo. Následne sa pokúsime z vytvorených stĺpcov vytvoriť graf (Scatter) a výsledok by mal vyzerať nasledovne:

Tento typ rozdelenia sa tiež nazýva normované normálne rozdelenie, ktoré je charakteristické tým, že jeho stredná hodnota je rovná 0, rozptyl je rovný 1, šikmosť a špicatosť 0. A práve pomocou tohto normovaného rozdelenia sa riadia charakteristiky šikmosti a špicatosti.

Pri týchto charakteristikách je potrebné zaviesť pojem NORMOVANIE. Jedná sa spravidla o štatistiku, v ktorej od hodnoty X odčítame jej strednú hodnotu E(X) a potom celý výraz predelíme smerodajnou odchýlkou.

Táto veličina sa v literatúre zvykne označovať písmenom U. Tento proces normovania využijeme pri výstavbe momentových charakteristík:

Ako iste tušíte, výraz s integrálom je popis momentovej charakteristiky pri spojitých veličinách a druhý zo sumou pre nespojité veličiny. Nás budú zaujímať momenty: Tretí (šikmosť) a štvrtý (špicatosť). Tým pádom šikmosť môžeme matematicky zapísať ako:

Táto štatistika nám ukazuje, do ktorej strany sa zobrazuje prevažná časť prípadov v rozdelení, teda či je zošikmená doprava alebo doľava. Pre špicatosť samozrejme platí:

Číslo –3 som použil v rámci zaužívaného postupu, ktorý sa odkazuje na hodnotu normovaného normálneho rozdelenia, ktorého špicatosť je rovná 3. Takto sa štatistika nazýva koeficient špicatosti a primárne porovnáva špicatosť (hrot histogramu) dátového súboru hodnôt s týmto štandardným rozdelením.

Pre ilustráciu si urobíme taký malý pokus. Vygenerujeme si tri premenné s 20000 hodnotami normovaného normálneho rozdelenia a vypočítame si všetky základné charakteristiky. Pre výpočet šikmosti použijeme funkciu =SKEW(), kde v zátvorke označíme výberový súbor. Analogicky pre špicatosť použijeme funkciu =KURT().

Ak vychádzame z toho, že poznáme rozdelenie, z ktorého boli hodnoty vygenerované, vieme veľmi dobre, že stredná hodnota (priemer je v tomto prípade nestranný odhad) má byť rovná 0. Pre rozptyl platí teoretická hodnota rovná 1 a šikmosť spolu so špicatosťou má byť rovná 0.

TOTO je PRÍKLAD toho, AKO sa ODLIŠUJÚ teoretické HODNOTY od EMPIRICKÝCH! Nabudúce si budeme ukazovať zopár zaujímavých rozdelení náhodných veličín.

Charakteristiky náhodnej veličiny (3.diel)

Milí čitatelia! Dostávame sa do fázy, teda lepšie povedané ja som sa ocitol vo fáze, keď musím dôrazne porozmýšľať o tom, čo som vám v rámci náhodných veličín povedal a čo ešte nie. Dokážeme rozlišovať stochastické javy od deterministických. Taktiež zamyslieť sa nad jednotlivými náhodnými veličinami. Používať histogramy a nezabúdajme na to, že priemer niekedy nemusí bezprostredne poskytovať informáciu, ktorú potrebujeme.

Charakteristiky variability

Variabilita ako pojem by sa ľudským spôsobom dala definovať ako sklon k vychýleniu sa od očakávanej hodnoty. Predstavme si situáciu, v ktorej máme naše známe tri typy IES škôl a rozhodujeme sa, na ktorú z nich nastúpiť. Aplikácia kvartilov nám ako tak pomohla vybrať si a to zobrazením študentov, ktorí zarábajú relatívne málo alebo relatívne veľa v porovnaní so strednou hodnotou!

Už momentové charakteristiky nám hovorili niečo o variabilite nástupných platov, kde IES-kvalitný škola mala nízku variabilitu a tým pádom jej absolvent má štatistickú istotu, že jeho cifra na výplatnej páske sa bude pohybovať v okolí priemernej mzdy. Toto tvrdenie neplatí pre študentov IES-nekvalitný! Takýto absolvent je elastický a platí pre neho jednoduché pravidlo: učí a pracuje na sebe, tým pádom zarobí nemalé peniaze; ak je lenivý a učí sa iba pre titul bude poberať smiešne peniaze!

V praxi sa však používa charakteristika, nazývajúca sa rozptyl, spolu s jej odmocninou – smerodajnou odchýlkou.

Rozptyl a Smerodajná odchýlka

Táto charakteristika sa vyjadruje obecne v tvare:

Alebo môžeme použiť výpočtový tvar:

Sami vidíte, že sa rovná súčtu štvorcov odchýlok hodnôt od strednej hodnoty. Ako každú inú štatistiku, aj táto má svoj (pre daný výberový súbor ) špecifický výpočtový tvar. Do hry v tomto prípade vstupuje stredná hodnota. Ak by sme napríklad vedeli ,že výberové hodnoty pochádzajú, alebo sa približne podobajú normálnemu rozdeleniu, môžeme strednú hodnotu nahradiť nestranným odhadom – aritmetickým priemerom a empirický vzorec pre rozptyl by vyzeral takto:

V prípade, že pracujete s veľkým množstvom hodnôt, stáva sa že sa vzorec zjednoduší a to tak, že v menovateli bude iba počet hodnôt:

Stiahnime si sample file, tí ktorí používali súbor z predchádzajúceho článku, majú o starosť menej. Excel poskytuje viacero možností výpočtu rozptylu:

Asi najviac používanými funkciami sú VAR a VARP. Pričom VAR nám vypočíta výberový rozptyl (posledný vzorec) a VARP sa pokúša vyhodiť hodnotu rozptylu pre celú populáciu.

Logika vzorcov je jednoduchá, stačí označiť oblasť buniek, z ktorej chceme rozptyl. V prípade potreby smerodajnej odchýlky nám stačí urobiť odmocninu z rozptylov alebo analogicky použiť vzorce pre výpočty:

Aj v tomto prípade je analógia výpočtu jednoduchá - totožná s rozptylom. My použijeme funkcie STDEV a STDEVP. Výsledky variability budeme komentovať z nasledujúcej tabuľky:

Tieto výsledky len potvrdzujú to, čo nám predpovedali kvartily. Tým pádom už určite chápete, prečo som IES-kvalitný nazval kvalitný súbor absolventov apod.. Otázkou znie, prečo vlastne počítame rozptyl a smerodajnú odchýlku? A prečo to vôbec všetko robíme cez mocniny, keď nám hravo postačí súčet absolútnych hodnôt diferencií?

Smerodajná odchýlka slúži predovšetkým na pohodlnú interpretáciu (hodnoty indikujú, o koľko sa navzájom líšia výplatné pásky absolventov) a rozptyl zohráva dôležitú výpočtovú úlohu v komplexnejších štatistických výpočtoch. Riešiť absolútne diferencie nie je bezprostredne zlá cesta, no všestrannejšie sú štvorcové výpočty.

Budúcim článkom dokončíme charakteristiky náhodných veličín a rozoberieme si niektoré potrebné pravdepodobnostné rozdelenia.

Charakteristiky náhodnej veličiny (2.diel)

Histogram

Tento názov by pre väčšinu “ekonómov” alebo ľudí, ktorí sú v kontakte s analýzou dát nemal byť neznámy pojem. Skoro by som bol zabudol, sample file je taktiež k dispozícii. Každopádne

tí, ktorí ho vidia po prvýkrát na obrázku si položia otázku: Prečo individuálny názov pre v podstate stĺpcový graf? Je potreba vôbec rozlišovať medzi stĺpcovým grafom a Histogramom? Odpoveď znie, ÁNO. Ak si spomeniete na to, ako som sa zaoberal náhodnými veličinami, tak som sa nevenoval typom náhodných veličín. V každom prípade poznáme Spojité a Nespojité typy. Spojité náhodné veličiny nadobúdajú (štatisticky) izolovanú hodnotu s nulovou pravdepodobnosťou (nedá sa načapovať presne 1,00… litrov piva). Nespojité sú charakterizované práve izolovanými hodnotami (vašu web stránku nemohlo navštíviť 0,98765…. návštevníkov, ale 1 alebo 2 alebo n). Ale ak vaša stránka je napríklad Facebook a vy sledujete návštevnosť v sekundách, v štatistike môžeme zobrať v úvahu fakt, že tieto celkom pozoruhodne meniace sa izolované hodnoty návštevnosti v tak krátkom čase sa správajú skoro ako spojité. Práve preto si štatistici povedali, že túto “spojitosť” sa budú snažiť vyjadriť stĺpcovým grafom, v ktorom sa jednotlivé stĺpce dotýkajú, čo znamená niečo ako kvázi spojenie skupín. Slovo skupín som použil preto, lebo hodnoty histogramu nie sú len tak zbežné! Histogram totiž zobrazuje skupinovú početnosť!

Predstavme si situáciu, keď máme 14 rôznych dlžníkov s konkrétnymi dlžnými čiastkami. My by sme chceli ich istým spôsobom rozdeliť do skupín a taktiež získať prehľad o naše

j “úžerníckej” činnosti.

Použijeme na to Histogram. Podľa pridanej tabuľky doplníme hranice tried Prejdime na kartu Data a možnosť Analýza dat a vyberieme si Histogram (V prípade, ak takúto možnosť nemáte, musíte si pridať tzv. Add-in nástroj, viď prvý článok). V následne zvolenom dialógovom okne si nadefinujeme Vstupní oblast, Hranice tříd, potom Výstupní oblast. Taktiež zaškrtneme Kumulatívni procentuální podíl a Vytvořit graf. Výsledok sa nám zjaví vo forme tabuľka a grafu.

Pre estetické cítenie som si upravil tabuľku do formátu, aký má tabuľka skupiny a taktiež som upravil hrúbku dátových stĺpcov na grafe. Kliknite na stĺpce v grafe tak aby sa označili, pravým tlačidlom Format data series… a v možnosti Gap Width priblížte kurzor k hodnote No Gap približne na 8% (aby medzi stĺpcami nebol tak dramatický gap).

Interpretácia grafu: na vodorovnej osi máme naše skupiny, vertikálna os na ľavej strane zobrazuje počet prvkov jednotlivých skupín. Pravá strana vertikálnej osi zobrazuje kumulatívne percento jednotlivých skupín ( prvá skupina mala 14,29%, druhá 14,29%+21,42% = 35,71% – spolu obidve skupiny, atď.). Kumulatívne percento je graficky znázornené bordovou čiarou, všimnite si, že posledná skupina vždy nadobúda hodnotu 100%.

Vráťme sa k našim typom IES platových skupín,z predchádzajúceho článku. Vytvorme si histogramy, pre každý z nich! Triedy si pri tvorbe histogramov musíte vždy premyslieť! Vezmite v úhavu tvar grafu, minimá a maximá alebo iné charakteristiky polohy (viď. predchádzajúci článok). V tomto prípade by bolo vhodné si vytvoriť triedy s počiatočnou hodnotou 30000Kč, pričom každá ďalšia je väčšia o 500Kč až po maximum 90000Kč. Výsledky si môžete premiestniť na spoločný graf a mierne upraviť napríklad takto:

Histogramy slúžia nie len na to, aby sme získali aký taký prehľad o “vzhľade” náhodnej veličiny, ale my totižto na základe tohto “vzhľadu” môžeme určiť nejakú funkciu, ktorá by sa dostatočne podobala našej náhodnej veličine! Začíname hovoriť o tzv. rozdeleniach náhodných veličín!

Bordové čiary vyjadrujú niečo ako Empirickú Distribučnú funkciu a Modré stĺpčeky Empirickú Hustotu pravdepodobnosti! O čo sa vlastne jedná??? Principiálne ide o to, že v štatistike chceme náhodnú veličinu charakterizovať, teda dozvedieť sa o nej čo najviac, aby sme vedeli predpokladať jej správanie sa a tým pádom aj vyvodiť dôsledky rozhodovania sa. Ako v našom príklade s platmi, snažíme sa čo najlepšie popísať jednotlivé typy IES – škôl tak, aby sme sa rozhodli, na ktorú ísť študovať alebo nie, taktiež pozrieť sa na zúbok VŠE fakultám a uistiť sa v rozhodnutí! Uznajme, že štúdium na IES – málo kvalitný by nebolo celkom rozumné, nakoľko nepatríme k študentom, ktorí by sa šprtali v knihách 12hod. denne a na druhej strane nechceme po štúdiu dostávať na výplatnej páske hodnotu približne 30 000Kč, ktorá je dosť možná! Lepšie by sme urobili, ak by sme si vyštudovali IES-kvalitný s akou takou garanciou platov s rozmedzí 57 000 až 61 000Kč.

A práve okrem základných polohových charakteristík nás zaujíma aj tvar rozdelenia pravdepodobnosti. Lebo celý čas tu v podstate hovoríme o pravdepodobnostiach! Zatiaľ empirických. Tak napríklad empirická pravdepodobnosť, že po IES-kvalitný budem zarábať 84 000Kč je nulová, zatiaľ čo paradoxne u IES-stredne a málo kvalitný to paradoxne neplatí!!!

Tu sa nám žiada položiť si otázku, koľko chcem v budúcnosti mať príjem! Hneď po tom nasleduje otázka, s akou pravdepodobnosťou budem tento príjem zarábať??? Práve v takýchto prípadoch nám len jednotlivé charakteristiky polohy a variability nebudú stačiť! My totižto podľa Hustoty a Distribučnej funkcie dokážeme na danú pravdepodobnostnú otázku odpovedať!!!

Obecne sa začíname baviť o tzv. rozdelení pravdepodobnosti. Jedná sa spôsob, akým výsledkom - náhodným javom môžeme priradiť priradiť pravdepodobnosti! To znamená, interval od 0 do 1 musíme rozrezať na malé kúsky, priradiť jednotlivým platom (náhodným javom), poprípade platovým kategóriám a to všetko na rozhraní absolventských platov školy napríklad IES – kvalitný (náhodná veličina)!

To sme v podstate empiricky urobili! Každý modrý stĺpček nám vyjadruje absolútny výskyt náhodného javu. To znamená, že ak každú hodnotu stĺpčeka predelíme množstvom všetkých absolventov danej školy, dostaneme relatívnu početnosť, ktorá sa rovná pravdepodobnosti výskytu! Vezmime v úvahu úvodný histogram a predeľme počty dlžníkov v jednotlivých skupinách celkovým počtom všetkých, čo nám dĺžia a uvidíte čo sa stane!

Všimnime si, že sa nám ľavá vertikálna os tak trošku pozmenila. Namiesto počtov výskytov máme ich relatívne početnosti, tým pádom empirické pravdepodobnosti ich výskytu! Teraz máte možnosť vidieť empirickú Hustotu a Distribučnú funkciu v pravom slova zmysle!

Prenesme sa z empírie do teórie! Komu by sa chcelo pri každej analýze platov IES škôl strácať čas empirickým zisťovaním “tvaru” náhodnej veličiny??? Mne rozhodne nie a taktiež mnohým štatistikom! Ak porovnáme teoretické pravdepodobnostné rozdelenie (Hustota a Distribučná funkcia - tvar) s empirickým (Histogram) a zistíme, že sa len veľmi slabo odlišujú, stačí používať tieto teoretické pravdepodobnostné rozdelenia a tým pádom odhadovať ich parametre a máme postarané prakticky skoro o všetko (túto podobnosť empírie a teórie je potreba testovať).

Porovnajme si IES-stredne kvalitný s Normálnym rozdelením!

Na základe dodatočných testov (budeme rozoberať neskôr) môžeme aproximovať empirickú distribučnú funkciu a hustotu (empirické rozdelenie) Normálnym rozdelením, ktorého hustotu, distribučnú funkciu a taktiež charakteristiky hravo dokážeme spočítať!

V ďalšom článku sa budeme venovať charakteristikám variability a šikmosti a špicatosti.