Discrete Kansrekening/Stochastische variabelen/Enkele bekende discrete verdelingen
4.3 Enkele bekende discrete verdelingen
bewerkenIn deze paragraaf bespreken we enkele veel voorkomende discrete kansverdelingen. In verband met hetgeen we in de vorige paragraaf opmerkten laten we iedere verwijzing naar een onderliggende kansruimte achterwege.
Als randgeval beschouwen we de situatie dat er eigenlijk niet van toeval sprake is; de s.v. X neemt slechts één waarde aan, de verdeling van X is ontaard.
Definitie 4.3.1 (ontaarde verdeling)
De s.v. X heeft een ontaarde verdeling in het punt a, als de kansfunctie van X wordt gegeven door pX(a) = 1.
Als de s.v. X twee verschillende waarden kan aannemen, dan spreken we van een alternatieve verdeling. We zullen voor de eenvoud slechts 0 en 1 als mogelijke waarden van X beschouwen. De s.v. X geeft aan of we wel (X=1) of niet (X=0) succes hebben in een Bernoulli-experiment. We kunnen ook zeggen dat X het aantal successen is bij het experiment.
Definitie 4.3.2 (alternatieve verdeling)
De s.v. X heeft een alternatieve verdeling (ook Bernoulli-verdeling geheten) met parameter p (0 ≤ p ≤ 1), als de kansfunctie van X wordt gegeven door: pX(1) = 1 - pX(0) = p.
Als de s.v. X verschillende waarden x1,x2,...,xN kan aannemen, alle met gelijke kans, dan noemen we X uniform verdeeld. Het is het analogon van een symmetrische kansruimte.
Definitie 4.3.3 (uniforme of homogene verdeling)
De s.v. X heeft een uniforme (of homogene) verdeling op de getallen x1,x2,...,xN, als de kansfunctie van X wordt gegeven door pX(xi) = 1/N, voor i = 1,2,..,N.
Voorbeeld 1 (één aselecte trekking)
We komen nog al eens de term aselecte (lukrake, willekeurige) trekking tegen. Een aselecte trekking uit de mogelijke getallen x1,x2,...,xN kunnen we beschrijven als een uniform op die getallen verdeelde s.v.
Trekken we aselect zonder terugleggen n keer uit een dichotome populatie, dan is de kans op m successen gegeven door de hypergeometrische formule (stelling 3.3.6). Een s.v. met deze formule als kansverdeling noemen we hypergeometrisch verdeeld.
Definitie 4.3.4 (hypergeometrische verdeling)
De s.v. X heeft een hypergeometrische verdeling met parameters N, M en n (N,M,n ∈ N, 0 ≤ M ≤ N), als de kansfunctie van X wordt gegeven door:
- , voor m = 0,1,..,n.
Op grond van het bovenstaande kunnen we dus zeggen:
Stelling 4.3.1
Zij X het aantal successen bij n aselecte trekkingen zonder terugleggen uit een populatie van omvang N, waarvan M successen; dan is X hypergeometrisch verdeeld met parameters N, M en n.
In de onderstaande figuur zien we de hypergeometrische verdeling met parameters 50, 20 en 12 afgebeeld.
Voorbeeld 2
Uit een groep studenten bestaande uit 20 meisjes en 30 jongens worden lukraak 5 studenten aangewezen. Wat is de kans dat er maar 1 jongen bij die 5 is? Het aantal meisjes bij die 5 is een s.v. X die hypergeometrisch verdeeld is, dus de gevraagde kans is:
- .
Trekken we aselect met terugleggen n keer uit een dichotome populatie met succeskans p, dan bestaat het experiment dus uit n Bernoulli-pogingen en is de kans op m successen gegeven door de binomiale formule (stelling 3.3.4). Een s.v. met deze formule als kansverdeling noemen we binomiaal verdeeld.
Definitie 4.3.5 (binomiale verdeling)
De stochastische variabele X heeft een binomiale verdeling met parameters n en p (n ∈ N, n > 0, 0 ≤ p ≤ 1), als de kansfunctie van X wordt gegeven door:
- , voor k = 0,1,..,n.
We spreken wel van de B(n,p)-verdeling en zeggen dat X B(n,p)-verdeeld is.
Op grond van het bovenstaande kunnen we dus zeggen:
Stelling 4.3.2
Zij X het aantal successen bij n Bernoulli-pogingen met succeskans p, dan is X binomiaal verdeeld met parameters n en p.
In de volgende figuren zien we enkele binomiale verdelingen in beeld gebracht.
Voorbeeld 3
Het aantal jongens X in een willekeurig gezin met 4 kinderen is B(4,1/2)-verdeeld, als we aannemen dat jongens en meisjes gemiddeld evenveel voorkomen (wat niet helemaal juist is) en dat de geboorte van een jongen en van een meisje in één gezin onderling onafhankelijk zijn (wat ook niet helemaal juist is). De kans dat in een gezin van vier kinderen alleen jongens zijn, is dan:
- .
Als we n aselecte trekkingen zonder terugleggen doen uit een populatie van grote omvang N en een fractie p van de populatie heeft een bepaald kenmerk "succes", dan weten we dat het aantal successen XN in de steekproef hypergeometrisch verdeeld is. Als we de trekkingen doen met terugleggen dan is het aantal successen Y binomiaal verdeeld. Echter voor een grote populatie en een relatief kleine steekproef zal het niet veel verschil maken of we de steekproef met of zonder terugleggen nemen. De verdelingen van XN en Y zullen dus in zo'n geval veel op elkaar lijken.
Stelling 4.3.3
Zij Y binomiaal verdeeld met parameters n en p en voor N = 1,2,3,... XN hypergeometrisch verdeeld met parameters N, M = Np en n, dan geldt:
- .
Voorbeeld 4
In de onderstaande tabel zien we de hypergeometrische verdeling met N = 1000, M = 200 en n = 5, en tevens de benaderende B(5,5)-verdeling.
k 0 1 2 3 4 5 hypergeom. 0,3269 0,4106 0,2051 0,0509 0,0063 0,0003 binomiaal 0,3277 0.4096 0,2048 0,0512 0,0064 0,0003
Doen we net zolang Bernoulli-pogingen tot we succes hebben, dan is volgens stelling 3.3.5 de kans dat we n pogingen moeten doen gegeven door de geometrische formule. Een s.v. met deze formule als kansverdeling noemen we geometrisch verdeeld. We kunnen zo'n s.v. opvatten als de "wachttijd" op succes.
Definitie 4.3.6 (geometrische verdeling)
De stochastische variabele X heeft een geometrische verdeling met parameter p (0 < p < 1), als de kansfunctie van X wordt gegeven door:
- , voor n = 1,2,3,...
Op grond van het bovenstaande kunnen we dus zeggen:
Stelling 4.3.4
Zij X het aantal Bernoulli-pogingen met succeskans p tot en met het eerste succes, dan is X geometrisch verdeeld met parameter p.
In de volgende figuur staat de geometrische verdeling met parameter p = 0,4 afgebeeld.
De geometrische verdeling kan handig beschreven worden door de overschrijdingskansen P(X > n), zoals uit de volgende stelling blijkt.
Stelling 4.3.5
Zij X geometrisch verdeeld met parameter p, dan is voor n = 0,1,2,...:
- .
Voorbeeld 5
Een handelsreiziger heeft gemiddeld bij 1 op de 10 klanten succes. Hoe groot is de kans dat hij op een bepaalde dag bij de 5e klant die hij bezoekt, z'n eerste order van die dag plaatst? Het aantal klanten X die hij moet bezoeken om voor het eerst succes te hebben, is geometrisch verdeeld met parameter p = 0,1 dus P(X = 5) = (1-p)4p = 0,94 × 0,1 = 0,06561 ~ 0,066. De kans dat hij 5 of meer klanten moet bezoeken om een order te plaatsen is P(X ≥ 5) = P(X > 4) = (1-p)4 = 0,94 = 0,6561.
Voorbeeld 6
Hoe groot is de kans om in minder dan 6 worpen met een zuivere dobbelsteen zes te gooien? Het aantal worpen X benodigd om zes te gooien, is geometrisch verdeeld met parameter 1/6, dus de gevraagde kans is P(X < 6) = 1 - P(X > 5) = 1 - (1 - 1/6)5 = 0,5981 ~ 60%.
Een verdeling die niet direct uit eenvoudige experimenten voortkomt, is de Poisson-verdeling (Poisson, 1837). Deze verdeling wordt wel de verdeling van de zeldzame gebeurtenissen genoemd. Stochastische variabelen met deze kansverdeling staan vaak model voor aantallen voorvallen die in een bepaald tijdsbestek plaatsvinden, zoals het aantal binnenkomende personen in een postkantoor tussen 10 en 11 uur 's ochtends, het aantal desintegraties van atomen in een hoeveelheid radio-actieve stof binnen een zekere periode, etc. Ook de aantallen objecten die zich in een bepaald deel van de ruimte bevinden, kunnen nogal eens gemodelleerd worden met een Poisson-verdeling, zoals het aantal rode bloedlichaampjes in een bepaalde hoeveelheid bloed, het aantal bacteriën van een bepaald type in een liter slootwater, het aantal bosorchideeën op een hectare bosgrond, het aantal draadbreuken in 1000 m draad in een spinnerij etc.
Voorbeeld 7
Op een bepaald kruispunt vinden jaarlijks enkele ernstige ongevallen plaats. Gemiddeld m per jaar. Het aantal dat in een jaar plaatsvindt noemen we X. We proberen inzicht te krijgen in de kansverdeling van X. Daartoe kijken we naar de verdeling van de ongevallen (×) over de 12 maanden van het jaar:
─xx─ ─x── ──x─ ─x── ──── ──── ───x ──xx ─x── ─xx─ ──── ──x─ jan feb mrt apr mei jun jul aug sep okt nov dec
Ruwweg kunnen we zeggen dat er maanden zijn waarin geen ongeval plaats- vindt en maanden waarin wel een ongeval plaatsvindt. Beschouwen we maanden met één ongeval als "succes" en het optreden van de ongevallen als onafhankelijk, dan hebben we te maken met 12 Bernoulli-pogingen met succeskans p = m/12. Helaas zijn er maanden met twee ongevallen! We laten ons daardoor niet uit het veld slaan en kijken daarom naar de weken. Een week met één ongeval noemen we een succes en een week zonder ongeval een mislukking; we hebben te maken met 52 Bernoulli-pogingen met p = m/52. De s.v. X stelt nu ook het aantal weken voor waarin precies één ongeval plaatsvindt; X is dus met goede benadering binomiaal verdeeld met parameters n = 52 en p = m/52. Mochten er nog weken zijn met meer dan één ongeval, dan kunnen we naar de dagen kijken etc. Die benadering zal des te beter zijn naarmate n groter is. In de volgende stelling bepalen we de limiet.
Stelling 4.3.6
Zij voor n=1,2,3,... Xn B(n,μ/n)-verdeeld dan is:
- .
Deze limiet is weer een keurige kansfunctie, zoals uit de volgende stelling blijkt.
Stelling 4.3.7
Er geldt:
- .
De verdeling met deze kansfunctie noemen we de Poissonverdeling.
Definitie 4.3.7 (Poissonverdeling)
De stochastische variabele X heeft een Poisson-verdeling met parameter μ (μ > 0), als de kansfunctie van X wordt gegeven door:
- , voor k = 0,1,2,...
In de volgende figuren zien we enkele Poissonverdelingen afgebeeld.
De parameter m van de Poissonverdeling geeft de intensiteit waarmee de voorvallen plaatsvinden, weer. Voor een gevaarlijk, druk kruispunt kiezen we in het kansmodel een grote waarde van m, voor een minder druk kruispunt een kleine waarde van m als we het aantal ongevallen met een Poisson-verdeling beschrijven.
Voorbeeld 8
Het aantal verzoeken X om inlichtingen bij een afdeling van een verzekeringskantoor in een uur is Poissonverdeeld met parameter μ = 2, dwz. dat over een lange periode gemiddeld 2 verzoeken per uur voorkomen. Na een advertentiecampagne is het echter veel drukker en blijkt dat μ = 10. In het geval μ = 2 is P(X ≤ 6) = 0,996; echter voor μ = 10 is P(X ≤ 6) = 0,130, waarmee het verschil tussen beide situaties duidelijk geïllustreerd wordt.
In voorbeeld 7 bleek dat een binomiale verdeling voor grote waarden van de parameter n en kleine waarden van de parameter p veel lijkt op een Poissonverdeling met parameter np. In stelling 4.3.7 is daarmee de Poissonverdeling afgeleid. De volgende stelling spreekt dit nog eens uit.
Stelling 4.3.8
Zij voor n=1,2,3,... Xn B(n,μ/n)-verdeeld en Y Poissonverdeeld met parameter μ, dan is:
- .
Voorbeeld 9
Een levensverzekeringsmaatschappij verzekert het leven van 5000 mannen van 42 jaar. De kans dat een 42-jarige man komt te overlijden is 0,001. Hoe groot is de kans dat de maatschappij meer dan 4 claims moet betalen gedurende een jaar? Het aantal claims X in dat jaar is binomiaal verdeeld met parameters n = 5000 en p = 0,001. Een goede benadering van deze verdeling is de Poissonverdeling met μ = np = 5, zodat de gevraagde kans is:
daarbij heeft Y een Poissonverdeling met parameter μ = 5.