Gebruiker:KKoolstra/Onderzoek/Beschrijvende statistiek

Hoofdstukken

Door herhaald systematische metingen te verrichten, krijg je gegevens (data). Deze dataset kan variëren van een klein aantal meetgegevens tot de enorme databestanden die bij sommige natuurkundige experimenten ontstaan. ^[1]

Een dataset heeft verscheidene kenmerken die de structuur en eigenschappen bepalen. daartoe behoren het aantal en het type van de variabelen en de verschillende statistische kengetallen die erop van toepassing zijn, zoals het gemiddelde, de standaardafwijking en de scheefheid.

In het eenvoudigste geval is er slechts één variabele en bestaat de dataset uit een enkele kolom met waarden, vaak voorgesteld als een lijst. In tegenstelling tot wat de naam doet vermoeden, is zo'n univariate dataset geen verzameling in de gewone wiskundige betekenis, aangezien een bepaalde waarde meer keren kan voorkomen. Als de volgorde er niet toe doet, kan de dataset opgevat worden als een multiset in plaats van een (geordende) lijst.

De waarden kunnen getallen zijn, maar ook gegevens van nominaal of ordinaal niveau zijn. Voor elke variable zullen normaal gesproken de waarden van hetzelfde niveau zijn, al kunnen er wel gegevens ontbreken, wat op een of andere manier dient te worden aangegeven.

Beschrijvende statistiek

In principe kun je de resultaten van je metingen rapporteren als een papieren of elektronische tabel met daarin de gehele dataset. Dit is echter niet overzichtelijk en maakt het moeilijk om de meetgegevens te interpreteren. Meestal zal de gebruiker van de gegevens van het onderzoek slechts geïnteresseerd zijn, zoals het percentage producten dat niet voldoet aan de kwaliteitseisen, het gemiddelde verkeersbeeld tijdens de ochtendspits, of frequentieverdeling van de bezwijkbelasting van een bepaald materiaal.

De twee meest gebruikte maten (statistieken) die hiervoor worden gebruikt, zijn het gemiddelde en de standaardafwijking (of standaarddeviatie). Deze maten kunnen echter alleen worden toegepast voor meetvariabelen op interval- en ratioschaal. Voor ordinale variabelen is de mediaan een goed alternatief voor het gemiddelde; op nominaal niveau is alleen de modus nog bruikbaar als maat voor een 'kenmerkende' meting. Omgekeerd kan de mediaan wel worden gebruikt als alternatief voor het gemiddelde voor variabelen op interval- of ratioschaal. Ook de modus kan hierbij worden gebruikt, mits de resultaten eerst zijn geklassificeerd.

Gemiddelde

In de volksmond wordt gemiddelde gebruikt als synoniem voor het rekenkundig gemiddelde. We zullen echter in dit hoofstuk ook enkele andere 'gemiddelden' aan bod laten komen, zoals het harmonisch gemiddelde.

Rekenkundig gemiddelde

Het rekenkundige gemiddelde van een verzameling van n metingen $x_{1},\dots ,x_{n}$ wordt gegeven door ^[2]:

{\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.

Indien de metingen opgevat mogen worden als aselecte steekproef, dan is het steekproefgemiddelde een goede benadering (schatting) van het werkelijke gemiddelde van de betreffende meetvariabele (populatiegemiddelde). Het gemiddelde van de metingen noemen we dan het steekproefgemiddelde. Het steekproefgemiddelde is echter niet per definitie de beste schatter van het populatiegemiddelde. Bovendien bestaan er kansverdelingen, zoals de Cauchy- of Lorentzverdeling, die helemaal geen populatiegemiddelde hebben.

Voetnoten:

↑ Deze inleiding is een bewerking van het artikel dataset op nl.wikipedia. Versie: zie [1]; auteurs: zie [2].
↑ Deze sub-paragraaf is een bewerking van het lemma gemiddelde van nl.wikipedia. Versie: zie []; auteurs: zie []

[1] Deze inleiding is een bewerking van het artikel dataset op nl.wikipedia. Versie: zie [1]; auteurs: zie [2].

[2] Deze sub-paragraaf is een bewerking van het lemma gemiddelde van nl.wikipedia. Versie: zie []; auteurs: zie []

[1]

[2]