Geo-visualisatie/Classificatie: verschil tussen versies
Verwijderde inhoud Toegevoegde inhoud
figuren herhaald, redigeeractie 4 |
k redigeeractie 5 |
||
Regel 342:
|-
| [[Afbeelding:Quantile classificatie.PNG|center|120px]]
| op basis van '''Quantile''' (Nederlands: 'kwantielen')
| classificeert een dataset in een op te geven aantal klassen '''waarbij de klassen onderling evenveel meetwaarden kennen'''. Een kwantiel is een klassegrens (getal) dat een dataset verdeelt in een aantal grotere, en kleinere waarden. De klassebreedtes kunnen variëren, maar het aantal binnen elke klasse is steeds gelijk.
| Bekend is het 0,5-kwantiel (spreek uit: het nul-komma-vijf-kwantiel) dat overeenkomt met de mediaan. De '''mediaan''' is het midden van een geordende dataset, dus niet het gemiddelde, maar die meetwaarde waarbij er evenveel meetwaarden
|-
| [[Afbeelding:Natural_breaks_classificatie.png|center|120px]]
| op basis van '''Natural Breaks''' ('Jenks -')
| classificeert een dataset in een op te geven aantal klassen met een bepaald statistisch algoritme op een zodanige wijze dat '''binnen de klassen de variatie minimaal is, en de klassen onderling maximaal verschillen'''. In het ideale geval vallen de klassegrenzen samen met de dalen in grafiek die de verdeling van de meetwaarden weergeeft. De klassebreedtes kunnen variëren.
| Deze methode maakt het mogelijk om groeperingen en patronen te ontdekken die in de data zitten / die in de data 'zelf zijn opgesloten'.
|-
| [[Afbeelding:Equal interval classificatie.PNG|center|120px]]
| op basis van '''Equal interval''' (gelijke intervallen)
| classificeert een dataset in een op te geven aantal klassen waarbij '''de klassebreedte voor elke klasse gelijk''' is. De klasses worden daarbij gelijk 'uitgesmeerd' tussen de minimale en maximale waarde.
| Dit lijkt een aantrekkelijke classificatiewijze, vooral door zijn transparante wijze. In veel gevallen is een dataset echter binomiaal verdeeld, waarbij dus vooral veel objecten in één of enkele van de (meestal) middelste klasses vallen. De laagste en hoogste klassen zijn dan (bijna) leeg. Deze classificatie zorgt voor een visueel beeld waarbij erg veel waarden tot het gemiddelde lijken te horen. Een beperkt aantal uitschieters zullen daardoor extra opvallen. Dit kan soms juist wel en soms juist niet de bedoeling zijn.
|-
| [[Afbeelding:Standaarddeviatie classificatie.png|center|120px]]
| op basis van '''Standaard deviatie'''
| classificeert een dataset in een van de breedte van de dataset afhankelijk aantal klassen, door uit te gaan van de gemiddelde waarde, waarna de '''klassegrenzen worden toegevoegd rondom het gemiddelde op basis van de standaard deviatie'''. De breedte van elke klasse is gelijk aan één maal, een half maal, of een kwart maal de standaard deviatie. De klassenbreedtes zijn dus steeds gelijk, maar het aantal klassen is gelijk aan de breedte van de dataset gedeeld door de standaard deviatie.
| De standaarddeviatie is een statistische maat van de spreiding van meetwaarden binnen een dataset. Bij een normale verdeling bevindt 66% van de meetwaarden zich binnen éénmaal de standaarddeviatie, en 95% van de
|-
|
| '''Handmatig'''
| classificeert een dataset in
|
|}
Er zijn overigens nog meer statistische
<div style="background:#FFDAB9;">
Regel 377:
Bij een '''nominale schaal''' - of anders gezegd, '''op een chorochromatische kaart''' - wordt dit aantal vaak gedicteerd door de data zelf: Een provinciekaart van Nederland kent nu eenmaal 12 provincies, en een bodemkaart kent nu eenmaal tientallen bodemsoorten, en dus ook evenzoveel legendaeenheden. Bij dergelijke kaarten is het vooral een kwestie van kleuren groeperen, dus alle bodemsoorten op zand krijgen een zandige kleur (geel-oranje), en alle veen-bodemsoorten krijgen een lichte tot donkere paarse kleur. Desgewenst kan je het aantal klassen verminderen, door deze te groeperen: alle bodemsoorten op zand krijgen één (geel oranje) kleur. Hiermee wordt de kaart veel leesbaarder. Of dit mogelijk is, hangt af van het doel van de kaart.
:Bij sommige chorochromatische kaarten, zoals de provinciekaart van Nederland, is geen legenda nodig voor de kleuren van de provincies. De (twaalf) verschillende kleuren moeten onderling onderscheidbaar zijn. De kleuren hebben verder geen betekenis; door de ligging en de grenzen om de provincies heen is al duidelijk wat de kleuren precies zijn. In zo'n geval is het dan ook geen probleem om twaalf klassen en twaalf (al of niet geheel verschillende) kleuren te hebben. Kies dan wel voor een kleurenschema met kleuren uit 'één thema'; vaak zie je dat GIS-pakketten hier je al mooi uit laten kiezen; zo heb je snel een aantal bij elkaar horende herfst-, oceaan- of fruit-tinten. Overigens, meestal zal je in die gevallen aan vier kleuren genoeg hebben; misschien moet je er dan wel even de tijd voor nemen. Zie ook de [http://nl.wikipedia.org/wiki/Vierkleurenstelling 'vierkleurenstelling' op Wikipedia].
Ook bij een '''ordinale meetschaal''' (geluidsniveau's, grondwatertrappen) wordt het aantal klassen gedicteerd door de data; het aantal klassen staat min of meer vast, omdat er al een ordening - en dus ook een indeling - is aangebracht. Het samenvoegen kan (soms) wenselijk zijn, maar meestal is die indeling al niet voor niets zo in de dataset aangebracht. De classificatie zelf is in feite al gebeurd. De volgorde (in tegenstelling tot de hierboven besproken schalen) ligt wel vast; dat betekent dat er een zelfdevolgordelijkheid in de kleuren in de legenda moet terugkomen (zie hiervoor in de paragraaf over [[Geo-visualisatie/Deel_B:_Geo-visualisatie#Meetschalen_en_kleurschema.27s|meetschalen en kleurenschema's]]). Zorg dat de oplopende kleuren ongeveer diezelfde 'beweging' in de data volgen. Is er (bijvoorbeeld in het geval van grondwatertrappen) misschien een opdeling te make in het aantal klassen (grondwatertrappen) waardoor er twee groepen ontstaan? Geef de 'droogste' groep dan kleuren die min of meer bij elkaar horen (en langzaam oplopen qua grijstint of verzadiging) en doe dat voor de 'natste' groep met een andere (blauwere) kleur.
|