Geo-visualisatie/Classificatie: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud
Nijeholt (overleg | bijdragen)
figuren herhaald, redigeeractie 4
Nijeholt (overleg | bijdragen)
k redigeeractie 5
Regel 342:
|-
| [[Afbeelding:Quantile classificatie.PNG|center|120px]]
| op basis van '''Quantile''' (Nederlands: 'kwantielen')
| classificeert een dataset in een op te geven aantal klassen '''waarbij de klassen onderling evenveel meetwaarden kennen'''. Een kwantiel is een klassegrens (getal) dat een dataset verdeelt in een aantal grotere, en kleinere waarden. De klassebreedtes kunnen variëren, maar het aantal binnen elke klasse is steeds gelijk.
| Bekend is het 0,5-kwantiel (spreek uit: het nul-komma-vijf-kwantiel) dat overeenkomt met de mediaan. De '''mediaan''' is het midden van een geordende dataset, dus niet het gemiddelde, maar die meetwaarde waarbij er evenveel meetwaarden bovenonder, als onderboven liggen. Het is een inzichtelijke methode, maar de uitkomst kan misleidend zijn. Tests met andere methoden en / of het goed bestuderen van het resulaat / en het bekijken van de verdeling zijn daarom aan te bevelen.
|-
| [[Afbeelding:Natural_breaks_classificatie.png|center|120px]]
| op basis van '''Natural Breaks''' ('Jenks -')
| classificeert een dataset in een op te geven aantal klassen met een bepaald statistisch algoritme op een zodanige wijze dat '''binnen de klassen de variatie minimaal is, en de klassen onderling maximaal verschillen'''. In het ideale geval vallen de klassegrenzen samen met de dalen in grafiek die de verdeling van de meetwaarden weergeeft. De klassebreedtes kunnen variëren.
| Deze methode maakt het mogelijk om groeperingen en patronen te ontdekken die in de data zitten / die in de data 'zelf zijn opgesloten'. HebDe jemethode weiniggaat kenniser van deuit data,dat ofer hebverschillende jegroepen geen('populaties' redenin omstatistisch dejargon) datazijn handmatigbinnen ofeen metverdeling. De methode kan dan ook het beste alleen gebruikt worden voor die situaties waarbij geldt dat er groepen zijn. De methode zoekt die groepen op en maakt klassegrenzen zodanig aan dat de anderebij driede classificatiemethodengroepen horende meetwaarden in teéén delenklasse voorkomen, danbijvoorbeeld kanerg rijke gemeentes, en erg arme gemeentes. Overigens, in dit eenvoorbeeld goedevan keuzegemeentes zijnis er niet echt sprake van groepen. Test wel het resultaat door de kaart en de verdeling van de meetwaarden goed te bestuderen; hoe zijn door het algoritme de klassegrenzen terechtgekomen? Is dit wat ik wil? Of wil ik toch bepaalde uitschieters liever benadrukken? Moeten de grenzen niet toch handmatig verschoven worden, en horen die twee groepen misschien niet gewoon tot één groep. Een toepassing waar een dergelijke classificatie wel tot zijn recht zou komen is het inkomen per adres in een wijk, wanneer in (bepaalde delen van) die wijk twee soorten inwoners wonen. Wanneer een wijk uit zowel appartementen als rijtjeshuizen staan, zou het leuk zijn om in de data twee groepen te creëren, met een klassgrens er tussen, zodanig dat de rijke groep in de appartementen zit, en de arme groep in de rijtjes huisen. Het is dan zeer aardig om bijvoorbeeld als rijk geclassificeerde adressen tegen te komen in rijtjeshuizen; misschien blijkt hieruit dat een deel van de rijtjeshuizen toch als duurder of beter bekend staat?
|-
| [[Afbeelding:Equal interval classificatie.PNG|center|120px]]
| op basis van '''Equal interval''' (gelijke intervallen)
| classificeert een dataset in een op te geven aantal klassen waarbij '''de klassebreedte voor elke klasse gelijk''' is. De klasses worden daarbij gelijk 'uitgesmeerd' tussen de minimale en maximale waarde.
| Dit lijkt een aantrekkelijke classificatiewijze, vooral door zijn transparante wijze. In veel gevallen is een dataset echter binomiaal verdeeld, waarbij dus vooral veel objecten in één of enkele van de (meestal) middelste klasses vallen. De laagste en hoogste klassen zijn dan (bijna) leeg. Deze classificatie zorgt voor een visueel beeld waarbij erg veel waarden tot het gemiddelde lijken te horen. Een beperkt aantal uitschieters zullen daardoor extra opvallen. Dit kan soms juist wel en soms juist niet de bedoeling zijn.
|-
| [[Afbeelding:Standaarddeviatie classificatie.png|center|120px]]
| op basis van '''Standaard deviatie'''
| classificeert een dataset in een van de breedte van de dataset afhankelijk aantal klassen, door uit te gaan van de gemiddelde waarde, waarna de '''klassegrenzen worden toegevoegd rondom het gemiddelde op basis van de standaard deviatie'''. De breedte van elke klasse is gelijk aan één maal, een half maal, of een kwart maal de standaard deviatie. De klassenbreedtes zijn dus steeds gelijk, maar het aantal klassen is gelijk aan de breedte van de dataset gedeeld door de standaard deviatie. DieHet aantal klassen bepaal jij dus niet, maar de breedte van de dataset!
| De standaarddeviatie is een statistische maat van de spreiding van meetwaarden binnen een dataset. Bij een normale verdeling bevindt 66% van de meetwaarden zich binnen éénmaal de standaarddeviatie, en 95% van de datameetwaarden binnen twee maal de standaard deviatiestandaarddeviatie. Zijn er onder en boven deze klassen nog veel uiteenlopende meetwaarden, dan kunnen er veel klassen nodig zijn buiten deze waarden. Gebruik deze classificatie daarom niet bij verdelingen die niet lijken op een normale verdeling. Gebruik deze ook niet als je juist ook nuanceringen in hoge en lage waarden wilt kunnen aangeven. De methode is wel goed om objectief extreme waarden (de 5 of 10% laagste en hoogste waarden) met opvallende kleuren weer te geven.
|-
|
| '''Handmatig'''
| classificeert een dataset in een opzelf te gevenbepalen aantal klassen waarbij de '''klassegrenzen handmatig bepaald''' worden.
| * Als uitgangspunt kan één van de bovenstaande classificaties dienen, waarbij met de hand de grenzen worden geoptimaliseerd op basis van de meetwaarden en op basis van het doel van de kaart, dus welke meetwaarden aparte aandacht moeten krijgen. Ook kan als uitgangspunt gebruikt worden een bij de wet of in de natuur geldende onder- of bovengrens. Bijvoorbeeld: 1) onder het landelijk gemiddelde of 2) onder of boven een criterium dat geldt voor het in aanmerking komen voor subsidie of 3) wanneer het fijnstof gehalte de wettelijk bepaalde maximum gemiddelde jaarwaarde van 40 µg/m<sup>3</sup> overschrijdt.
|}
 
Er zijn overigens nog meer statistische methodesnmethodes om de dataset in klassen te verdelen, namelijk die geclassificeerd worden op basis van de verdeling in de dataset, zoals op basis van aritmische, harmonische of geometrische verdelingen. Meer over deze laatst genoemde verdelingen, statistische kartering en dataclassificatie is onder andere te lezen in Kraak en Ormeling <ref>''Cartography, Visualisation of Spatial Data''; M.J. Kraak en F.J. Ormeling; 2003, 2e editie; Pearson Education blz 116-121</ref>.
 
<div style="background:#FFDAB9;">
Regel 377:
 
Bij een '''nominale schaal''' - of anders gezegd, '''op een chorochromatische kaart''' - wordt dit aantal vaak gedicteerd door de data zelf: Een provinciekaart van Nederland kent nu eenmaal 12 provincies, en een bodemkaart kent nu eenmaal tientallen bodemsoorten, en dus ook evenzoveel legendaeenheden. Bij dergelijke kaarten is het vooral een kwestie van kleuren groeperen, dus alle bodemsoorten op zand krijgen een zandige kleur (geel-oranje), en alle veen-bodemsoorten krijgen een lichte tot donkere paarse kleur. Desgewenst kan je het aantal klassen verminderen, door deze te groeperen: alle bodemsoorten op zand krijgen één (geel oranje) kleur. Hiermee wordt de kaart veel leesbaarder. Of dit mogelijk is, hangt af van het doel van de kaart.
 
:Bij sommige chorochromatische kaarten, zoals de provinciekaart van Nederland, is geen legenda nodig voor de kleuren van de provincies. De (twaalf) verschillende kleuren moeten onderling onderscheidbaar zijn. De kleuren hebben verder geen betekenis; door de ligging en de grenzen om de provincies heen is al duidelijk wat de kleuren precies zijn. In zo'n geval is het dan ook geen probleem om twaalf klassen en twaalf (al of niet geheel verschillende) kleuren te hebben. Kies dan wel voor een kleurenschema met kleuren uit 'één thema'; vaak zie je dat GIS-pakketten hier je al mooi uit laten kiezen; zo heb je snel een aantal bij elkaar horende herfst-, oceaan- of fruit-tinten. Overigens, meestal zal je in die gevallen aan vier kleuren genoeg hebben; misschien moet je er dan wel even de tijd voor nemen. Zie ook de [http://nl.wikipedia.org/wiki/Vierkleurenstelling 'vierkleurenstelling' op Wikipedia].
 
Ook bij een '''ordinale meetschaal''' (geluidsniveau's, grondwatertrappen) wordt het aantal klassen gedicteerd door de data; het aantal klassen staat min of meer vast, omdat er al een ordening - en dus ook een indeling - is aangebracht. Het samenvoegen kan (soms) wenselijk zijn, maar meestal is die indeling al niet voor niets zo in de dataset aangebracht. De classificatie zelf is in feite al gebeurd. De volgorde (in tegenstelling tot de hierboven besproken schalen) ligt wel vast; dat betekent dat er een zelfdevolgordelijkheid in de kleuren in de legenda moet terugkomen (zie hiervoor in de paragraaf over [[Geo-visualisatie/Deel_B:_Geo-visualisatie#Meetschalen_en_kleurschema.27s|meetschalen en kleurenschema's]]). Zorg dat de oplopende kleuren ongeveer diezelfde 'beweging' in de data volgen. Is er (bijvoorbeeld in het geval van grondwatertrappen) misschien een opdeling te make in het aantal klassen (grondwatertrappen) waardoor er twee groepen ontstaan? Geef de 'droogste' groep dan kleuren die min of meer bij elkaar horen (en langzaam oplopen qua grijstint of verzadiging) en doe dat voor de 'natste' groep met een andere (blauwere) kleur.
Informatie afkomstig van https://nl.wikibooks.org Wikibooks NL.
Wikibooks NL is onderdeel van de wikimediafoundation.