Versie van 9 jun 2021 16:23 bewerken Bdijkstra (overleg \| bijdragen) 194 bewerkingen k sp ← Vorige wijziging		Versie van 25 jun 2021 17:23 bewerken ongedaan maken De Wikischim (overleg \| bijdragen) moderatoren 11.416 bewerkingen k herred. Volgende wijziging →
Regel 19: <div class="UitklapHead" style="background:#e6e6fa">[[Afbeelding:Wikibooks-einzelbuch.gif\|20px]] '''Doelstellingen van deze module 'Classificatie' ''' </div> <div class="UitklapContent" style="text-align: left; font-size: 100%; padding: 0;"> Deze module gaat over de belangrijkste aspecten die spelen bij het classificeren van data, oftewel het omzetten van 'ruwe data' in een informatieve kaart, met een zinvolle legenda. Na het lezen kent de lezer verschillende classificatiemethoden en verschillende meetschalen en weet hij hoe hij deze om temoet zetten in de juiste legenda's.</div><div class="UitklapEind"></div> </div> </onlyinclude> Regel 129: <div style="background:#FFDAB9;"> [[Bestand:Graduation_cap.png\|20px]] '''SAMENVATTING:''' Er zijn vier meetschalen te onderscheiden wanneer we datasets indelen. Dat zijn -in opklimmende intelligentie: nominale, ordinale, interval en ratio meetschaal. Een binaire meetschaal is een verbijzondering van een nominale meetschaal. Nominale en ordinale meetschalen beschrijven kwalitatieve datasets. Dat zijn datasets waarbij de verschillende klassen verschillende soorten voorstellen, waarbij de ene klasse niet meer of minder, maar 'anders' is. Interval en ratio meetschalen ~~bschrijven~~beschrijven daarentegen kwantitatieve (getalsmatige) datasets. Bij elke soort meetschaal hoort een andere soort visualisatieschaal, een ander kleurschema. </div> Regel 159: \| [[Afbeelding:Diverging kleurenschema ander voorbeeld.PNG]] \| '''divergerend kleurenschema''' (Engels: diverging color scheme) \| Een divergerend schema gaat uit van een bepaald midden (een gemiddelde, de modus, of een wettelijk bepaalde ~~ondergens~~ondergrens). Naar onder en naar boven toe loopt die uit naar de beide einden van de dataset. Soms is het midden zelf één klasse (bijvoorbeeld 95% tot 105%); die kleur is dan neutraal. Soms is het midden zelf een klassegrens (bijvoorbeeld 100%). De kleuren naar onder toe hebben één overeenkomstige tint, en lopen van licht (dicht bij het midden) naar donker (maximaal verwijderd van het midden). De klassegrenzen kunnen in percentages beschreven zijn, maar net zo goed op basis van de eenheden waarin de dataset gemeten is. In het eerste van de twee voorbeelden van dit kleurenschema wordt visueeel een bepaalde tegenstelling in de data benadrukt. In het tweede voorbeeld is dat niet het geval, omdat er mengkleuren zijn gebruikt. Er wordt niet geoordeeld met de harde, ongemengde 'stoplichtkleuren' rood en groen. \| Kan bij alle kwantitatieve meetschalen gebruikt worden, vooral bij de ratio en interval meetschaal. Bij de ordinale meetschaal zal dit alleen voorkomen als de meetschaal waarop gemeten is zelf al in zich een gemiddelde waarde kent. \|} Regel 206: ==De visuele indruk van een kleurenschema== Bij kwantitatieve data worden dus 'volgordelijke' kleurenschema's gebruikt. Deze paragraaf zal laten zien dat juist bij deze kwantitatieve data de kleur die deze data representeert niet zo maar vrij gekozen kan worden. Wat in eerste instantie van nature al geprobeerd zal worden, is om er voor zorgen dat onderlinge de kleuren maximaal van elkaar te onderscheiden zijn. Dit kan door te werken van licht naar donkerder, al of niet aangevuld door de donkere kleur nog verzadiger te laten worden. Jouw GIS komt meestal al met een aardig kleurenschema bij een eerste classificatie. (Zie ook de [[Geo-visualisatie/Symbologie#Kleuren\|Kleuren]] verder op in deel B en de kleurenschema's die [http://www.personal.psu.edu/cab38/ColorBrewer/ColorBrewer.html de Colorbrewer] of misschien zelfs jouw GIS weten te ~~creëeren~~creëren). Echter niet alles gaat automatisch en makkelijk; de exacte kleuren die je kiest voor een legenda moeten namelijk in overeenstemming zijn met de data. Stem het gradueel laten oplopen van de verzadiging en / of het donkerder laten worden van de kleuren af op de dataset. Zie de figuur met de verschillende blauwe kleurenschema's. Stel voor dat hiermee bijvoorbeeld de neerslag van een gebied of de diepte van een meer wordt gerepresenteerd. Laten we de getoonde kleurenschema's eens bespreken. We gaan daarbij voor het gemak niet in op het aantal klassen dat gekozen is, dat is in deze paragraaf even niet het onderwerp. Regel 259: In de beleidsvorming, bij advisering, zeker bij eindrapporten, zijn normatieve legenda's zeer nuttig. De kaart (of het geografisch informatie systeem) is zo tot een 'decision supporting system' of beleidsondersteunend systeem gemaakt. ===Legendaopmaak=== [[Afbeelding:legendageluidscontourendriemaal.PNG\|thumb\|right\|430px\|Drie voorbeelden van legenda's bij een ~~isolijnen kaart~~isolijnenkaart, hier een geluidscontouren kaart. Alleen de rechter legenda is goed (waarom?: zie tekst). De linker legenda is ronduit fout en verschijnt vaak als eerste als je vraagt aan je GIS-programma om een legenda toe te voegen. De middelste legenda klopt gezien de klassegrenzen, maar is lastig leesbaar en dus matig vormgegeven.]] Wat je GIS-programma als eerste 'prompt' als opgemaakte legenda bij jouw kaart, zal qua en classificatie en de bijbehorende kleuren (immers, jij hebt er al over nagedacht) vast wel goed zijn. Echter de opmaak kan vaak veel beter. Onder andere bij [[Geo-visualisatie/Inleiding_Cartografie#Isolijnenkaart\|isolijnenkaarten]] is dit het geval. Het is daarbij onder andere gebruikelijk de legendaeenheden tegen elkaar aan te zetten. Ook dienen de klassegrenzen zelf weer gegeven te worden, in plaats van bij elk vakje/kleurtje de bijbehorende range van getallen te plaatsen. Het scheelt niet alleen typen, maar belangrijker is dat er minder te lezen is voor de kaartlezer. Sterker. Binnen één bepaalde klasse is niet onderscheiden wat daar getalsmatig de waarde is, slechts op de grenzen daarvan is die waarde bekend. Vandaar dat je beter de klassegrenzen zelf in de legenda moet zetten, en deze legendaeenheden ook aan elkaar vast moet plaatsen. Immers, op de kaart zullen ze ook nooit losse vlakken vormen. De legenda komt zo natuurlijker over en de legenda wordt als één gelezen, in plaats van als verschillende vlakjes. Het is - ook als de kaart en het onderwerp nog niet meteen duidelijk zijn of bekeken zijn - meteen duidelijk dat het om een isolijnenkaart gaat. Zie figuur. Regel 280: Kies je toch voor een of meer achtergrondkleuren - bijvoorbeeld omdat er op de achtergrond een vlakvullende topografische kaart is opgenomen als referentie - zorg dan dat deze achtergrondkleuren: # licht zijn (lichter dan de lijnsymbolen). Dit kan vaak door de transparantie van die kaartlaag in te stellen, zodat de legendakleuren ongewijzigd kunnen blijven. # een afwijkende kleurenset hebben (bijvoorbeeld pastel) ten opzichte van de kleuren van de lijn- of ~~puntsymbolenen~~puntsymbolen. # de achtergrondkleur altijd lichter is dan de overige kleuren van de lijnen. # maak de lijnen op de voorgrond extra dik voor een goed onderscheid. Regel 327: :* In de vierde kaart 'zijn er helemaal geen arme gemeenten'. De kaart lijkt te willen zeggen dat er geen probleem is, hooguit dat er tussen de gemiddelde en hoge inkomens wat verschillen zijn. NB: ''Was slechts één van deze kaarten in een krant, folder of website terechtgekomen, dan had waarschijnlijk bij geen enkele versie iemand de vraag gesteld: '"zijn de klassegrenzen wel goed bepaald?~~'.''~~" De vragen die we daarom als verantwoordelijke kaartmaker moeten stellen zijn: Regel 335: In de paragraaf hierna worden deze vragen beantwoord op basis van het voorbeeld van hierboven. Het is belangrijk om nu al vast te weten dat er ''géén één beste classificatiewijze'' is, en dat ''de te gebruiken classificatiewijze af hangt van het exacte doel van de kaart''. Het classificeren komt neer op twee aspecten: het bepalen van klassegrenzen en het ~~bepale~~bepalen van het aantal klassen. Het indelen op kleur is een aspect dat hier dus in principe buiten valt. <div style="background:#FFDAB9;"> Regel 344: Met een GIS zijn meestal allerlei classificatiewijzen (allen voorzien van mooie, betrouwbare namen) makkelijk te selecteren en uit te voeren. Binnen ''no-time'' is er sprake van een mooie kaart. De voorbeelden hierboven tonen aan dat zomaar een keuze maken blijkbaar niet een goede werkwijze is; ze leveren echt verschillende kaarten op. Er zal dus naar die verschillen gekeken moeten worden. Dat kan door de verschillende kaarten zelf te vergelijken, zoals bij de bespreking van de vier kaarten van hierboven. Echter, het is beter de ruwe statistische gegevens te gaan bekijken. Op basis van die daadwerkelijke gegevens moet de classificatie bepaald worden, tezamen met het doel van de kaart. Laten we daarom eerst eens wat beter kijken naar de daadwerkelijke gegevens zelf. De hierboven met vier kaarten ~~geïllustreede~~geïllustreerde, verschillende classificaties zien er -– in dezelfde volgorde -– statistisch gezien zo uit: {\| class="editmode" cellpadding="0" cellspacing="0" style="float:{{#ifeq:{{{1\|}}}\|links\|left;clear:left\|right;clear:right}}; background:none; border:none; padding:0; margin:0; style="width:100%" Regel 378: \| op basis van '''Quantile''' (Nederlands: 'kwantielen') \| classificeert een dataset in een op te geven aantal klassen '''waarbij de klassen onderling evenveel meetwaarden kennen'''. Een kwantiel is een klassegrens (getal) dat een dataset verdeelt in een aantal grotere, en kleinere waarden. De klassebreedtes kunnen variëren, maar het aantal binnen elke klasse is steeds gelijk. \| Bekend is het 0,5-kwantiel (spreek uit: het nul-komma-vijf-kwantiel) dat overeenkomt met de mediaan. De '''mediaan''' is het midden van een geordende dataset, dus niet het gemiddelde, maar die meetwaarde waarbij er evenveel meetwaarden onder, als boven liggen. Het is een inzichtelijke methode, maar de uitkomst kan misleidend zijn. Tests met andere methoden en / of het goed bestuderen van het ~~resulaat~~resultaat / en het bekijken van de verdeling zijn daarom aan te bevelen. \|- \| [[Afbeelding:Natural_breaks_classificatie.png\|center\|120px]] Regel 387: \| [[Afbeelding:Equal interval classificatie.PNG\|center\|120px]] \| op basis van '''Equal interval''' (gelijke intervallen) \| classificeert een dataset in een op te geven aantal klassen waarbij '''de klassebreedte voor elke klasse gelijk''' is. De klasses worden daarbij ~~gelijk~~gelijkmatig 'uitgesmeerd' tussen de minimale en maximale waarde. \| Dit lijkt een aantrekkelijke classificatiewijze, vooral door zijn transparante wijze. In veel gevallen is een dataset echter binomiaal verdeeld, waarbij dus vooral veel objecten in één of enkele van de (meestal) middelste klasses vallen. De laagste en hoogste klassen zijn dan (bijna) leeg. Deze classificatie zorgt voor een visueel beeld waarbij erg veel waarden tot het gemiddelde lijken te horen. Een beperkt aantal uitschieters zullen daardoor extra opvallen. Dit kan soms juist wel en soms juist niet de bedoeling zijn. \|- Regel 433: :* In de tweede kaart 'blijken er onder de rijke gemeenten ook minder rijke gemeenten te zijn, en onder de arme gemeenten lijken er ook minder arme gemeenten te zijn. De kaart lijkt een veel genuanceerder beeld te willen geven. :* De derde en vierde kaart geven hetzelfde beeld bij de kaartlezer als de tweede kaart, al is een individuele meetwaarde (wat verdient iemand nu gemiddeld in die ene gemeente) niet meer met zekerheid te achterhalen; de legenda is minder leesbaar. De kaart lijkt minder harde uitspraken te willen doen. Duidelijk is dat 3 klassen onvoldoende is en 18 klassen niets ~~toevoegd~~toevoegt, behalve onduidelijkheid. De manier van classificeren ''lijkt'' dus van invloed op de spreiding van het fenomeen, vanuit het oogpunt van de kaartlezer bezien althans. Opnieuw blijkt hier weer de verantwoordelijkheid van de kaartmaker. Het is dus duidelijk dat je met het ''aantal klassen'' waarmee je gaat karteren moet ~~experimeteren~~experimenteren. Let op - net als hierboven besproken bij het bepalen van ''klassegrenzen'' - wat voor beeld de kaart achterlaat, of bepaalde klassen wèl gevuld zijn en zo ja met hoeveel meetwaarden. En zoals het beeld naar voren komt, sluit dat aan bij het doel van de kaart? In het voorbeeld met het besteedbaar inkomen kan het zijn dat je tóch kiest om de gegevens in 7 of 9 klassen op te delen, bijvoorbeeld omdat je wil dat het duidelijk is dat onderlinge gemeentes, die net even wat meer of minder verdienen, toch wilt kunnen vergelijken. De algehele spreiding van het fenomeen ('gemiddeld inkomen per gemeente') blijft ~~intakt~~intact. Gaat het echter ~~alléém~~alléén om die spreiding, dan blijkt hier dat 5 klassen voldoende is; de kaarten met 7 en 18 klassen hebben echt geen meerwaarde voor wat betreft een beter, visueel beeld van die spreiding. Voor het gehele beeld van Nederland is een verdeling in 5 klassen in dit geval voldoende. Overigens, iemand die bewust de verschillen tussen de rijke Randstad en 'het platteland' wil benadrukken, zou juist toch voor 3 klassen kunnen kiezen. Wel zal hij hierin een iets minder overheersende kleur moeten kiezen; immers, de klassemiddens van al die rijke gemeenten, zijn helemaal niet zo maximaal rijk als die volle kleur rood bij de kaartlezer misschien doet vermoeden. Regel 452: Tijdens het classificeren zien we heel exact hoe de ruwe dataset er écht uit ziet. Bij het testen van classificatie(methode)s leren we de data goed kennen. Misschien zijn we als GIS-specialist zelf al de (deskundige) onderzoeker van die data. Er zijn bij dit proces van het testen meerdere 'mislukte' en 'gelukte' kaarten verschenen. Dit testen is niet voor niets, de GIS-specialist is bevoorrecht. We kunnen door al die kennis namelijk bepaalde lessen trekken uit het classificeren. Het kan goed zijn dat we hierdoor besluiten toch een andere kaart te gaan maken dan we oorspronkelijk dachten. Allerlei ander technieken kunnen de scherpe kanten van bepaalde classificatiemethoden er af halen. Zo leggen de kaarten weer een andere nadruk of zijn ze nog ~~makkeliker~~makkelijker door de kaartlezer te lezen doordat de boodschap nog kernachtiger is, of de informatie nog verder toegespitst. Te denken valt aan: Regel 500: <div style="background:#FFDAB9;"> [[Bestand:Graduation_cap.png\|20px]] '''SAMENVATTING:''' Kwantitatieve, absolute data kan je met puntsymbolen in kaart brengen. Worden ze echter genormaliseerd (relatief ten opzichte van het gebied) dan kunnen ze per gebied in beeld gebracht worden (choropleten). Ongenormaliseerd zal er sprake zijn van puntsymbolen. Bij figuratieve kaarten zijn de puntsymbolen qua grootte proportioneel met de meetwaarde / data. Een legenda kan bij figuratieve kaarten geclassificeerd en ongeclassificeerd worden weergegeven. De grootte van de symbolen / cirkels / staafdiagrammen is meestal proportioneel en ~~rechtevenredig~~recht evenredig met de data, maar dat hoeft niet. Grote symbolen kunnen best relatief kleiner gemaakt worden om een rustiger kaartbeeld te krijgen. Bijvoorbeeld bij een sterk uiteenlopende dataset. Zo zijn ook de kleine symbolen nog goed leesbaar en onderscheidbaar. Dit moet dan wel uit de legenda afleidbaar zijn. Bij geclassificeerde data dient in de symboolgrootte proportioneel te zijn met de klassemiddens en komen slechts een beperkt aantal symboolgroottes voor. Dat zorgt voor betere onderscheidbaarheid, maar voor minder zichtbaar detail. </div>

Geo-visualisatie/Classificatie: verschil tussen versies