Méthodes de discrétisation


LA QUALITÉ DE LA DISCRÉTISATION

Certains critères permettent d'orienter le choix entre plusieurs méthodes de discrétisation.

  • Carte unique. La méthode qui rend le mieux compte de la structure interne des données est celle qui s'établit à partir des seuil observés sur le diagramme de distribution.
  • Cartes à comparer. Pour comparer des cartes le géographe utilise des méthodes statistiques de discrétisation, basées sur la moyenne, l'écart-type ou la médiane.


Dans tous les cas, une discrétisation peut être considérée satisfaisante lorsqu'elle est susceptible de :

  • Maximiser l'homogénéité des classes : les valeurs de chaque classe sont plus proches entre elles que les valeurs de deux classes contigues.
  • Maximiser l'information : l'information est maximale d'un point de vue quantitatif lorsque les classes ont des effectifs égaux ou lorsqu'elles couvrent surfaces égales. Des classes d'égal effectif présentent une distorsion visuelle parfois considérable quand les unités géographiques ont des surfaces très contrastées (ex. : la Russie et le Luxembourg).

D'un point de vue qualitatif, la meilleure discrétisation sera celle qui offre l'information la plus riche suivant le but de la carte : répartition équilibrée de l'ensemble des classes, analyse plus ou moins fine de certaines régions, adéquation à des notions que le chercheur souhaite communiquer : mise en valeur de seuils significatifs, par exemple.

Il n'existe pas de discrétisation optimale. Toutes les discrétisations donnent des résultats satisfaisants lorsqu'elle s'appliquent à des distributions normales. Une analyse raisonné et des essais sont le seul moyen d'obtenir le résultat le mieux adapté aux objectifs recherchés.

QUELQUES MÉTHODES

QUANTILES : CLASSES D'EFFECTIFS ÉGAUX

Cette méthode effectue une partition de la série en classes d'effectifs égaux. Elle peut s'appliquer pour comparer plusieurs cartes, mais lors de l'interprétation il faut tenir compte du fait que, ce que l'on compare, ce sont des ordres et non pas des valeurs proprement dites.
Une des qualités de la discrétisation en quantiles est celle de répandre l'information de manière régulière sur la carte, car toutes les classes sont également représentées. Ceci apporte une quantité maximale d'information.
Si la distribution est uniforme, la distorsion provoquée par la réduction de la série en classes est minime et ces classes sont homogènes (amplitudes égales). En revanche, les irregularités de la série ainsi que les valeurs extrêmes sont gommées.

Une méthode pratique pour calculer la médiane et les limites des classes (ou quartiles) consiste à trier toutes les valeurs et compter les effectifs. Le calcul de la médiane permet de scinder la série en deux sous-ensembles contenant chacun 50 % des effectifs. La subdivision en quatre sous-ensembles permet d'obtenir des quartiles (25 % des effectifs, 4 classes), et les subdivisions successives : quintiles (5 classes), sextiles (6 classes), déciles (10) classes, etc.

Si le nombre de termes (n) de la série est impair, celui qui la partage en deux parts égales correspond à la valeur médiane (M).
Si n est pair, la M se trouve dans l'intervalle entre les rangs n/2 et n/2+1, qui est appelé l'intervalle médian. Toute valeur comprise dans l'intervalle médian répond à la définition de médiane.

MOYENNES EMBOÎTÉES

Lors de l'interprétation on analyse les valeurs de la série suivant leur écart aux moyennes des différents niveaux. Cela est particulièrement important pour la comparaison d'une série de cartes.
Les classes obtenues presentent généralement des effectifs relativement homogènes, ce qui implique une information importante du point de vue quantitatif. En même temps, les classes sont également relativement homogènes : intervalles égaux. Les classes vides sont généralement absentes et les valeurs extrêmes relativisées : ni totalement gommées ni totalement mises en valeur.

Pour effectuer une discrétisation :

Première procédure :

  • Calculer la moyenne arithmétique de la série (moyenne niveau 1).
  • Calculer la moyenne du minimum et de la valeur moyenne (moyenne niveau 2a).
  • Calculer la moyenne du maximum et de la valeur moyenne (moyenne niveau 2b).


Deuxième procédure :

  • Calculer la moyenne arithmétique de la série (moyenne niveau 1).
  • Calculer la moyenne de toutes les valeurs inférieures à la moyenne arithmétique.
  • Calculer la moyenne de toutes les valeurs supérieures à la moyenne arithmétique.

STANDARDISATION AVEC UNE CLASSE MOYENNE

Les discrétisations basées sur la moyenne et l'écart-type considèrent la moyenne soit comme limite de classe ou centrée sur une classe moyenne. Elles déterminent des classes d'amplitude égale à un écart-type ou un demi écart-type, ce qui équivaut à opérer sur des séries standardisées (moyenne égale à 0 et écart-type égal à 1).

Ces méthodes permettent de comparer des cartes car les classes sont établies avec une unité de mesure commune (l'écart-type) et une même origine (la moyenne). Les meilleurs résultats s'obtiennent avec des séries normales et il faut éviter son application à des séries plurimodales ou dissymétriques.

Dans la standardisation avec une classe moyenne, la valeur moyenne de la série est centre d'une classe centrale.
Une partition satisfaisante consiste à calculer cette classe centrale d'une valeur égale à un écart-type :

  • minimum de la série
  • moyenne moins 1/2 écart-type
  • moyenne plus 1/2 écart-type
  • maximum de la série


Dans les classes créées de part et d'autre de cette classe moyenne il est possible de mettre en évidence les valeurs les plus fortes et les plus faibles, ce qui enrichit l'information du point de vue qualitatif.