Les graphiques de BERTIN
AMADO-online permet de représenter graphiquement un tableau croisé de nombres, puis de permuter les lignes et les colonnes pour faire apparaître la structure des données : soit une structure diagonale (sériation) si elle existe, soit une structure en classes croisées des lignes et des colonnes, voire en blocs.
AMADO-online est un outil adapté aux tableaux petits ou moyens (jusqu’à une cinquantaine de lignes et colonnes)1 tels que ceux qui sont construits en Sciences Humaines et Sociales où chaque élément a été défini précisément et doit être resitué facilement dans l’ensemble. Le présent guide d’utilisation présente plusieurs types de tableaux avec, pour chacun, les données sources et les suites de commandes des menus d’AMADO on line permettant d’obtenir les graphiques reproduits.
Les graphiques produits par AMADO-online sont simples à lire ; ils donnent au lecteur un accès direct au résultat : chaque élément d’information – chaque nombre du tableau de données – est restitué dans sa forme originelle, les nombres sont représentés par des rectangles dont les hauteurs sont proportionnelles aux valeurs du tableau original, soit en nombre absolu, soit en pourcentage.
L’idée de permuter les lignes et les colonnes d’une matrice dans le but de révéler une structure cachée dans une matrice de données est ancienne : Sir W. M. Flinders Petrie (1899) a présenté il y a plus d’un siècle une "séquence dans les vestiges préhistoriques", c’est-à-dire une "sériation" chronologique des formes et éléments de décor d’objets trouvés lors de fouilles en Égypte. Comme l’ont souligné Philipps Arabie, Scott Boorman et Paul Levitt (1978), Giles Caraux (1984) et Jean-François Marcotorchino (1987), cette idée exerce une influence croissante dans les mathématiques appliquées, en particulier dans les sciences du comportement.
Jacques Bertin (1967, 1977) a mis côte à côte des histogrammes, en utilisant une échelle appropriée, et a permuté les éléments pour révéler les structures sous-jacentes dans les données. Depuis lors, cette approche a connu un essor considérable en France et dans le monde (Bord 1997, Palsky 2017, Harvey 2019). À l’origine, Bertin et son équipe de l’École des Hautes Études travaillaient avec des rangées de cubes que l’on déplaçait à la main. Ensuite, la diffusion des méthodes d’analyse des données multidimensionnelles (Cordier 1965, Benzécri 1973, Arabie et al. 1978, Greenacre 1984, Caraux 1984, Tenenhaus & Young 1985, Hoffman DeLeeuw 1992) a quelque peu éclipsé cette approche purement visuelle.
Certes, les techniques numériques de l’analyse des données permettent de découvrir rapidement les grands traits de la structure du tableau, structure qui sera rendu lisible sur le graphique. On économise ainsi un temps considérable dans la recherche du meilleur couple de permutations des n lignes et des p colonnes du tableau parmi les n! p! solutions possibles. Mais, en analyse factorielle, les listes de coordonnées et autres « aides numériques à l’interprétation » sont utiles au statisticien mais souvent incompréhensibles pour le chercheur en sciences sociales ; il en est de même pour les graphiques factoriels, nuage des individus, cercle des corrélations, représentation simultanée, etc. Leur interprétation demande un œil averti, et ils doivent peut-être une partie de leur succès auprès du grand public à leur ésotérisme même... De leur côté, les arbres de classification donnent une représentation utile mais déformée (ultramétrique 2) du tableau originel, et presque toujours pour un seul côté du tableau, soit les lignes, soit les colonnes. Mais de nombreuses listes de moyennes, marginales et conditionnelles, d’écarts-types, de contributions, etc., sont nécessaires pour préciser le sens d’un tel arbre.
Au contraire, les graphiques construits par AMADO-online utilisent l’analyse factorielle ou la classification tout en donnant au lecteur un accès direct au résultat : chaque élément d’information – chaque nombre du tableau de données – est restitué dans sa forme originelle, soit en nombre absolu, soit en pourcentage. C’est uniquement l’ordre des lignes et des colonnes qui a changé, mais tout est là.
-
La méthode de représentation graphique proposée par Bertin a été adaptée aux très grands tableaux de données par Jean Daniel Fekete et ses collaborateurs (2015, 2016). ↩
-
Une distance est ultramétrique si tous les triangles sont isocèles, le 3ème côté étant plus petit que les deux côtés égaux. C’est le cas quand on mesure la distance de deux éléments par la hauteur du plus petit nœud qui les réunit dans un arbre de classification hiérarchique. Ce type de distance est très particulière ; par exemple il est impossible de placer plus de 3 points dans un plan tels que leurs distances (au sens géométrique habituel) respectent cette condition ultramétrique. ↩