Aller au contenu

Traitement de données numériques hétérogènes

Ces traitements sont adaptés aux tableaux avec des colonnes représentent des variables d’unités différentes. En demandant « Fichier / Exemples / Fr-Voitures 2004 Tenenhaus.TXT », AMADO-online affiche le graphique de 24 voitures repérées selon 6 critères : Cylindrée en cm2, Puissance en Cheval-Vapeur (CV), Vitesse en km/h, Poids en kg, Largeur et Longueur en cm.

Données originelles Graphique après le copier/coller
Tenenhaus, 2004 Tenenhaus, 2004

Ici, les colonnes ont des unités différentes (cm3, CV, km/h, kg, cm) et ne sont pas directement comparables. Les hauteurs de rectangles proportionnelles aux nombres du tableau (graphique ci-dessus) n’ont pas de sens ici.

Pour tout calcul ultérieur, il faut normaliser les colonnes : chaque valeur du tableau est centrée sur le minimum de colonne puis divisée par l’écart-type de colonne; on obtient alors des nombres purs, c’est-à-dire "sans dimension" : si \(i\) représente une ligne-voiture et \(j\) une colonne-mesure, \(X_{ij}\) devient (\(X_{ij} - Min_j)/σ_j\). Comme AMADO-online ne peut représenter que des nombres positifs, on centre chaque colonne sur son minimum et la plus petite valeur devient zéro. Ensuite, les calculs sont effectués sur ces "nombres purs", sans dimension.

Dans notre exemple, la "Smart Fortwo Coupé" est la plus petite voiture parmi les 6 variables, les 6 valeurs deviendront zéro pour elle dans la suite sur les graphiques.

Graphique après l’ACP, analyse en composantes principales Graphique après la classification non supervisée, CAH sur les lignes et les colonnes
Tenenhaus, 2004 Tenenhaus, 2004

Sur l’arbre de classification, on distingue bien les classes de voitures :

  • la Smart Fortwo Coupé est seule, la plus petite pour toutes les variables;
  • les Citroën C2, Nissan Micra, Citroën C3 et la Peugeot 307 forment un groupe homogène de 4 petites voitures;
  • petites (mais plus sportives) les Mini, Renault Clio, BMW Z4 et Audi TT;
  • grandes voitures familiales Land Rover Defender, Nissan X-Trail, Volkswagen Touran, Renault Scenic et Audi A3;
  • la Land Rover Discovery est spécifique, étant longue, large et lourde, relativement peu puissante pour sa taille et plutôt lente;
  • les 6 berlines grandes, nerveuses et rapides : Mercedes Classe C, Jaguar S, BMW 530d, Peugeot 407, BMW 745i, Mercedes Classe S;
  • enfin les grandes, très puissantes et extrêmement chères : Ferrari, Bentley et Aston Martin.

Du côté des variables, le poids et la longueur sont fortement corrélés, tout comme la cylindrée et la puissance et, un peu moins, la vitesse (car il y a des petites voitures rapides et des grosses voitures lentes).

Et le graphique permet de voir que ce sont les particularités de la Land Rover Discovery (lourde, longue et large, mais lente) et de la Ferrari (légère, longue et très large, mais très rapide et très puissante) qui expliquent pourquoi la largeur est peu corrélée aux quatre autres variables.