Aller au contenu

Traitement de Données de fréquences ou de présence / absence

Dans cette section, on montre comment traiter tout tableau croisé de comptage, ou de présence-absence. Il s’agit du menu « Traitements / Données de fréquences ou 0/1 / Prétraitement par AFC » (Analyse Factorielle des Correspondances) et « Traitements /… / Classification supervisée ».

Exemple de « sériation » chronologique d’objet archéologiques

L’exemple suivant de données binaires est inspiré par celles utilisées par l’archéologue Sir Flinders Petrie pour dater des tombes fouillées à Diospolis Parva en Égypte à la fin du XIXème siècle. Il avait fait l’hypothèse que le type d’objets et les éléments de décor caractérisaient leur époque et que, en conséquence, leurs variations traduisaient la chronologie.

Dans leur livre de 1991, Archaeology: Theories Methods and Practice, C. Renfrew et P. G. Bahn donnent l’exemple pédagogique ci-dessous. EN-Egyptian_pottery.TXT

On ouvre le fichier en choisissant « Fichier / Exemples / EN-Egyptian_pottery.TXT ». AMADO-online montre alors la matrice brute de présence/absence des éléments de décors sur les poteries A, B, C…

Renfrew et Bahn, 1991

Renfrew et Bahn, 1991

En permutant lignes et colonnes, on peut rendre la matrice diagonale ; mais on peut obtenir le même résultat en une commande « Traitement / Données de fréquences ou 0/1 / AFC ».

Renfrew et Bahn, 1991

Renfrew et Bahn, 1991

Le graphique montre les poteries (C, B, D, G, A, E et F) réordonnées, selon un axe de présence-absence des éléments de décor repérés par l’archéologue. Cet ordre correspond probablement à l’ordre chronologique (direct ou inverse) d’invention puis d’abandon de ces créations artistiques.

Exemple de classification : Couleurs des yeux et des cheveux de 592 personnes

Les données de l’exemple suivant sont tirées de l’article Graphical display of two-way contingency tables de R.D. Snee (1974). En choisissant la matrice de données et en la copiant (Crtl+C ou Cmd+C), on passe à AMADO-online où on la dépose (Ctrl+V ou Cmd+V). AMADO-online affiche alors le graphique ci-dessous :

Snee 1974 Graphical displays of two-way contingency tables cheveux Blonds cheveux Bruns cheveux Châtains cheveux Roux
yeux Bleus 94 20 84 17
yeux Marron 7 68 119 26
yeux Noisette 10 15 54 14
yeux Verts 16 5 29 14

On peut aussi utiliser : « Fichiers / Exemples / Fr-Yeux-Cheveux.TXT ».

Snee, 1974

Snee, 1974

La commande « Traitements / Données de Fréquences ou 0/1 / Prétraitement par Analyse des correspondances» donne une diagonalisation de la matrice de données, diagonalisation qu’on voit mieux sur le graphique de gauche après « Traitements / % en colonne » et « Format / Pondérer la largeur des colonnes par la somme de chaque colonne ».

Après prétraitement par AFC Puis après % en colonne et Pondérer la largeur des colonnes
Snee, 1974 Snee, 1974

La commande « Traitements / Données de Fréquences ou 0/1 / Classification » met plutôt en évidence la proximité entre lignes et colonnes, tel que montré ci-dessous.

1. Après Classification  2. Après % en colonne et Pondérer la largeur des colonnes
Snee, 1974 Snee, 1974
3. Après clic sur le nœud le plus bas, pour mettre à droite les cheveux Blonds 4. Après clic sur le 2ème nœud le plus à gauche, pour faire redescendre les yeux Bleus
Snee, 1974 Snee, 1974

Exemple d’Analyse factorielle des correspondances : Les instruments joués par les élèves et les professions de leurs parents

Les données utilisées dans l’exemple donné dans cette section sont tirées de la thèse soutenue en 1995 par Lehman à l’EHESS L’orchestre dans tous ses éclats : sociologie de la profession de musicien. Il s’agit des élèves du Conservatoire National de Musique et de Danse de Paris (CNMD). On accède aussi aux données en passant la commande « Fichiers / Exemples / Fr-InstrumentsMusique-PCS.TXT ».

Élèves du Conservatoire Supérieur de Musique de Paris selon l’instrument joué et la PCS des parents Agriculteur exploitant Artisan Commerçant Patron Cadre, prof. Intellectuelle Profession Intermédiaire Employé Ouvrier Non-réponse
Violon 2 17 69 15 24 12 7
Violon Alto 0 10 18 7 11 8 4
Violoncelle 1 11 32 12 16 6 2
Contrebasse 0 7 16 1 6 9 6
Clarinette 0 7 10 5 8 10 0
Hautbois 2 4 8 7 6 8 0
Bois Basse 1 6 6 5 12 8 7
Flûte 0 2 20 6 2 7 1
Trompette 3 15 11 10 22 21 5
Cor 1 2 9 8 8 12 4
Tuba Trombone 5 11 12 6 20 27 8
AMADO-online affiche alors ce graphique Graphique des fréquences relatives en ligne. Les effectifs des cases étant très différents, on voit mieux les distributions en demandant « Traitements / Calculer des pourcentages lignes »
Lehman, 1995 Lehman, 1995

Maintenant, sur les données originales, la commande « Traitements / Données de fréquences ou 0/1 / Prétraitement par Analyse des Correspondances » produit le graphique le graphique de gauche.

Avec « Traitements / Transposer », on obtient celui de droite.

Graphique, après AFC Graphique après AFC, transposé
Lehman, 1995 Lehman, 1995

L’Analyse Factorielle des Correspondances (AFC) réorganise automatiquement les données, en permutant les lignes et les colonnes selon leurs coordonnées sur le 1er facteur de l’AFC  (graphique de gauche) :

  • on a rapproché les lignes des instruments joués par les enfants dont les parents ont les mêmes professions,
  • on a rapproché les colonnes des professions des parents dont les enfants jouent souvent des mêmes instruments.

Quelque fois, une transposition des données donne un meilleur aperçu des structures (graphique de droite).

Finalement, on passe les commandes « Traitements / Calculer des pourcentages lignes » et « Traitements / Calculer des pourcentages colonnes » suivies de la commande « Format / Pondérer la largeur des colonnes par la somme de chaque colonne ». Cette dernière commande fera que les surfaces de rectangles représentent, de nouveau, les nombres originels (graphique de gauche).

Pour obtenir le graphique de droite, il faut repartir des données brutes puis activer « Traiter / Transposer », « Traiter / Fréquence des données ou 0/1 / Traitement avec analyse des correspondances », « Traiter / Calculer les pourcentages des colonnes » suivi de « Format / Poids de la largeur de la colonne ».

Ainsi, AMADO-online peut donner l’un ou l’autre des deux graphiques suivants :

Graphique après AFC et calcul des pourcentages en colonne et largeurs proportionnelles aux effectifs des colonnes (% des instruments pour chaque profession) Graphique après AFC, transposé, et calcul des pourcentages en colonne et largeurs proportionnelles aux effectifs des colonnes (% des professions pour chaque instrument)

Avant, il faut relancer toute la procédure

Lehman, 1995 Lehman, 1995

Chaque nombre d’étudiants du Conservatoire est représenté par deux surfaces égales, à gauche et à droite.

Avec ces graphiques, on visualise bien que les enfants des catégories aisées et « cultivées » sont les plus nombreux et qu’ils choisissent majoritairement la flûte ou les instruments à cordes ; à l’opposé, les cuivres et des bois sont plus joués par les enfants d’employés, d’ouvriers et d’agriculteurs, moins nombreux, (ces instruments sont joués dans les harmonies et les fanfares grâce auxquelles ils ont souvent commencé leur éducation musicale).


Exemple de données chronologiques : répartition des Juifs déportés depuis la France selon les convois et les villes de naissance

Dans cet exemple (Pinol, 2019), on ne modifie pas l’ordre chronologique ; le graphique produit par AMADO-online visualise le tableau de donnée et soutient le commentaire de l’historien.

On accède au fichier en faisant « Fichier / Exemples / Fr-Deportation.TXT ».

Le graphique représente la répartition des déportés vers les camps de la mort nés dans un sous-ensemble représentatif de villes, selon les convois (% en colonnes) partis de France. On obtient les pourcentages colonnes en demandant « Traitements / Calculer les pourcentages colonnes ».

Pinol, 2019

Pinol, 2019

Sur ce graphique, on voit clairement que les 19 premiers convois ont déporté majoritairement des juifs réfugiés en France pour fuir le régime Nazi, natifs de Varsovie jusqu’au départ du 7 août 1942, puis d’Allemagne et d’Autriche les 10, 12 et 14 août 1942.

Les 6 convois suivants, du 17 au 28 août 1942, ont emporté les juifs nés à Paris arrêtés lors de la rafle du Vel d’Hiv.

Les Juifs originaires d’Allemagne, d’Autriche et de Belgique, souvent réfugiés en Zone Non Occupée, ont été arrêtés en masse lors de la grande rafle du 26 août et représentent la grande majorité les huit convois partis entre le 31 août et le 16 septembre 1942.

Ensuite, le but de la police a été de remplir les trains pour atteindre les objectifs quantitatifs fixés.

Le convoi parti le 23 mars 1943 est particulier ; ce sont en majorité des juifs nés à Marseille ou en Algérie, arrêtés après la destruction du quartier du Vieux Port de Marseille en janvier 1943, qui ont été déportés ce jour-là vers les camps de la mort.

Exemple de classification : Les actifs de 25 à 54 ans à Paris en 2015, par PCS et par arrondissement

Le tableau ci-dessous montre la distribution de la population active de Paris, âgée de 25 à 54 ans, selon la catégorie socioprofessionnelle (PCS) et l’arrondissement.

Paris (2015) Actifs 25-54 ans Chefs d’entreprise Cadres-Supérieurs Cadres-Moyens Employés Ouvriers
Paris_01 601 3651 1491 991 325
Paris_02 647 5969 2239 1404 599
Paris_03 1161 9005 3811 2206 713
Paris_04 871 5908 2621 1738 418
Paris_05 1145 12188 4699 2627 849
Paris_06 1062 7971 2842 1813 487
Paris_07 1532 10642 3417 2836 638
Paris_08 1203 7546 2461 2236 633
Paris_09 1880 15821 6028 3534 1247
Paris_10 2322 21477 9936 7228 2937
Paris_11 3211 35521 17426 10837 4143
Paris_12 2172 29285 14779 10556 3550
Paris_13 2604 28770 16884 15580 5503
Paris_14 2116 26809 11685 9988 2832
Paris_15 4066 50880 21436 15601 4676
Paris_16 4730 27917 10677 8916 2382
Paris_17 4095 37101 15304 11636 4051
Paris_18 4299 37529 21749 17266 8808
Paris_19 3213 25364 18532 17815 7803
Paris_20 3096 30256 21563 18382 7829

Voici la séquence des commandes passées à AMADO-online pour obtenir la classification et le graphique présentés à la page suivante :

  • Fichier / Exemples / Fr_Paris2015.TXT
  • Format / Légende ligne / Complète
  • Format / Taille du graphique / (décocher le ☑) Redimensionnement automatique ; Largeur=950 ; Hauteur=400 ; D’accord (note : la largeur du graphique est fonction de la largeur de l’écran ; 950 peut être trop étroit pour votre écran)
  • Format / Mode 3 / Traitements / Données de fréquences ou 0/1 / Classification
  • Traitements / Calculer des pourcentages colonnes
  • Traitements / Pondérer la largeur des colonnes par la somme de chaque colonne
  • Typographie / Augmenter l’intervalle entre colonnes (deux fois ou davantage, assez pour rendre les valeurs distinctes et lisibles)
  • Cliquer sur la ligne « Ouvriers » , puis Traitements / Insérer séparateurs (l’insertion se fait au-dessus de la ligne sélectionnée)
  • Cliquer sur la colonne « Paris_10 » , puis Traitements / Insérer séparateurs (l’insertion se fait avant la colonne sélectionnée)
  • Cliquer sur la colonne « Paris_05 » , puis Traitements / Insérer séparateurs,

Actifs, Paris, 2015

Sur ce graphique, on voit la séparation entre :

  • d’un côté, les arrondissements de l’Est de Paris (19ème, 20ème, 13ème et 18ème) où habitent relativement plus des Ouvriers, des Cadres Moyens et des Employés;
  • de l’autre côté, les arrondissements du Centre de Paris (5ème, 2ème, 3ème, 9ème, 6ème, 16ème, 1er et 4ème) où habitent plus des Chefs d’entreprises et des Cadres supérieurs;
  • et, au milieu du graphique, les arrondissements intermédiaires du point de vue sociologique (10ème, 17ème, 11ème, 12ème, 14ème et 15ème).

Ici les nombres et les hauteurs représentent les % en colonne, c’est-à-dire la répartition des actifs de 25 à 54 ans dans chaque arrondissement.

On peut enrichir le graphique et introduisant une information supplémentaire : les hauteurs des rectangles restent proportionnelles au % de chaque PCS dans l’arrondissement ; et, en plus, la surface des rectangles devient proportionnelle à l’effectif de la sous-population concernée.

« Format / Pondérer la largeur des colonnes par la somme de chaque colonne »

« Format / Format valeurs / 0% »

Actifs, Paris, 2015

Avec Format / Mode 3, le graphique fait apparaître clairement dans quels arrondissements habitent le plus chaque catégorie socioprofessionnelle. Remarque : la page suivante explique comment la ligne « Ouvriers » a été déplacée pour se retrouver tout en bas de ce dernier graphique.

Comme, à chaque nœud de l’arbre de regroupement, l’ordre des deux classes est arbitraire, cet ordre peut être inversé en cliquant simplement sur le petit carré rouge représentant le nœud.

Cliquez sur ce nœud :

Actifs, Paris, 2015

Ainsi, la ligne "Travailleur manuel" est déplacée en bas du graphique, à l’opposé de "Entrepreneurs" :

Actifs, Paris, 2015

Et, finalement, on obtient :

Actifs, Paris, 2015

Recherche de blocs dans une matrice carrée de cooccurrence. Marketing des territoires

Pour attirer les entreprises sur leurs territoires, de nombreuses villes commercialisent des sites possibles d’implantation d’activités. Ces sites portent des noms divers (zone industrielle, parc technologique, ...).

Pour aider à réduire la « gamme » des lieux d’implantations possibles offertes aux entreprises par les collectivités locales, on a demandé à 72 chefs d’entreprise de regrouper en tas 49 cartons sur lesquels étaient inscrits les noms de sites proposés par différentes villes françaises, chaque tas réunissant les noms qui lui paraissaient synonymes. Aucune contrainte n’a été imposée quant au nombre et à la taille des groupes qu’un répondant pouvait former. Chaque interviewé avait également la possibilité d’omettre toute carte portant un site industriel qui lui était inconnu. La matrice donne les nombres de fois où deux lieux ont été classés ensemble (Texier, 1999). Elle peut être considérée comme une matrice de similarité de type proximité.

« Fichier / Exemples / MARKETING Territorial.TXT »

Taille d’affichage

Les dimensions dépendent du moniteur utilisé. Selon sa taille, il peut être utile ou nécessaire de faire CTRL – ou CMD – pour diminuer la police d’affichage et afficher tout le tableau.

« Format / Valeurs / None » « Format / Légende ligne / Complète » « Format / Légende Colonne / 20 » « Format / Taille du graphique / décocher ‘automatique’ 1438 et 1278, D’accord »

Texier, 1999

Texier, 1999

Pour trouver les blocs de noms qui sont souvent classés ensembles comme étant synonymes, on utilise la classification (CAH, classification ascendante hiérarchique) intégrée à AMADO-online :

« Traitements / Données de fréquences ou 0/1 / Classification »

Texier, 1999

Texier, 1999

On voit mieux les classes en les isolant avec des séparateurs : il faut cliquer sur une colonne (ou une ligne) pour la sélectionner et insérer un séparateur entre celle-ci et la précédente : « Traitements / Insérer séparateurs »

Texier, 1999

Texier, 1999

Sur ce graphique, on voit que certains groupes de noms sont quasi-synonymes pour les chefs d’entreprises :

  • Plateforme multimodale, Parc aéroportuaire, Zone industrialo-portuaire, Centre de gros, Eurofret, Plateforme logistique; puis un peu séparés : Aéropole, Téléport.
  • Couveuse, Incubateur.
  • Technoforum, ZIRST (Zones d’Innovation et de Recherche Scientifique et Technique), Parc industriel et technologique, Parc scientifique, Parc technologique, Technoparc, Technopole. On observe que les noms Parc Scientifique et Parc technologique sont presque confondus dans l’esprit des chefs d’entreprise.
  • Jardin d’entreprises, Pépinière d’entreprises et Ruche d’entreprises
  • Atelier relais et Usine Relais.

Les responsables d’une campagne de marketing d’un territoire devront réduire la gamme de sites d’implantation d’activités qu’ils offrent et n’utiliser qu’un seul nom par groupe, tout en sachant que d’autres territoires utilisent des synonymes.