Traitement de Données de fréquences ou de présence / absence
Dans cette section, on montre comment traiter tout tableau croisé de comptage, ou de présence-absence. Il s’agit du menu « Traitements / Données de fréquences ou 0/1 / Prétraitement par AFC » (Analyse Factorielle des Correspondances) et « Traitements /… / Classification supervisée ».
Exemple de « sériation » chronologique d’objet archéologiques
L’exemple suivant de données binaires est inspiré par celles utilisées par l’archéologue Sir Flinders Petrie pour dater des tombes fouillées à Diospolis Parva en Égypte à la fin du XIXème siècle. Il avait fait l’hypothèse que le type d’objets et les éléments de décor caractérisaient leur époque et que, en conséquence, leurs variations traduisaient la chronologie.
Dans leur livre de 1991, Archaeology: Theories Methods and Practice, C. Renfrew et P. G. Bahn donnent l’exemple pédagogique ci-dessous. EN-Egyptian_pottery.TXT
On ouvre le fichier en choisissant « Fichier / Exemples / EN-Egyptian_pottery.TXT ». AMADO-online montre alors la matrice brute de présence/absence des éléments de décors sur les poteries A, B, C…
En permutant lignes et colonnes, on peut rendre la matrice diagonale ; mais on peut obtenir le même résultat en une commande « Traitement / Données de fréquences ou 0/1 / AFC ».
Le graphique montre les poteries (C, B, D, G, A, E et F) réordonnées, selon un axe de présence-absence des éléments de décor repérés par l’archéologue. Cet ordre correspond probablement à l’ordre chronologique (direct ou inverse) d’invention puis d’abandon de ces créations artistiques.
Exemple de classification : Couleurs des yeux et des cheveux de 592 personnes
Les données de l’exemple suivant sont tirées de l’article Graphical display of two-way contingency tables de R.D. Snee (1974). En choisissant la matrice de données et en la copiant (Crtl+C ou Cmd+C), on passe à AMADO-online où on la dépose (Ctrl+V ou Cmd+V). AMADO-online affiche alors le graphique ci-dessous :
Snee 1974 Graphical displays of two-way contingency tables | cheveux Blonds | cheveux Bruns | cheveux Châtains | cheveux Roux |
---|---|---|---|---|
yeux Bleus | 94 | 20 | 84 | 17 |
yeux Marron | 7 | 68 | 119 | 26 |
yeux Noisette | 10 | 15 | 54 | 14 |
yeux Verts | 16 | 5 | 29 | 14 |
On peut aussi utiliser : « Fichiers / Exemples / Fr-Yeux-Cheveux.TXT ».
La commande « Traitements / Données de Fréquences ou 0/1 / Prétraitement par Analyse des correspondances» donne une diagonalisation de la matrice de données, diagonalisation qu’on voit mieux sur le graphique de gauche après « Traitements / % en colonne » et « Format / Pondérer la largeur des colonnes par la somme de chaque colonne ».
Après prétraitement par AFC | Puis après % en colonne et Pondérer la largeur des colonnes |
---|---|
La commande « Traitements / Données de Fréquences ou 0/1 / Classification » met plutôt en évidence la proximité entre lignes et colonnes, tel que montré ci-dessous.
1. Après Classification | 2. Après % en colonne et Pondérer la largeur des colonnes |
---|---|
3. Après clic sur le nœud le plus bas, pour mettre à droite les cheveux Blonds | 4. Après clic sur le 2ème nœud le plus à gauche, pour faire redescendre les yeux Bleus |
Exemple d’Analyse factorielle des correspondances : Les instruments joués par les élèves et les professions de leurs parents
Les données utilisées dans l’exemple donné dans cette section sont tirées de la thèse soutenue en 1995 par Lehman à l’EHESS L’orchestre dans tous ses éclats : sociologie de la profession de musicien. Il s’agit des élèves du Conservatoire National de Musique et de Danse de Paris (CNMD). On accède aussi aux données en passant la commande « Fichiers / Exemples / Fr-InstrumentsMusique-PCS.TXT ».
Élèves du Conservatoire Supérieur de Musique de Paris selon l’instrument joué et la PCS des parents | Agriculteur exploitant | Artisan Commerçant Patron | Cadre, prof. Intellectuelle | Profession Intermédiaire | Employé | Ouvrier | Non-réponse |
---|---|---|---|---|---|---|---|
Violon | 2 | 17 | 69 | 15 | 24 | 12 | 7 |
Violon Alto | 0 | 10 | 18 | 7 | 11 | 8 | 4 |
Violoncelle | 1 | 11 | 32 | 12 | 16 | 6 | 2 |
Contrebasse | 0 | 7 | 16 | 1 | 6 | 9 | 6 |
Clarinette | 0 | 7 | 10 | 5 | 8 | 10 | 0 |
Hautbois | 2 | 4 | 8 | 7 | 6 | 8 | 0 |
Bois Basse | 1 | 6 | 6 | 5 | 12 | 8 | 7 |
Flûte | 0 | 2 | 20 | 6 | 2 | 7 | 1 |
Trompette | 3 | 15 | 11 | 10 | 22 | 21 | 5 |
Cor | 1 | 2 | 9 | 8 | 8 | 12 | 4 |
Tuba Trombone | 5 | 11 | 12 | 6 | 20 | 27 | 8 |
AMADO-online affiche alors ce graphique | Graphique des fréquences relatives en ligne. Les effectifs des cases étant très différents, on voit mieux les distributions en demandant « Traitements / Calculer des pourcentages lignes » |
---|---|
Maintenant, sur les données originales, la commande « Traitements / Données de fréquences ou 0/1 / Prétraitement par Analyse des Correspondances » produit le graphique le graphique de gauche.
Avec « Traitements / Transposer », on obtient celui de droite.
Graphique, après AFC | Graphique après AFC, transposé |
---|---|
L’Analyse Factorielle des Correspondances (AFC) réorganise automatiquement les données, en permutant les lignes et les colonnes selon leurs coordonnées sur le 1er facteur de l’AFC (graphique de gauche) :
- on a rapproché les lignes des instruments joués par les enfants dont les parents ont les mêmes professions,
- on a rapproché les colonnes des professions des parents dont les enfants jouent souvent des mêmes instruments.
Quelque fois, une transposition des données donne un meilleur aperçu des structures (graphique de droite).
Finalement, on passe les commandes « Traitements / Calculer des pourcentages lignes » et « Traitements / Calculer des pourcentages colonnes » suivies de la commande « Format / Pondérer la largeur des colonnes par la somme de chaque colonne ». Cette dernière commande fera que les surfaces de rectangles représentent, de nouveau, les nombres originels (graphique de gauche).
Pour obtenir le graphique de droite, il faut repartir des données brutes puis activer « Traiter / Transposer », « Traiter / Fréquence des données ou 0/1 / Traitement avec analyse des correspondances », « Traiter / Calculer les pourcentages des colonnes » suivi de « Format / Poids de la largeur de la colonne ».
Ainsi, AMADO-online peut donner l’un ou l’autre des deux graphiques suivants :
Graphique après AFC et calcul des pourcentages en colonne et largeurs proportionnelles aux effectifs des colonnes (% des instruments pour chaque profession) | Graphique après AFC, transposé, et calcul des pourcentages en colonne et largeurs proportionnelles aux effectifs des colonnes (% des professions pour chaque instrument) Avant, il faut relancer toute la procédure |
---|---|
Chaque nombre d’étudiants du Conservatoire est représenté par deux surfaces égales, à gauche et à droite.
Avec ces graphiques, on visualise bien que les enfants des catégories aisées et « cultivées » sont les plus nombreux et qu’ils choisissent majoritairement la flûte ou les instruments à cordes ; à l’opposé, les cuivres et des bois sont plus joués par les enfants d’employés, d’ouvriers et d’agriculteurs, moins nombreux, (ces instruments sont joués dans les harmonies et les fanfares grâce auxquelles ils ont souvent commencé leur éducation musicale).
Exemple de données chronologiques : répartition des Juifs déportés depuis la France selon les convois et les villes de naissance
Dans cet exemple (Pinol, 2019), on ne modifie pas l’ordre chronologique ; le graphique produit par AMADO-online visualise le tableau de donnée et soutient le commentaire de l’historien.
On accède au fichier en faisant « Fichier / Exemples / Fr-Deportation.TXT ».
Le graphique représente la répartition des déportés vers les camps de la mort nés dans un sous-ensemble représentatif de villes, selon les convois (% en colonnes) partis de France. On obtient les pourcentages colonnes en demandant « Traitements / Calculer les pourcentages colonnes ».
Sur ce graphique, on voit clairement que les 19 premiers convois ont déporté majoritairement des juifs réfugiés en France pour fuir le régime Nazi, natifs de Varsovie jusqu’au départ du 7 août 1942, puis d’Allemagne et d’Autriche les 10, 12 et 14 août 1942.
Les 6 convois suivants, du 17 au 28 août 1942, ont emporté les juifs nés à Paris arrêtés lors de la rafle du Vel d’Hiv.
Les Juifs originaires d’Allemagne, d’Autriche et de Belgique, souvent réfugiés en Zone Non Occupée, ont été arrêtés en masse lors de la grande rafle du 26 août et représentent la grande majorité les huit convois partis entre le 31 août et le 16 septembre 1942.
Ensuite, le but de la police a été de remplir les trains pour atteindre les objectifs quantitatifs fixés.
Le convoi parti le 23 mars 1943 est particulier ; ce sont en majorité des juifs nés à Marseille ou en Algérie, arrêtés après la destruction du quartier du Vieux Port de Marseille en janvier 1943, qui ont été déportés ce jour-là vers les camps de la mort.
Exemple de classification : Les actifs de 25 à 54 ans à Paris en 2015, par PCS et par arrondissement
Le tableau ci-dessous montre la distribution de la population active de Paris, âgée de 25 à 54 ans, selon la catégorie socioprofessionnelle (PCS) et l’arrondissement.
Paris (2015) Actifs 25-54 ans | Chefs d’entreprise | Cadres-Supérieurs | Cadres-Moyens | Employés | Ouvriers |
---|---|---|---|---|---|
Paris_01 | 601 | 3651 | 1491 | 991 | 325 |
Paris_02 | 647 | 5969 | 2239 | 1404 | 599 |
Paris_03 | 1161 | 9005 | 3811 | 2206 | 713 |
Paris_04 | 871 | 5908 | 2621 | 1738 | 418 |
Paris_05 | 1145 | 12188 | 4699 | 2627 | 849 |
Paris_06 | 1062 | 7971 | 2842 | 1813 | 487 |
Paris_07 | 1532 | 10642 | 3417 | 2836 | 638 |
Paris_08 | 1203 | 7546 | 2461 | 2236 | 633 |
Paris_09 | 1880 | 15821 | 6028 | 3534 | 1247 |
Paris_10 | 2322 | 21477 | 9936 | 7228 | 2937 |
Paris_11 | 3211 | 35521 | 17426 | 10837 | 4143 |
Paris_12 | 2172 | 29285 | 14779 | 10556 | 3550 |
Paris_13 | 2604 | 28770 | 16884 | 15580 | 5503 |
Paris_14 | 2116 | 26809 | 11685 | 9988 | 2832 |
Paris_15 | 4066 | 50880 | 21436 | 15601 | 4676 |
Paris_16 | 4730 | 27917 | 10677 | 8916 | 2382 |
Paris_17 | 4095 | 37101 | 15304 | 11636 | 4051 |
Paris_18 | 4299 | 37529 | 21749 | 17266 | 8808 |
Paris_19 | 3213 | 25364 | 18532 | 17815 | 7803 |
Paris_20 | 3096 | 30256 | 21563 | 18382 | 7829 |
Voici la séquence des commandes passées à AMADO-online pour obtenir la classification et le graphique présentés à la page suivante :
- Fichier / Exemples / Fr_Paris2015.TXT
- Format / Légende ligne / Complète
- Format / Taille du graphique / (décocher le ) Redimensionnement automatique ; Largeur=950 ; Hauteur=400 ; D’accord (note : la largeur du graphique est fonction de la largeur de l’écran ; 950 peut être trop étroit pour votre écran)
- Format / Mode 3 / Traitements / Données de fréquences ou 0/1 / Classification
- Traitements / Calculer des pourcentages colonnes
- Traitements / Pondérer la largeur des colonnes par la somme de chaque colonne
- Typographie / Augmenter l’intervalle entre colonnes (deux fois ou davantage, assez pour rendre les valeurs distinctes et lisibles)
- Cliquer sur la ligne « Ouvriers » , puis Traitements / Insérer séparateurs (l’insertion se fait au-dessus de la ligne sélectionnée)
- Cliquer sur la colonne « Paris_10 » , puis Traitements / Insérer séparateurs (l’insertion se fait avant la colonne sélectionnée)
- Cliquer sur la colonne « Paris_05 » , puis Traitements / Insérer séparateurs,
Sur ce graphique, on voit la séparation entre :
- d’un côté, les arrondissements de l’Est de Paris (19ème, 20ème, 13ème et 18ème) où habitent relativement plus des Ouvriers, des Cadres Moyens et des Employés;
- de l’autre côté, les arrondissements du Centre de Paris (5ème, 2ème, 3ème, 9ème, 6ème, 16ème, 1er et 4ème) où habitent plus des Chefs d’entreprises et des Cadres supérieurs;
- et, au milieu du graphique, les arrondissements intermédiaires du point de vue sociologique (10ème, 17ème, 11ème, 12ème, 14ème et 15ème).
Ici les nombres et les hauteurs représentent les % en colonne, c’est-à-dire la répartition des actifs de 25 à 54 ans dans chaque arrondissement.
On peut enrichir le graphique et introduisant une information supplémentaire : les hauteurs des rectangles restent proportionnelles au % de chaque PCS dans l’arrondissement ; et, en plus, la surface des rectangles devient proportionnelle à l’effectif de la sous-population concernée.
« Format / Pondérer la largeur des colonnes par la somme de chaque colonne »
« Format / Format valeurs / 0% »
Avec Format / Mode 3, le graphique fait apparaître clairement dans quels arrondissements habitent le plus chaque catégorie socioprofessionnelle. Remarque : la page suivante explique comment la ligne « Ouvriers » a été déplacée pour se retrouver tout en bas de ce dernier graphique.
Comme, à chaque nœud de l’arbre de regroupement, l’ordre des deux classes est arbitraire, cet ordre peut être inversé en cliquant simplement sur le petit carré rouge représentant le nœud.
Cliquez sur ce nœud :
Ainsi, la ligne "Travailleur manuel" est déplacée en bas du graphique, à l’opposé de "Entrepreneurs" :
Et, finalement, on obtient :
Recherche de blocs dans une matrice carrée de cooccurrence. Marketing des territoires
Pour attirer les entreprises sur leurs territoires, de nombreuses villes commercialisent des sites possibles d’implantation d’activités. Ces sites portent des noms divers (zone industrielle, parc technologique, ...).
Pour aider à réduire la « gamme » des lieux d’implantations possibles offertes aux entreprises par les collectivités locales, on a demandé à 72 chefs d’entreprise de regrouper en tas 49 cartons sur lesquels étaient inscrits les noms de sites proposés par différentes villes françaises, chaque tas réunissant les noms qui lui paraissaient synonymes. Aucune contrainte n’a été imposée quant au nombre et à la taille des groupes qu’un répondant pouvait former. Chaque interviewé avait également la possibilité d’omettre toute carte portant un site industriel qui lui était inconnu. La matrice donne les nombres de fois où deux lieux ont été classés ensemble (Texier, 1999). Elle peut être considérée comme une matrice de similarité de type proximité.
« Fichier / Exemples / MARKETING Territorial.TXT »
Taille d’affichage
Les dimensions dépendent du moniteur utilisé. Selon sa taille, il peut être utile ou nécessaire de faire CTRL – ou CMD – pour diminuer la police d’affichage et afficher tout le tableau.
« Format / Valeurs / None » « Format / Légende ligne / Complète » « Format / Légende Colonne / 20 » « Format / Taille du graphique / décocher ‘automatique’ 1438 et 1278, D’accord »
Pour trouver les blocs de noms qui sont souvent classés ensembles comme étant synonymes, on utilise la classification (CAH, classification ascendante hiérarchique) intégrée à AMADO-online :
« Traitements / Données de fréquences ou 0/1 / Classification »
On voit mieux les classes en les isolant avec des séparateurs : il faut cliquer sur une colonne (ou une ligne) pour la sélectionner et insérer un séparateur entre celle-ci et la précédente : « Traitements / Insérer séparateurs »
Sur ce graphique, on voit que certains groupes de noms sont quasi-synonymes pour les chefs d’entreprises :
- Plateforme multimodale, Parc aéroportuaire, Zone industrialo-portuaire, Centre de gros, Eurofret, Plateforme logistique; puis un peu séparés : Aéropole, Téléport.
- Couveuse, Incubateur.
- Technoforum, ZIRST (Zones d’Innovation et de Recherche Scientifique et Technique), Parc industriel et technologique, Parc scientifique, Parc technologique, Technoparc, Technopole. On observe que les noms Parc Scientifique et Parc technologique sont presque confondus dans l’esprit des chefs d’entreprise.
- Jardin d’entreprises, Pépinière d’entreprises et Ruche d’entreprises
- Atelier relais et Usine Relais.
Les responsables d’une campagne de marketing d’un territoire devront réduire la gamme de sites d’implantation d’activités qu’ils offrent et n’utiliser qu’un seul nom par groupe, tout en sachant que d’autres territoires utilisent des synonymes.