STA 101 : Classification

Suite de l’Analyse en Composantes Principales

La classification est une méthode non objective de réduction des dimensions sur les individus. L’objectif est de pouvoir parler de classes d’individus, qui ne seront ni basées sur les marques ni sur les prix, mais par un nouveau critère, fictif mais homogène, basé sur la proximité des individus par variables dans l’espace.

La classification naturelle d’un produit de grande consommation est souvent réalisée en 3 classes :

  • Bas de gamme
  • Milieu de gamme
  • Haut de gamme

L’objectif de la classification qui sera réalisée est donc de rester proche de cet usage s’il a du sens.

Classification hiérarchique

Courbe des indices de niveau après classification hiérarchique

Figure 10 Courbe des indices de niveau après classification hiérarchique

Comme souvent lors d’une classification, plusieurs coupes d’arbre sont possibles. Dans le cas présent, une première coupure à 2 classes (dernière ligne), puis une seconde à 4 classes (3 dernières lignes) semblent pertinentes. Une troisième à 8 classes pourrait être envisageable. Les classes sont à choisir avant que la méthode de Ward ne provoque une perte d’inertie, ce qui signifie qu’il faut privilégier les coupes sur les grandes longueurs des courbes de niveaux. La méthode est assez proche de celle qui permet de sélectionner les valeurs propres en ACP.

Classe 1 : 30 individus

Classe d'individus

Classe 1 : « petites machines, ouverture par-dessus, faible consommation »

La première classe contient presque la totalité des machines à chargement par le dessus (95%) et la totalité des machines fabriquées en France. Presque toutes les machine sont à moteur électrique (90%) et la moitié sont classées a+. La classe ne contient presque pas de machines à induction, mais un tiers des machines sont à hublot.

Classe d'individus

Classe 1 : « petites machines, ouverture par-dessus, faible consommation »

Les machines à laver de cette classe sont plus bruyantes que la moyenne, mais également plus petites (en volume, capacité, largeur), entrainant des consommations (eau et électricité) assez basses.

Cette classe est celle des « petites machines, ouverture par-dessus, faible consommation »

Classe 2 : 2 individus

Classe d'individus

Classe 2 : « conseillé par les internautes »

La classe 2 ne contient que des machines vendues uniquement sur Internet, mais pas toutes celles qui ne sont vendues que par ce biais.

Classe d'individus

Classe 2 : « conseillé par les internautes »

Cette classe contient 2 individus pour lesquels il y a un très grand nombre d’avis utilisateurs internet, beaucoup plus grand que la moyenne (en moyenne 291 contre 21)

C’est la classe « conseillé par les internautes »

Classe 3 : 19 individus

Classe d'individus

Classe 3 : « haut de gamme »

La troisième classe ne contient que des machines à Hublot, soit presque la moitié de celles-ci. Et 63% des machines classées « a+++ » appartiennent à cette classe.

Classe d'individus

Classe 3 : « haut de gamme »

Ces machines ont une vitesse d’essorage, un volume, une capacité, et une largeur supérieures à la moyenne des autres individus. Elles ont un nombre de sécurités inférieures, des dimensions légèrement plus petites et font moins de bruit.

Cette classe peut-être appelée « haut de gamme »

Classe 4 : 3 individus

La dernière classe n’est pas définie par ses modalités.

Classe d'individus

Classe 4 : « Familles nombreuses »

Elle contient des machines consommant beaucoup plus d’eau et d’électricité que la moyenne, mais qui sont également beaucoup plus grosses en capacité / volume, ainsi qu’en profondeur.

Cette classe regroupe des machines pour « Familles nombreuses ».

Affichage des classes sur le plan factoriel des individus

classes sur le plan factoriel des individus

Affichage des classes sur le plan factoriel des individus

L’affichage des classes sur le plan principal montre bien l’opposition de la classe 1 (petites machines bruyantes ouverture dessus et faible consommation) en haut à gauche pour simplifier ; et de la classe 3 (Hublot, grosse capacité, silencieuse) plutôt en bas à droite du plan. La classe 4 des très grosses machines rappelle également la position sur le plan des machines à laver sèche-linge. (Individus illustratifs). Etrangement affichée en plein milieu de la classe 1, la classe 2 des machines recommandées sur Internet, aux très nombreux avis utilisateurs. Cela est dû à un affichage sur 2 dimensions mal adapté, la variable AVIS étant mal représentée sur ce premier plan.

Conclusion

L’analyse en composante principale montre sur cet exemple sa force à identifier des corrélations et à résumer graphiquement les informations. Ainsi je n’avais pas remarqué lors de mes recherches sur internet le lien entre le type de chargement et la capacité en linge de la machine. Je ne savais pas non plus à quel point la classification en énergie « a » était devenue obsolète, et qu’il fallait regarder « a+++ » pour obtenir une classification énergétique modernisée.

Ce qui se remarque très facilement sur une représentation graphique d’ACP, peut être totalement invisible sans connaissances préalables si l’on n’utilise que les outils de « comparatif produits » mis à disposition par les sites internet, et qui ne permettent en fait que de comparer qu’un nombre très limité de produits, sur des critères déjà connus.

De même la classification, qui en plus d’identifier des classes très proches de ce que l’on aurait naturellement imaginé (bas de gamme, haut de gamme), distingue une classe « recommandé sur Internet » et une classe « famille nombreuse », beaucoup plus précise et moins subjectif qu’une classe « milieu de gamme » qui aurait été difficile d’appréhender.

Suite à cette étude, je pense que je n’achèterais pas la même machine à laver. Cela m’aurait probablement permis de gagner 200€ en passant d’une Bosch WAS28860FF à une LG F84815SL. Sans compter un gain de consommation d’eau et d’électricité.

(928 mots)