STA 101 : Classification
Suite de l’Analyse en Composantes Principales
La classification est une méthode non objective de réduction des dimensions sur les individus. L’objectif est de pouvoir parler de classes d’individus, qui ne seront ni basées sur les marques ni sur les prix, mais par un nouveau critère, fictif mais homogène, basé sur la proximité des individus par variables dans l’espace.
La classification naturelle d’un produit de grande consommation est souvent réalisée en 3 classes :
- Bas de gamme
- Milieu de gamme
- Haut de gamme
L’objectif de la classification qui sera réalisée est donc de rester proche de cet usage s’il a du sens.
Classification hiérarchique
Comme souvent lors d’une classification, plusieurs coupes d’arbre sont possibles. Dans le cas présent, une première coupure à 2 classes (dernière ligne), puis une seconde à 4 classes (3 dernières lignes) semblent pertinentes. Une troisième à 8 classes pourrait être envisageable. Les classes sont à choisir avant que la méthode de Ward ne provoque une perte d’inertie, ce qui signifie qu’il faut privilégier les coupes sur les grandes longueurs des courbes de niveaux. La méthode est assez proche de celle qui permet de sélectionner les valeurs propres en ACP.
Classe 1 : 30 individus
La première classe contient presque la totalité des machines à chargement par le dessus (95%) et la totalité des machines fabriquées en France. Presque toutes les machine sont à moteur électrique (90%) et la moitié sont classées a+. La classe ne contient presque pas de machines à induction, mais un tiers des machines sont à hublot.
Les machines à laver de cette classe sont plus bruyantes que la moyenne, mais également plus petites (en volume, capacité, largeur), entrainant des consommations (eau et électricité) assez basses.
Cette classe est celle des « petites machines, ouverture par-dessus, faible consommation »
Classe 2 : 2 individus
La classe 2 ne contient que des machines vendues uniquement sur Internet, mais pas toutes celles qui ne sont vendues que par ce biais.
Cette classe contient 2 individus pour lesquels il y a un très grand nombre d’avis utilisateurs internet, beaucoup plus grand que la moyenne (en moyenne 291 contre 21)
C’est la classe « conseillé par les internautes »
Classe 3 : 19 individus
La troisième classe ne contient que des machines à Hublot, soit presque la moitié de celles-ci. Et 63% des machines classées « a+++ » appartiennent à cette classe.
Ces machines ont une vitesse d’essorage, un volume, une capacité, et une largeur supérieures à la moyenne des autres individus. Elles ont un nombre de sécurités inférieures, des dimensions légèrement plus petites et font moins de bruit.
Cette classe peut-être appelée « haut de gamme »
Classe 4 : 3 individus
La dernière classe n’est pas définie par ses modalités. Elle contient des machines consommant beaucoup plus d’eau et d’électricité que la moyenne, mais qui sont également beaucoup plus grosses en capacité / volume, ainsi qu’en profondeur.
Cette classe regroupe des machines pour « Familles nombreuses ».
Affichage des classes sur le plan factoriel des individus
L’affichage des classes sur le plan principal montre bien l’opposition de la classe 1 (petites machines bruyantes ouverture dessus et faible consommation) en haut à gauche pour simplifier ; et de la classe 3 (Hublot, grosse capacité, silencieuse) plutôt en bas à droite du plan. La classe 4 des très grosses machines rappelle également la position sur le plan des machines à laver sèche-linge. (Individus illustratifs). Etrangement affichée en plein milieu de la classe 1, la classe 2 des machines recommandées sur Internet, aux très nombreux avis utilisateurs. Cela est dû à un affichage sur 2 dimensions mal adapté, la variable AVIS étant mal représentée sur ce premier plan.
Conclusion
L’analyse en composante principale montre sur cet exemple sa force à identifier des corrélations et à résumer graphiquement les informations. Ainsi je n’avais pas remarqué lors de mes recherches sur internet le lien entre le type de chargement et la capacité en linge de la machine. Je ne savais pas non plus à quel point la classification en énergie « a » était devenue obsolète, et qu’il fallait regarder « a+++ » pour obtenir une classification énergétique modernisée.
Ce qui se remarque très facilement sur une représentation graphique d’ACP, peut être totalement invisible sans connaissances préalables si l’on n’utilise que les outils de « comparatif produits » mis à disposition par les sites internet, et qui ne permettent en fait que de comparer qu’un nombre très limité de produits, sur des critères déjà connus.
De même la classification, qui en plus d’identifier des classes très proches de ce que l’on aurait naturellement imaginé (bas de gamme, haut de gamme), distingue une classe « recommandé sur Internet » et une classe « famille nombreuse », beaucoup plus précise et moins subjectif qu’une classe « milieu de gamme » qui aurait été difficile d’appréhender.
Suite à cette étude, je pense que je n’achèterais pas la même machine à laver. Cela m’aurait probablement permis de gagner 200€ en passant d’une Bosch WAS28860FF à une LG F84815SL. Sans compter un gain de consommation d’eau et d’électricité.