Suite de l’Analyse statistique élémentaire

Analyse en composantes principales

Les statistiques sommaires réalisées sur les variables continues montrent de fortes différences d’ordre de grandeur entre les variables (les écarts-types, médianes, min max).

Comme on ne souhaite ni privilégier ni négliger aucune des variables lors de cette étude : une ACP normée est privilégiée.

Valeurs propres et choix des axes

Valeurs propres

Valeurs propres et choix des axes

La « règle du coude » m’encourage à ne retenir que les 2 premiers axes qui portent presque 65% de l’information.

La règle de Kaiser (conserver les valeurs propres supérieures à 1 en ACP normée) pourrait m’inciter à retenir un axe supplémentaire (pour un gain de 12% d’informations), mais un travail beaucoup plus conséquent.

Le premier axe explique 44,5% de l’inertie, ce qui est un bon résumé (supérieur à 18=12%), le second axe 20% de la dispersion, soit une information résumée également. 65% des informations du nuage étant résumées avec 2 axes pour 8 variables actives, l’ACP montre sa capacité à « condenser » l’information, les variables de départ présentent bien des corrélations entre elles.

Cette réduction significative de dimension montre que l’étude a du sens.

Etude des variables

Coordonnées des variables sur les axes 1 & 2

Coordonnées des variables sur les axes 1 & 2

Coordonnées des variables sur les axes 1 & 2

Les variables Capacité, Volume, Eau, Energie et Vitesse influencent positivement la formation de l’axe 1. Leurs coefficients de corrélation linéaire (coordonnées sur l’axe) significatifs (0.68 minimum) montrant la proximité avec la première composante principale. Le Bruit contribuant lui négativement à l’axe. Le faible coefficient indique une moindre importance à la formation de cet axe. Les coordonnées ne sont pas toutes du même signe sur l’axe 1 donc ce n’est pas un axe de taille.

Sur l’axe 2, l’Energie et le Bruit influent fortement et positivement sur la formation de l’axe, ainsi que le nombre de Sécurités dans une moindre mesure, la Vitesse contribuant négativement. Les autres variables sont peu corrélées.

Les avis ne sont significatifs sur aucun des axes principaux. (Il faudrait regarder l’axe 3 pour voir une information significative, mais cet axe est exclu.)

Cercle des corrélations

Cercle des corrélations

Cercle des corrélations

La représentation du cercle des corrélations montre qu’un grand nombre de variables sont plutôt bien représentées car proches du cercle (Vitesse, Volume, Capacité, Eau, Energie, Bruit).

L’AVIS et les variables illustratives sont en revanche beaucoup moins bien représentés, car les flèches sont courtes.

Interprétation

Axe 1 : Les consommations en eau et énergies ainsi que la capacité et le volume sont des variables fortement corrélées (de 0.7 à 0.9 voir la matrice des corrélations), très importantes dans la formation de la première Composante Principale. La variable illustrative Largeur (seule variable de dimension correctement représentée) confirme ce sentiment. Celles au-dessus de la moyenne contribuent positivement aux coordonnées sur l’axe :

  • La première composante principale représente la taille des machines (grosse capacité, gros volume et donc grosse consommation - en eau et électricité) et leur confort sonore (lié à l’opposition au Bruit) dans une moindre mesure. Ces caractéristiques provoquent par calcul des coordonnées positives (à droite du schéma) ; des caractéristiques contraires (petites machines et bruyantes) obtenant des coordonnées négatives.

Axe 2 : Les machines disposant d’un essorage rapide (Vitesse), sont opposées aux machines bruyantes et consommant plus d’énergie.

  • La seconde composante principale va opposer les machines à essorage rapide, faible niveau sonore et faible consommation (coordonnées négatives - en bas), à celles bruyantes et consommant plus et disposant d’un essorage moins rapide (coordonnés positives - en haut). Cet axe semble donc décrire la qualité d’essorage dans le silence des lave-linges. L’essorage et le bruit étant des caractéristiques importantes pour la sélection d’une machine à laver, cet axe pourrait même être considéré comme représentant la qualité globale.

Note : Malgré une représentation de faible qualité et donc avec toutes les précautions nécessaires, mais au regard de la matrice des corrélations de Pearson et des valeurs tests, la variable Note est significativement corrélée avec Vitesse (0.5) et Prix (0.4) mais moins qu’attendu graphiquement. En revanche prix et Note sont négativement corrélés au Bruit (-0.7 et -0.6). Etrangement, si Largeur et Profondeur sont fortement corrélées à la Capacité (et au Volume) la Hauteur leur est négativement corrélée, ainsi qu’à la Vitesse. Des problématiques de stabilité pouvant peut-être intervenir.

Etude des individus

Validité de représentation des individus

Les individus étant tous à distance non nulle de l’origine (la valeur minimum de cette distance est de 1), le calcule des cos² a du sens, et son utilisation sommée sur les 2 axes utilisés est un bon critère, significatif de qualité de représentation de la position des individus sur le plan factoriel.

Contribution des individus actifs sur les axes 1 & 2

Plan factoriel avec affichage proportionnel aux contributions

Figure 5 Plan factoriel avec affichage proportionnel aux contributions

En haut à droite, les 2 machines aux fortes contributions. ### Coordonnées des individus actifs sur les axes 1 & 2
Plan factoriel avec affichage proportionnel aux cos²

Figure 6 Plan factoriel avec affichage proportionnel aux cos²

Le plan factoriel des individus actifs affiché avec des tailles du point par cos² montre que dans l’ensemble les individus sont correctement représentés dans le plan factoriel. Seuls les individus « centraux » du plan ont une somme des cos² sur les 2 axes significativement inférieure à 1.

En regardant plus attentivement, et en cherchant les 2 autres illustratifs biens cachés au milieu des individus actifs, il semblerait que 2 machines à laver sèche-linge soient dans les normes de capacité et de consommation des machines à laver classiques. Ces machines sont dans la « moyenne » des individus en termes de variable des composantes principales. Il s’agit de la machine « professionnel » très chère (mais le prix n’intervient pas dans la définition des composantes principales), et d’une machine Siemens, qui était totalement passée inaperçue jusque-là. Avec un prix élevé mais pas hors norme.

Interprétation

  • Axe 1 : Les individus sur la droite du plan (AWM1010, DYN10145DPG, F14164WH) sont toutes des machines d’une capacité supérieur à 8kg ce qui est la tranche haute (moyenne de 6.9 pour la capacité), avec des consommations d’énergies (> 1.1 kW) assez élevée. Sur la gauche du plan (EV1049, CTF1105 et WS12X460FF) sont des machines de très faibles capacités (4 et 5 kg) et ayant une faible consommation.

  • Axe 2 : Sur le demi-plan du haut les machines (AWM1010, VTT7620) sont limitées à une vitesse d’essorage de 1200 tr/min, qui est parmi les valeurs basses de cette variable. Avec 62 dB de volume sonore nous sommes bien au-delà de la moyenne (55db). Concernant AWM1010, avec 56 dB qui est dans la moyenne, c’est la consommation d’énergie avec 1.43 kWh qui justifie la position en haut du tableau. Si la variable Sécurités n’a pas beaucoup été évoquée jusque-là, car d’une représentation peu fiable, il n’empêche pas moins qu’elle participe assez significativement dans le calcul des coordonnées sur l’axe 2 (0.48). Or avec 4 Sécurités (maximum), la machine AWM1010 en dispose plus que la moyenne des autres machines. Le demi-plan du bas avec par exemple les machines (W5970WPS SILENCE, W5824 SILENCE, L98699FL) ont des vitesses d’essorage de 1600tr par min, la valeur maximum. Et des niveaux de bruits inférieurs à 50db, ce qui est très silencieux. Le fait de retrouver sur le bas du plan des machines à laver appelées « silence » d’une marquée très chère et réputée pour sa qualité (Miele) conforte l’interprétation des axes.

Coordonnées des individus illustratifs sur les axes 1 & 2

Plan factoriel avec individus illustratifs

Figure 7 Plan factoriel avec individus illustratifs

Les individus illustratifs, extrêmes, sont assez mal représentés sur le plan factoriel au regard des cos² (ils sont pourtant à bonne distance de l’origine) L’ajout sur le plan des individus illustratifs montre bien à quel point la notion de consommation (eau et électricité hors norme) est importante sur le plan. Pour rappel les individus illustratifs comportent des machines faisant aussi sèche linge. Les consommations étant alors cumulées (lavage + séchage) sur les indications de vente. Ces machines sont hors normes, elles ont des cos² cumulés sur les 2 axes très faibles. Néanmoins elles montrent bien à quel point des machines beaucoup moins économiques que la moyenne se retrouvent placées très en haut à droite du plan factoriel.

En regardant plus attentivement, et en cherchant les 2 autres illustratifs biens cachés au milieu des individus actifs, il semblerait que 2 machines à laver sèche-linge soient dans les normes de capacité et de consommation des machines à laver classiques.

Ces machines sont dans la « moyenne » des individus en termes de variable des composantes principales. Il s’agit de la machine « professionnel » très chère (mais le prix n’intervient pas dans la définition des composantes principales), et d’une machine Siemens, qui était totalement passée inaperçue jusque-là. Avec un prix élevé mais pas hors norme.

Coordonnées des modalités illustratives et valeurs tests

Modalités illustratives proportionnelles aux valeurs tests

Figure 8 Modalités illustratives proportionnelles aux valeurs tests

Le mode de Vente et les Couleurs ne sont pas interprétées, les valeurs tests étant trop faibles sur les deux premiers axes.

  • Les marques :

    • Les marques LG et Proline sont opposées sur le premier axe, LG produisant plutôt des grosses machines et Proline des petites.
    • Sur le second axe, AEG et MIELE sont assez proches (essorage rapide, silencieuses, économiques en électricité), en opposition à Whirlpool.
  • Les pays :

    • Corée et Italie produisent des machines de grosses capacités avec des consommations en eau et électricité au dessus de la moyenne, contrairement à la Slovaquie (5 à 6 kg de capacité, 42l de tambour) et à la France (ces 2 pays fabriquant les machines ayant les plus basses consommations en eau).
    • L’Allemagne produit des machines à laver très bien positionnées sur le second axe caractérisant la vitesse d’essorage, économique et à faible volume sonore.
  • Types de moteurs :

    • Sans surprise, le moteur à induction est plutôt réservé aux grosses machines économiques et silencieuses et à grande vitesse d’essorage.
  • Types de machines :

    • L’opposition entre machines à laver de grosses et petites capacités est également très marquée sur les types de chargements : les machines à hublot sont des machines de plus grande capacité, et plus économiques en général.
  • Classes de machines :

    • Les classes « a, a+ » sont plus représentées parmi les machines de faible capacité et « peu économiques » car disposant de coordonnées négatives sur l’axe 1.
    • « a » apparaît même être une classe caractéristique des machines bruyantes et à faible vitesse d’essorage (coordonnée positive sur l’axe 2).
    • « a+++ » caractérise par contre la « nouvelle référence » d’échelle d’économie d’énergie, puisqu’elle est économique malgré des grosses capacités de lavages et des vitesses rapides d’essorages, dans un possible silence à l’utilisation.

Autres Graphiques

Notes moyennes données aux machines par les acheteurs

Figure 9 Notes moyennes données aux machines par les acheteurs (rouge < 4 sur 5, vert > 4.5 sur 5)

Etant donné l’intérêt initial porté aux notes moyennes données par les acheteurs, et faute d’avoir trouvé un axe sur lequel cette variable était bien représentée, il est tout de même possible de représenter manuellement sur le plan les individus en tenant compte des notes. L’image suivante représente donc l’ensemble des individus actifs, pour lesquels une sélection des variables par liste, suivi d’un habillage spécifique ont été réalisés. En rouge sont représentés les individus ayant une note inférieures à 4, et en vert ceux ayant une note supérieure à 4.5. La répartition des couleurs fait apparaître quelques points qui semblent mal positionnés, placés au milieu d’îlots d’une autre couleur. Il pourrait être intéressant de refaire l’ACP avec ces individus en illustratifs.

Conclusion

L’ACP fonctionne assez bien sur cet exemple des machines à laver, et il est probable que l’approche puisse être utilisable pour de nombreux achat sur internet. Si la réalisation d’un fichier de donnée n’était aussi fastidieuse faute de site internet ne proposant pas d’export de type Excel, cela offre tout de même un très bon moyen d’information des consommateurs.

En se basant sur le cercle des corrélations et le plan factoriel principal, il devient beaucoup plus simple d’identifier des individus aux caractéristiques proches. Et par la même en « navigant » qui à gauche, qui en haut, d’un individu à l’autre d’affiner un choix précisément, en sachant très vite comment se déplacer sur le plan pour privilégier une caractéristique par rapport à une autre (si bien sûr elle est représentée dans le plan).

Il reste néanmoins l’aspect « subjectif » tel la marque ou le pays de fabrication, qui n’est pas adapté à l’ACP. Il faudrait de plus revoir l’utilisation de la variable « prix » dont l’importance comme critère est sans doute déterminant pour beaucoup d’acheteurs.

Par contre, il n’est pas possible de conclure sur la fiabilité des « notes acheteurs », cette variable n’étant pas correctement représenté dans cette étude.

Continuer avec la Classification

(2106 mots)