Les 4 billets précédents décrivent une étude ACP complète et permettront à ceux qui sont intéressés de trouver l’étude complète.

Pour ceux qui cherchent plus simplement à comprendre ce que l’on appelle le « datamining », le « BigData » étant essentiellement la même chose sur des données plus nombreuses, voici un résumé.

L’exemple choisi : comparer des machines à laver à partir d’un site internet : j’ai 59 machines et 22 colonnes contenant des informations diverses.

Le principe d’une ACP est de résumer l’information de N dimensions (les N colonnes d’un tableau Excel) vers 2 ou 3 dimensions. Imaginez un nuage de points : il faut identifier des axes sur lesquels représenter ces points : évidement on passe d’axes existants à des axes virtuels (les composantes principales) représentant des % d’informations : on a résumé l’information (on va donc forcément perdre un peu).

Obtenir des données

Obtenir des données sous une forme utilisable peut-être plus complexe que cela ne parait. Pourtant sans cela, rien de probant, il pourra être nécessaire pour affiner les résultats d’exclure des données : sans cette étape, les résultats seront moins précis (mais plus faciles à gérer en masse). Tout dépend du résultat souhaité et de son niveau de précision : rien n’est magique.

Réaliser une ACP

Calcul des valeurs propres

Elles vont permettre de définir le nombre de dimensions à conserver : l’idée étant d’en avoir le moins possible, mais cela dépend des informations…

Valeurs propres

Dans l’exemple donné, les 2 premiers axes résument 64.59% de l’information : soit 23 sur un seul graphique en 2 dimensions (facile à lire), c’est plutôt bien.

Cercle des corrélations

Cercle des Corrélations

On ne conserve que les flèches longues, et on ne regarde que celles dont la projection sur un des axes est proche de 1 (rayon du cercle). Cela permet de savoir :

1) Les « grosses » machines seront à droite (carré bleu)

2) Les machines bruyantes seront en haut, et s’opposent aux machines à essorage rapide en bas. (carrés rouges)

Un peu surprenant : les machines les plus bruyantes essorent moins vite…

Graphiques

A partir de cette étape on va pouvoir représenter les informations résumées :

Les machines sur le plan avec les informations illustratives

Plan individus modalités

Il devient possible de se concentrer sur les machines sont les caractéristiques nous intéressent (si on souhaite une grosse : voir à droite, pour les petites, voir à gauche du graphique, si l’on souhaite qu’elle soit moins bruyante, et qu’elle essore mieux plus rapidement, c’est plutôt en bas)

Les informations illustratives (marques, pays d’origine, etc…) ne permettent pas de calculs : ce ne sont pas des chiffres. Mais à partir des calculs il est tout de même possible de les représenter (en rouge) et on devient à même de rechercher la marque, les pays d’origines, etc…. qui font plutôt des grosses ou des petites machines, si l’on cherche sur ces critères.

Classification

La classification va permettre de regrouper les machines par caractéristiques, on ne sait pas à l’avance ce qui sera utilisé.

A nouveau il faut décider du niveau de détail choisi (4 dans notre exemple)

Plan Factoriel

Après analyse, on peut préciser les regroupements (classes) :

  • Classe 1 Bleu (30 machines) « petites machines, ouverture par-dessus, faible consommation »
  • Classe 2 (2 machines) « conseillé par les internautes »
  • Classe 3 Vert (19 machines) « haut de gamme »
  • Classe 4 Rouge (3 machines) « Familles nombreuses »

Ce qui peut être suffisant pour faire un premier trie avant d’entrer dans les détails.

Conclusion

L’analyse en composante principale nous permet une visualisation graphique et rapide des produits. Elle permet de découvrir des liens entre des caractéristiques qui ne sont pas naturels et que l’on ne distingue pas avec les outils de comparaison proposés par les sites internet.

La classification nous permet de regrouper des produits selon l’ensemble de leurs caractéristiques, ce qui permet de se concentrer sur les machines d’une classe particulière.

Enfin pour l’anecdote : j’aurai économisé 25% du prix en faisant cette étude avant d’acheter ma machine….

(664 mots)