thumbnail logo Comparer des articles avant achat : un exemple concret de BigData

Les 4 billets précédents décrivent une étude ACP complète et permettront à ceux qui sont intéressés de trouver l’étude complète. Pour ceux qui cherchent plus simplement à comprendre ce que l’on appelle le « datamining », le « BigData » étant essentiellement la même chose sur des données plus nombreuses, voici un résumé. L’exemple choisi : comparer des machines à laver à partir d’un site internet : j’ai 59 machines et 22 colonnes contenant des informations diverses.

thumbnail logo L’Analyse en Composantes Principales (ACP) : les bases du data mining et du BigData

Suite de l’Analyse statistique élémentaire Analyse en composantes principales Les statistiques sommaires réalisées sur les variables continues montrent de fortes différences d’ordre de grandeur entre les variables (les écarts-types, médianes, min max). Comme on ne souhaite ni privilégier ni négliger aucune des variables lors de cette étude : une ACP normée est privilégiée. Valeurs propres et choix des axes Valeurs propres et choix des axes La « règle du coude » m’encourage à ne retenir que les 2 premiers axes qui portent presque 65% de l’information.