thumbnail logo Classification non supervisée - CNAM STA101

STA 101 : Classification Suite de l’Analyse en Composantes Principales La classification est une méthode non objective de réduction des dimensions sur les individus. L’objectif est de pouvoir parler de classes d’individus, qui ne seront ni basées sur les marques ni sur les prix, mais par un nouveau critère, fictif mais homogène, basé sur la proximité des individus par variables dans l’espace. La classification naturelle d’un produit de grande consommation est souvent réalisée en 3 classes :

thumbnail logo Comparer des articles avant achat : un exemple concret de BigData

Les 4 billets précédents décrivent une étude ACP complète et permettront à ceux qui sont intéressés de trouver l’étude complète. Pour ceux qui cherchent plus simplement à comprendre ce que l’on appelle le « datamining », le « BigData » étant essentiellement la même chose sur des données plus nombreuses, voici un résumé. L’exemple choisi : comparer des machines à laver à partir d’un site internet : j’ai 59 machines et 22 colonnes contenant des informations diverses.

thumbnail logo L’Analyse en Composantes Principales (ACP) : les bases du data mining et du BigData

Suite de l’Analyse statistique élémentaire Analyse en composantes principales Les statistiques sommaires réalisées sur les variables continues montrent de fortes différences d’ordre de grandeur entre les variables (les écarts-types, médianes, min max). Comme on ne souhaite ni privilégier ni négliger aucune des variables lors de cette étude : une ACP normée est privilégiée. Valeurs propres et choix des axes Valeurs propres et choix des axes La « règle du coude » m’encourage à ne retenir que les 2 premiers axes qui portent presque 65% de l’information.

thumbnail logo CNAM STA 101 : Analyse statistique élémentaire

STA 101 : Analyse statistique élémentaire Suite de CNAM STA 101 Analyse des données : méthodes descriptives Résumé graphique des variables continues Figure 1 Boites de dispersion des variables continues Résumé graphique des variables nominales Figure 2 Secteurs circulaires des variables nominales Les variables nominales ont des disparités importantes en nombre de catégories (entre 2 pour les types de moteurs et 16 pour les pays de fabrication).

thumbnail logo CNAM STA 101 Analyse des données : méthodes descriptives

STA 101 Analyse des données : méthodes descriptives et Ce billet présente l’examen final du cours STA 101 Analyse des données : méthodes descriptives du CNAM Paris suivi en 2011. Ce cours demande des bases mathématiques correctes (Algèbre linéaire et statistiques), et les enseignants sont réellement très pédagogues. Je résume ici l’ACP livrée comme examen final, qui représente un cas possible d’usage. Le principe de l’ACP est d’identifier les liens possibles entre plusieurs données et de résumer l’information, permettant ainsi son analyse.