thumbnail logo L’Analyse en Composantes Principales (ACP) : les bases du data mining et du BigData

Suite de l’Analyse statistique élémentaire Analyse en composantes principales Les statistiques sommaires réalisées sur les variables continues montrent de fortes différences d’ordre de grandeur entre les variables (les écarts-types, médianes, min max). Comme on ne souhaite ni privilégier ni négliger aucune des variables lors de cette étude : une ACP normée est privilégiée. Valeurs propres et choix des axes Valeurs propres et choix des axes La « règle du coude » m’encourage à ne retenir que les 2 premiers axes qui portent presque 65% de l’information.

thumbnail logo CNAM STA 101 : Analyse statistique élémentaire

STA 101 : Analyse statistique élémentaire Suite de CNAM STA 101 Analyse des données : méthodes descriptives Résumé graphique des variables continues Figure 1 Boites de dispersion des variables continues Résumé graphique des variables nominales Figure 2 Secteurs circulaires des variables nominales Les variables nominales ont des disparités importantes en nombre de catégories (entre 2 pour les types de moteurs et 16 pour les pays de fabrication).

thumbnail logo CNAM STA 101 Analyse des données : méthodes descriptives

STA 101 Analyse des données : méthodes descriptives et Ce billet présente l’examen final du cours STA 101 Analyse des données : méthodes descriptives du CNAM Paris suivi en 2011. Ce cours demande des bases mathématiques correctes (Algèbre linéaire et statistiques), et les enseignants sont réellement très pédagogues. Je résume ici l’ACP livrée comme examen final, qui représente un cas possible d’usage. Le principe de l’ACP est d’identifier les liens possibles entre plusieurs données et de résumer l’information, permettant ainsi son analyse.