STA 101 Analyse des données : méthodes descriptives et

Ce billet présente l’examen final du cours STA 101 Analyse des données : méthodes descriptives du CNAM Paris suivi en 2011. Ce cours demande des bases mathématiques correctes (Algèbre linéaire et statistiques), et les enseignants sont réellement très pédagogues. Je résume ici l’ACP livrée comme examen final, qui représente un cas possible d’usage.

Le principe de l’ACP est d’identifier les liens possibles entre plusieurs données et de résumer l’information, permettant ainsi son analyse.

Comparaison de produits sur internet

La recherche d’un jeu de données adapté au projet STA 101 a coïncidé avec un besoin personnel d’achat d’un lave-linge. Après avoir passé plusieurs jours sur des sites internet à comparer des produits nombreux et variés, je me suis demandé ce qu’une méthode descriptive d’analyse de données pouvait apporter sur un processus simple de comparaison de produit avant achat.

En complément, ayant toujours été intrigué par les systèmes de « notes utilisateurs » des sites internet, j’essayerai de comprendre sur quels critères les acheteurs se basent pour donner une note, et si je peux désormais m’y fier.

Jeu de données

Il provient d’une saisie manuelle de toutes les caractéristiques présentes sur le site Darty, dans un tableur. Il contient 60 lignes et 22 colonnes de caractéristiques soit 59 modèles différents de machines à laver.

Description des variables

La première étape d’une ACP consiste à identifier l’usage des caractéristiques disponibles. Certaines sont numériques et permettent donc des calculs, parmi ces caractéristiques certaines peuvent influencer les résultats sans apporter de valeur à l’étude (elles seront appelées illustratives). Certains individus (lignes) peuvent également ne pas être utilisés pour les calculs, afin de ne pas brouiller les pistes. Dans mon cas les machines professionnelles sont exclues.

Variables actives

Nom de colonne complet Nom de colonne abrégé Description Type de données
Avis client (nb) AVIS Nombre d’avis client consultables Quantitative
Capacité (kg) CAPACITE Capacité en kg Quantitative Continue
Volume du tambour (l) VOLUME Volume du tambour en litres Quantitative Continue
Vitesse d’essorage (tr/min) VITESSE Vitesse d’essorage (en tour par minutes) Quantitative Continue
Consommation d’énergie ENERGIE Consommation d’énergie électrique (kW / cycle) Quantitative Continue
Consommation d’eau (60°C coton) EAU Consommation d’eau en litres (lavage 60°C coton) Quantitative Continue
Niveau sonore dB BRUIT Niveau sonore en dB Quantitative Continue
Nb de sécurités SECURITE Nombre de sécurités (enfants, inondation, etc.…) Quantitative

Variables illustratives

Avec le recul de ma première méthode de comparaison des lave-linges, j’ai décidé d’utiliser 5 des variables quantitatives en variables illustratives :

  • La note : qui est un des critères que je souhaite particulièrement observer.
  • Le prix : qui est une combinaison non objective et complexe de multiples facteurs.
  • Hauteur, largeur et profondeur : ces critères n’ont à mon avis de sens pour faire un choix d’achat que dans des conditions très particulières (un espace limité entre 2 meubles par exemple), mais ne sont pas utilisés pour faire un choix dans les autres cas, étant donné la normalisation des tailles ; les machines devant être relativement compatibles en dimensions pour tenir dans des agencements prédéfinis. Qui souhaite acheter un lave-linge de 84 cm de haut ? Et dans les cas où l’on cherche une machine de 45 cm de largeur, très peu de modèles sont disponibles. Comme de plus le volume du tambour de la machine est déjà une variable active, et qu’il devrait dépendre d’une combinaison de ces 3 dimensions, je ne souhaite pas les utiliser directement.
Nom de colonne complet Nom de colonne abrégé Description Type de données
Marque MARQUE Marque du constructeur Nominale
Moteur MOTEUR électrique,Induction, Pro
Couleur COULEUR Nominale
Type TYPE Nominale
Prix PRIX Prix en EUR Quantitative Continue
Classe énergétique CLASSE Classe énergétique Nominale
Hauteur HAUTEUR Dimension en cm Quantitative Continue
Largeur LARGEUR Dimension en cm Quantitative Continue
Profondeur PROFONDEUR Dimension en cm Quantitative Continue
Note (sur 5) NOTE Note moyenne entre 0 et 5. Quantitative
Pays Origine PAYS Pays indicatif de construction Nominale
Vente VENTE Pour préciser les machines uniquement vendues sur Internet Nominale

Continuer avec l’analyse statistique élémentaire

(667 mots)