STA 101 Analyse des données : méthodes descriptives et
Ce billet présente l’examen final du cours STA 101 Analyse des données : méthodes descriptives du CNAM Paris suivi en 2011. Ce cours demande des bases mathématiques correctes (Algèbre linéaire et statistiques), et les enseignants sont réellement très pédagogues. Je résume ici l’ACP livrée comme examen final, qui représente un cas possible d’usage.
Le principe de l’ACP est d’identifier les liens possibles entre plusieurs données et de résumer l’information, permettant ainsi son analyse.
Comparaison de produits sur internet
La recherche d’un jeu de données adapté au projet STA 101 a coïncidé avec un besoin personnel d’achat d’un lave-linge. Après avoir passé plusieurs jours sur des sites internet à comparer des produits nombreux et variés, je me suis demandé ce qu’une méthode descriptive d’analyse de données pouvait apporter sur un processus simple de comparaison de produit avant achat.
En complément, ayant toujours été intrigué par les systèmes de « notes utilisateurs » des sites internet, j’essayerai de comprendre sur quels critères les acheteurs se basent pour donner une note, et si je peux désormais m’y fier.
Jeu de données
Il provient d’une saisie manuelle de toutes les caractéristiques présentes sur le site Darty, dans un tableur. Il contient 60 lignes et 22 colonnes de caractéristiques soit 59 modèles différents de machines à laver.
Description des variables
La première étape d’une ACP consiste à identifier l’usage des caractéristiques disponibles. Certaines sont numériques et permettent donc des calculs, parmi ces caractéristiques certaines peuvent influencer les résultats sans apporter de valeur à l’étude (elles seront appelées illustratives). Certains individus (lignes) peuvent également ne pas être utilisés pour les calculs, afin de ne pas brouiller les pistes. Dans mon cas les machines professionnelles sont exclues.
Variables actives
Nom de colonne complet | Nom de colonne abrégé | Description | Type de données |
---|---|---|---|
Avis client (nb) | AVIS | Nombre d’avis client consultables | Quantitative |
Capacité (kg) | CAPACITE | Capacité en kg | Quantitative Continue |
Volume du tambour (l) | VOLUME | Volume du tambour en litres | Quantitative Continue |
Vitesse d’essorage (tr/min) | VITESSE | Vitesse d’essorage (en tour par minutes) | Quantitative Continue |
Consommation d’énergie | ENERGIE | Consommation d’énergie électrique (kW / cycle) | Quantitative Continue |
Consommation d’eau (60°C coton) | EAU | Consommation d’eau en litres (lavage 60°C coton) | Quantitative Continue |
Niveau sonore dB | BRUIT | Niveau sonore en dB | Quantitative Continue |
Nb de sécurités | SECURITE | Nombre de sécurités (enfants, inondation, etc.…) | Quantitative |
Variables illustratives
Avec le recul de ma première méthode de comparaison des lave-linges, j’ai décidé d’utiliser 5 des variables quantitatives en variables illustratives :
- La note : qui est un des critères que je souhaite particulièrement observer.
- Le prix : qui est une combinaison non objective et complexe de multiples facteurs.
- Hauteur, largeur et profondeur : ces critères n’ont à mon avis de sens pour faire un choix d’achat que dans des conditions très particulières (un espace limité entre 2 meubles par exemple), mais ne sont pas utilisés pour faire un choix dans les autres cas, étant donné la normalisation des tailles ; les machines devant être relativement compatibles en dimensions pour tenir dans des agencements prédéfinis. Qui souhaite acheter un lave-linge de 84 cm de haut ? Et dans les cas où l’on cherche une machine de 45 cm de largeur, très peu de modèles sont disponibles. Comme de plus le volume du tambour de la machine est déjà une variable active, et qu’il devrait dépendre d’une combinaison de ces 3 dimensions, je ne souhaite pas les utiliser directement.
Nom de colonne complet | Nom de colonne abrégé | Description | Type de données |
---|---|---|---|
Marque | MARQUE | Marque du constructeur | Nominale |
Moteur | MOTEUR | électrique,Induction, | Pro |
Couleur | COULEUR | Nominale | |
Type | TYPE | Nominale | |
Prix | PRIX | Prix en EUR | Quantitative Continue |
Classe énergétique | CLASSE | Classe énergétique | Nominale |
Hauteur | HAUTEUR | Dimension en cm | Quantitative Continue |
Largeur | LARGEUR | Dimension en cm | Quantitative Continue |
Profondeur | PROFONDEUR | Dimension en cm | Quantitative Continue |
Note (sur 5) | NOTE | Note moyenne entre 0 et 5. | Quantitative |
Pays Origine | PAYS | Pays indicatif de construction | Nominale |
Vente | VENTE | Pour préciser les machines uniquement vendues sur Internet | Nominale |