STA 101 : Analyse statistique élémentaire

Suite de CNAM STA 101 Analyse des données : méthodes descriptives

Résumé graphique des variables continues

Boites de dispersion BoxPlot des variables continues

Figure 1 Boites de dispersion des variables continues

Résumé graphique des variables nominales

Secteurs circulaires des variables nominales

Figure 2 Secteurs circulaires des variables nominales

Les variables nominales ont des disparités importantes en nombre de catégories (entre 2 pour les types de moteurs et 16 pour les pays de fabrication). Ceci est déconseillé pour la réalisation d’une analyse des correspondances multiples. ## Nuage de Points
 Nuage de points des variables

Figure 3 Nuage de points des variables

Corrélation linéaire

Matrice des Corrélation linéaire de Pearson

Figure 4 Matrice des corrélations de Pearson

Malgré un nombre important de corrélations linéaires ayant une valeur test significative les nuages de points n’indiquant pas de relation linéaire doivent nous inciter à la prudence. Pour autant, des relations entre (pour ne citer que les corrélations >0.7 en valeur absolue) :

  • capacité et volume ou eau
  • volume et eau ou largeur
  • prix et bruit

Sont assez logiques, sans que l’on ne puisse conclure avec certitude les types de relation qui les régissent.

Conclusion

La nature des variables étudiées, tant nominales que qualitatives, décrites jusqu’ici, m’indiquent qu’une analyse en composantes principales est une méthode correctement adaptée parmi les analyses factorielles envisageables dans le cadre de ce projet.

L’étude des variables nominales (marque, moteur, couleur, type, etc.…) semblant de plus moins intéressante que l’étude des variables continues (consommation en eau et électricité, capacité, bruit, etc.). Enfin les disparités entre nombre de modalités des variables auraient un impact important sur une analyse des correspondances multiples.

Continuer avec l’Analyse en composantes principales

(258 mots)