Data Exploration and Modeling App

Data Exploration and Modeling App

Contexte du projet

Ce projet a été réalisé en binôme . Il consiste en la création et le déploiement d'une application web R Shiny, permettant :

de charger et prétraiter tout type de jeu de données,
de réaliser des analyses exploratoires,
de former et comparer des modèles de classification supervisée.

Lien vers l'application : BaseApp - Shiny App

Cas d'étude présenté

Nous avons appliqué l'application sur un jeu de données d'attrition des employés d'IBM.

1. Préparation des données

Dimensions : 1470 lignes, 13 colonnes.
Valeurs manquantes : Aucune détectée.
Outliers : Correction de 270 outliers sur les colonnes numériques pour améliorer la qualité des modèles.

2. Problème de déséquilibre des classes

La variable cible Attrition était déséquilibrée (Yes ≈ 300 vs No ≈ 1200). Des méthodes d'équilibrage ont été intégrées :

Data Level : Random Under-Sampling, Random Over-Sampling.
Algorithm Level : Cost-Sensitive Learning, One-Class Learning.

Le Random Under-Sampling s'est révélé le plus performant pour ce cas.

Analyse Exploratoire

Heatmap de corrélations : Identification des dépendances entre variables.
Analyse univariée : Étude des distributions des variables numériques et catégorielles.
Analyse bivariée : Étude de la relation entre les variables (numérique-numérique, catégorique-catégorique).

Points importants :

L'âge est un facteur discriminant de l'attrition.
Le département est significativement associé à l'attrition (p-value = 0.0045).
Le niveau d'éducation n'est pas significativement associé.

Modélisation et comparaison de modèles

Nous avons comparé plusieurs algorithmes :

Modèle Comparé	Meilleur modèle sélectionné
Random Forest vs Decision Tree	Decision Tree
Decision Tree vs KNN	KNN
KNN vs Logistic Regression	Logistic Regression
Logistic Regression vs SVM	Logistic Regression

Conclusion :
La régression logistique a fourni les meilleurs résultats sur ce jeu de données, en termes de précision, rappel, accuracy et courbe ROC.

Technologies utilisées

Langage : R
Framework : Shiny
Libraries : caret, ggplot2, dplyr, shinythemes, etc.

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
app		app
dataset		dataset
images		images
.RData		.RData
.Rhistory		.Rhistory
.gitignore		.gitignore
ProjetProgrammationWeb.Rproj		ProjetProgrammationWeb.Rproj
README.md		README.md
deploy.Rmd		deploy.Rmd
report.Rmd		report.Rmd
report.html		report.html
synthetic_healthcare_data_50000.csv		synthetic_healthcare_data_50000.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Data Exploration and Modeling App

Contexte du projet

Cas d'étude présenté

1. Préparation des données

2. Problème de déséquilibre des classes

Analyse Exploratoire

Points importants :

Modélisation et comparaison de modèles

Technologies utilisées

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

gackouhamady/ProjetProgrammationWeb

Folders and files

Latest commit

History

Repository files navigation

Data Exploration and Modeling App

Contexte du projet

Cas d'étude présenté

1. Préparation des données

2. Problème de déséquilibre des classes

Analyse Exploratoire

Points importants :

Modélisation et comparaison de modèles

Technologies utilisées

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

Packages