Ce projet vise à répondre à la problématique suivante : peut-on prédire la prévalence des maladies respiratoires en fonction du département, de la classe d'âge, du sexe, du niveau prioritaire et des niveaux d'O₃ ? Pour cela, nous avons analysé les données relatives à la qualité de l'air et aux maladies respiratoires dans la région parisienne, en réalisant une exploration approfondie des données, un prétraitement (incluant le nettoyage et l'encodage des variables), ainsi des modélisations prédictives .
Le projet est divisé en plusieurs étapes, présentées dans différents fichiers de notebook ou scripts Python.
- Chargement et inspection des données (fichiers CSV relatifs à la qualité de l'air et aux pathologies).
- Visualisation des distributions et détection des valeurs manquantes.
- Transformation et agrégation des données par département et par année.
- Analyse descriptive initiale des variables (distributions, statistiques descriptives).
- Analyse descriptive post-prétraitement pour valider la cohérence des transformations.
- Traitement des valeurs manquantes par imputation ou suppression.
- Encodage des variables qualitatives (One-Hot Encoding pour les départements et les tranches d'âge, transformation binaire pour le sexe).
- Fusion des différentes sources de données en un dataset unifié (principal_data4).
- Séparation des données en ensembles d'entraînement et de test.
- Entraînement d’un modèle Random Forest pour prédire la prévalence des maladies respiratoires (à partir des indices de qualité de l'air et des autres variables).
- Évaluation du modèle (évaluation de la performance avec le score R² pour la régression).
- Visualisation des performances du modèle sur le jeu de test.
- Analyse des features importantes dans le modèle Random Forest (Feature Importance).
- Recommandations basées sur les résultats obtenus.
- Python 3.8+
- Librairies Python :
- pandas
- numpy
- matplotlib
- seaborn
- scikit-learn
- missingno
- openpyxl
Pour installer les dépendances, utilisez le fichier requirements.txt :
pip install -r requirements.txt-
Qualité de l'air :
- Fichier :
departement_means.csv - Contient les indices de pollution (émissions de NO2, PM10, O3) par département en Ile-de-France.
- Fichier :
-
Pathologies respiratoires :
- Fichier :
effectifs (4).csv - Contient les statistiques sur les maladies respiratoires par département, tranche d’âge et sexe.
- Fichier :
-
Dataset final :
- Fichier généré :
principal_data.csv - Fusion des données ci-dessus après nettoyage et transformation.
- Fichier généré :
Les algorithmes suivants ont été utilisés pour prédire la variable cible prev (prévalence des maladies respiratoires) :
Random ForestXGBoostSVM (Support Vector Machine)
n_estimators=300max_depth=Nonemax_features': 'sqrtmin_samples_leaf': 1min_samples_split': 2
-
Clonez ce dépôt.
-
Placez les fichiers de données dans le dossier
data/. -
Exécutez les notebooks dans l’ordre suivant :
qualite_aireanalyse_exploratoire.ipynbmodélisation.ipynb
-
Consultez les visualisations et les résultats .
Ce projet est sous licence Open Database License (ODbL).
EL GHAOUTH MOHAMED MAHMOUDTANGOUO KUETE IvanaMAKAMWE Pierrette Josiane