Python | Exploration et Analyse du Catalogue Netflix | Pandas + Seaborn + Matplotlib
Ce projet consiste en une analyse exploratoire complète du catalogue Netflix.
À partir du fichier netflix.csv, nous avons nettoyé, transformé et analysé les données afin de comprendre la répartition des contenus (Films vs Séries), leur origine géographique, les genres dominants, les classifications d’âge et l’évolution du catalogue au fil des années.
L’objectif est de fournir des insights actionnables pour mieux comprendre la stratégie de contenu de Netflix.
- Nettoyer et préparer les données (gestion des valeurs manquantes, splitting des colonnes multi-valuées, correction des types)
- Analyser la répartition des contenus (Films / TV Shows)
- Identifier les pays, genres et classifications les plus représentés
- Étudier l’évolution du catalogue Netflix année par année
- Extraire des recommandations stratégiques
- Python 3
- Pandas pour le nettoyage et l’analyse
- Matplotlib & Seaborn pour les visualisations
- Jupyter Notebook (
main.ipynb)
-
Nettoyage des données
- Gestion des valeurs manquantes
- Conversion de
date_addeden format datetime - Séparation des colonnes
listed_inetcountryen listes - Correction des valeurs de
durationmal placées dansrating - Création de nouvelles colonnes :
year_date_added,month_date_added,movie_duration
-
Analyse Exploratoire
- Répartition Films vs TV Shows
- Distribution des classifications (ratings)
- Évolution du nombre de contenus ajoutés par année
- Top pays producteurs
- Top genres / catégories
- Le catalogue est largement dominé par les Films (environ 6131 films contre moins de séries).
- Les genres les plus représentés sont :
International Movies, International TV Shows, Dramas et Comedies. - Les 3 principaux pays de production sont : États-Unis, Inde et Royaume-Uni.
- Forte croissance du catalogue entre 2011 et 2021, particulièrement pour les séries.
- Le nombre de contenus ajoutés par an a connu une hausse significative jusqu’en 2019-2020.
- Mettre davantage l’accent sur le développement des séries TV, car elles génèrent potentiellement plus de temps de visionnage et donc plus de valeur pour la plateforme.
- Diversifier les contenus au-delà des États-Unis en explorant davantage de productions issues d’autres pays pour enrichir l’offre internationale.
- Continuer à investir dans les genres Drama et Comédie qui restent très populaires.
# 1. Cloner le repository
git clone https://github.com/Data-Analysis-Hub/netflix-catalog-analysis.git
# 2. Créer et activer l'environnement virtuel
python -m venv .venv
source .venv/bin/activate # Windows : .venv\Scripts\activate
# 3. Installer les dépendances
pip install -r requirements.txt
# 4. Lancer le notebook
jupyter notebook main.ipynb
📌 Fichiers Importants
main.ipynb → Analyse complète avec visualisations
cleaned_netflix.csv → Dataset nettoyé et prêt à l’emploi
Auteur : Hamza KHIAR
Date : Avril 2026
Outil : Python (Pandas, Seaborn, Matplotlib)
Portfolio Data Analyst