Skip to content

Data-Analysis-Hub/netflix-catalog-analysis

Repository files navigation

Netflix Catalog Analysis

Python | Exploration et Analyse du Catalogue Netflix | Pandas + Seaborn + Matplotlib

📋 Contexte du Projet

Ce projet consiste en une analyse exploratoire complète du catalogue Netflix.
À partir du fichier netflix.csv, nous avons nettoyé, transformé et analysé les données afin de comprendre la répartition des contenus (Films vs Séries), leur origine géographique, les genres dominants, les classifications d’âge et l’évolution du catalogue au fil des années.

L’objectif est de fournir des insights actionnables pour mieux comprendre la stratégie de contenu de Netflix.

🎯 Objectifs

  • Nettoyer et préparer les données (gestion des valeurs manquantes, splitting des colonnes multi-valuées, correction des types)
  • Analyser la répartition des contenus (Films / TV Shows)
  • Identifier les pays, genres et classifications les plus représentés
  • Étudier l’évolution du catalogue Netflix année par année
  • Extraire des recommandations stratégiques

🛠️ Technologies et Outils

  • Python 3
  • Pandas pour le nettoyage et l’analyse
  • Matplotlib & Seaborn pour les visualisations
  • Jupyter Notebook (main.ipynb)

🔄 Principales Étapes de Traitement

  1. Nettoyage des données

    • Gestion des valeurs manquantes
    • Conversion de date_added en format datetime
    • Séparation des colonnes listed_in et country en listes
    • Correction des valeurs de duration mal placées dans rating
    • Création de nouvelles colonnes : year_date_added, month_date_added, movie_duration
  2. Analyse Exploratoire

    • Répartition Films vs TV Shows
    • Distribution des classifications (ratings)
    • Évolution du nombre de contenus ajoutés par année
    • Top pays producteurs
    • Top genres / catégories

📊 Insights Clés

  • Le catalogue est largement dominé par les Films (environ 6131 films contre moins de séries).
  • Les genres les plus représentés sont :
    International Movies, International TV Shows, Dramas et Comedies.
  • Les 3 principaux pays de production sont : États-Unis, Inde et Royaume-Uni.
  • Forte croissance du catalogue entre 2011 et 2021, particulièrement pour les séries.
  • Le nombre de contenus ajoutés par an a connu une hausse significative jusqu’en 2019-2020.

💡 Recommandations

  • Mettre davantage l’accent sur le développement des séries TV, car elles génèrent potentiellement plus de temps de visionnage et donc plus de valeur pour la plateforme.
  • Diversifier les contenus au-delà des États-Unis en explorant davantage de productions issues d’autres pays pour enrichir l’offre internationale.
  • Continuer à investir dans les genres Drama et Comédie qui restent très populaires.

🚀 Comment exécuter le projet

# 1. Cloner le repository
git clone https://github.com/Data-Analysis-Hub/netflix-catalog-analysis.git

# 2. Créer et activer l'environnement virtuel
python -m venv .venv
source .venv/bin/activate    # Windows : .venv\Scripts\activate

# 3. Installer les dépendances
pip install -r requirements.txt

# 4. Lancer le notebook
jupyter notebook main.ipynb


📌 Fichiers Importants

main.ipynb → Analyse complète avec visualisations
cleaned_netflix.csv → Dataset nettoyé et prêt à l’emploi

Auteur : Hamza KHIAR
Date : Avril 2026
Outil : Python (Pandas, Seaborn, Matplotlib)
Portfolio Data Analyst