Skip to content

IsaacEx/yt-trends-dashboard-pipeline

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

YOUTUBE TRENDS ANALYTICS PIPELINE: DATA TO INSIGHTS

Python Pandas PyArrow Matplotlib Seaborn


Desarrollo de un pipeline de datos robusto (ETL/ELT) para procesar datos virales asimétricos de YouTube, transformándolos en una Capa Gold (Capa Semántica) lista para un tablero de Business Intelligence ejecutivo (Tableau/Power BI).

Stakeholder Simulado: Sterling & Draper (Agencia de Publicidad). Misión: Automatizar el análisis de tendencias regionales y categóricas para direccionar pautas publicitarias basadas en comportamiento real.


🎯 Objetivos Analíticos y KPIs

  • Market Share por Categoría (%): Distribución del volumen viral.
  • Inteligencia Geográfica: Detección de patrones en Estados Unidos frente al bloque global.
  • Stickiness (Consistencia): Retención y ciclo de vida de una tendencia (Días consecutivos).
  • Estacionalidad: Impacto del fin de semana en la detonación de contenido viral.

📊 Dashboard Interactivo & Hallazgos

Para acompañar la robustez de la arquitectura de datos, los resultados (data/processed) alimentan directamente una herramienta de BI para la toma de decisiones gerencial.

Adicionalmente, puede interactuar con la Visualización en Tableau Public o revisar los archivos originales alojados en la carpeta dashboards/ del repositorio.

Hallazgos Clave Identificados:

  1. Las categorías de Entertainment y Music acaparan abrumadoramente el Market Share global.
  2. Estados Unidos (US) representa el mayor volumen individual por país frente al resto.
  3. Nota Arquitectónica: La persistencia de datos virales (Stickiness) fue agregada asumiendo consistencia diaria por categoría en las visualizaciones de negocio.
  4. Impacto de Negocio: La automatización del pipeline reduce el tiempo de ingesta, limpieza y generación de reportes para el equipo de marketing de horas de trabajo manual a segundos de ejecución.

🛠️ Stack Tecnológico y Arquitectura

Capa / Funcionalidad Herramienta / Estándar Detalles Técnicos
Core Python 3.12+ Lógica base y orquestación.
Data Processing Pandas 3.0+ Motor principal habilitado con Copy-on-Write (CoW).
Performance Backend PyArrow Inferencia estricta para máxima compresión (dtype_backend="pyarrow").
Arquitectura Modular PEP 8 / PEP 484 Desacoplamiento de scripts (src/) ejecutados desde Jupyter. Type Hinting.
Data Sink (Export) Parquet & CSV Formato dual (Alto rendimiento local vs Accesibilidad Tableau Public).

Diagrama de Flujo del Pipeline

graph LR
    A[data/raw] -->|ingest.py| B(Validación PyArrow)
    B -->|transform.py| C(Limpieza & Feature Engineering)
    C --> D[data/processed]
    D -->|Parquet/CSV| E[Tableau / Power BI]
    style A fill:#e1f5fe,stroke:#01579b,stroke-width:2px,color:#000000
    style D fill:#e8f5e9,stroke:#1b5e20,stroke-width:2px,color:#000000
    style E fill:#fff3e0,stroke:#e65100,stroke-width:2px,color:#000000
Loading

📁 Estructura del Repositorio

yt_trends_analytics_pipeline/
├── dashboards/          # Reportes visuales, consultas clave y archivos de BI (.pbix, .pdf)
├── data/
│   ├── raw/             # Datos originales sin procesar (inmutables)
│   └── processed/       # Datos limpios y estructurados (.parquet y .csv)
├── notebooks/           # Orquestación iterativa
│   └── trends_data_cleaning.ipynb     # Limpieza y visualización preliminar 
├── src/                 # Código fuente de lógica de datos
│   ├── ingest.py        # Funciones de validación e ingesta eficiente
│   ├── transform.py     # Lógica matemática de limpieza y preprocesamiento
│   ├── charts.py        # Módulos para pruebas visuales en notebook
│   └── utils.py         # Configuraciones globales y manejo de rutas
├── .gitignore           # Archivos ignorados por git
├── environment.yml      # Dependencias Conda (Aisladas)
├── LICENSE              # Licencia MIT
├── requirements.txt     # Dependencias Pip
└── README.md            # Documentación del proyecto

🚀 Reproducibilidad

La paquetería está aislada siguiendo estándares de reproducibilidad.

# 1. Clonar el repositorio
git clone https://github.com/IsaacEx/yt-trends-dashboard-pipeline.git

# 2. Configurar entorno (Recomendado Conda)
conda env create -f environment.yml

# 3. Alternativa para Pip
pip install -r requirements.txt

# 4. Ejecutar el orquestador
jupyter nbconvert --execute notebooks/trends_data_cleaning.ipynb

✒️ Autor y Licencia

  • Autor: Isaac Esteban Martínez Ortega - Business & Data Analyst
  • Licencia: Este proyecto está bajo la Licencia MIT. Consulta el archivo LICENSE para más detalles.

About

Pipeline ETL automatizado diseñado para Sterling & Draper para el análisis de tendencias de contenido en YouTube. Desarrollado con Python 3.12, Pandas 3.0 y PyArrow CoW para una refactorización de datos de alto rendimiento. Entrega insights estratégicos mediante dashboards interactivos de nivel ejecutivo.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors