YOUTUBE TRENDS ANALYTICS PIPELINE: DATA TO INSIGHTS

Desarrollo de un pipeline de datos robusto (ETL/ELT) para procesar datos virales asimétricos de YouTube, transformándolos en una Capa Gold (Capa Semántica) lista para un tablero de Business Intelligence ejecutivo (Tableau/Power BI).

Stakeholder Simulado: Sterling & Draper (Agencia de Publicidad). Misión: Automatizar el análisis de tendencias regionales y categóricas para direccionar pautas publicitarias basadas en comportamiento real.

🎯 Objetivos Analíticos y KPIs

Market Share por Categoría (%): Distribución del volumen viral.
Inteligencia Geográfica: Detección de patrones en Estados Unidos frente al bloque global.
Stickiness (Consistencia): Retención y ciclo de vida de una tendencia (Días consecutivos).
Estacionalidad: Impacto del fin de semana en la detonación de contenido viral.

📊 Dashboard Interactivo & Hallazgos

Para acompañar la robustez de la arquitectura de datos, los resultados (data/processed) alimentan directamente una herramienta de BI para la toma de decisiones gerencial.

Tip

👉 HAZ CLIC AQUÍ PARA EXPLORAR EL DASHBOARD DETALLADO EN POWER BI (Formato PDF)

Adicionalmente, puede interactuar con la Visualización en Tableau Public o revisar los archivos originales alojados en la carpeta dashboards/ del repositorio.

Hallazgos Clave Identificados:

Las categorías de Entertainment y Music acaparan abrumadoramente el Market Share global.
Estados Unidos (US) representa el mayor volumen individual por país frente al resto.
Nota Arquitectónica: La persistencia de datos virales (Stickiness) fue agregada asumiendo consistencia diaria por categoría en las visualizaciones de negocio.
Impacto de Negocio: La automatización del pipeline reduce el tiempo de ingesta, limpieza y generación de reportes para el equipo de marketing de horas de trabajo manual a segundos de ejecución.

🛠️ Stack Tecnológico y Arquitectura

Capa / Funcionalidad	Herramienta / Estándar	Detalles Técnicos
Core	Python 3.12+	Lógica base y orquestación.
Data Processing	Pandas 3.0+	Motor principal habilitado con Copy-on-Write (CoW).
Performance Backend	PyArrow	Inferencia estricta para máxima compresión (`dtype_backend="pyarrow"`).
Arquitectura Modular	PEP 8 / PEP 484	Desacoplamiento de scripts (`src/`) ejecutados desde Jupyter. Type Hinting.
Data Sink (Export)	Parquet & CSV	Formato dual (Alto rendimiento local `vs` Accesibilidad Tableau Public).

Diagrama de Flujo del Pipeline

graph LR
    A[data/raw] -->|ingest.py| B(Validación PyArrow)
    B -->|transform.py| C(Limpieza & Feature Engineering)
    C --> D[data/processed]
    D -->|Parquet/CSV| E[Tableau / Power BI]
    style A fill:#e1f5fe,stroke:#01579b,stroke-width:2px,color:#000000
    style D fill:#e8f5e9,stroke:#1b5e20,stroke-width:2px,color:#000000
    style E fill:#fff3e0,stroke:#e65100,stroke-width:2px,color:#000000

📁 Estructura del Repositorio

yt_trends_analytics_pipeline/
├── dashboards/          # Reportes visuales, consultas clave y archivos de BI (.pbix, .pdf)
├── data/
│   ├── raw/             # Datos originales sin procesar (inmutables)
│   └── processed/       # Datos limpios y estructurados (.parquet y .csv)
├── notebooks/           # Orquestación iterativa
│   └── trends_data_cleaning.ipynb     # Limpieza y visualización preliminar 
├── src/                 # Código fuente de lógica de datos
│   ├── ingest.py        # Funciones de validación e ingesta eficiente
│   ├── transform.py     # Lógica matemática de limpieza y preprocesamiento
│   ├── charts.py        # Módulos para pruebas visuales en notebook
│   └── utils.py         # Configuraciones globales y manejo de rutas
├── .gitignore           # Archivos ignorados por git
├── environment.yml      # Dependencias Conda (Aisladas)
├── LICENSE              # Licencia MIT
├── requirements.txt     # Dependencias Pip
└── README.md            # Documentación del proyecto

🚀 Reproducibilidad

La paquetería está aislada siguiendo estándares de reproducibilidad.

# 1. Clonar el repositorio
git clone https://github.com/IsaacEx/yt-trends-dashboard-pipeline.git

# 2. Configurar entorno (Recomendado Conda)
conda env create -f environment.yml

# 3. Alternativa para Pip
pip install -r requirements.txt

# 4. Ejecutar el orquestador
jupyter nbconvert --execute notebooks/trends_data_cleaning.ipynb

✒️ Autor y Licencia

Autor: Isaac Esteban Martínez Ortega - Business & Data Analyst
Licencia: Este proyecto está bajo la Licencia MIT. Consulta el archivo LICENSE para más detalles.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

YOUTUBE TRENDS ANALYTICS PIPELINE: DATA TO INSIGHTS

🎯 Objetivos Analíticos y KPIs

📊 Dashboard Interactivo & Hallazgos

🛠️ Stack Tecnológico y Arquitectura

Diagrama de Flujo del Pipeline

📁 Estructura del Repositorio

🚀 Reproducibilidad

✒️ Autor y Licencia

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
dashboards		dashboards
data		data
notebooks		notebooks
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
environment.yml		environment.yml
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

YOUTUBE TRENDS ANALYTICS PIPELINE: DATA TO INSIGHTS

🎯 Objetivos Analíticos y KPIs

📊 Dashboard Interactivo & Hallazgos

🛠️ Stack Tecnológico y Arquitectura

Diagrama de Flujo del Pipeline

📁 Estructura del Repositorio

🚀 Reproducibilidad

✒️ Autor y Licencia

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages