Desarrollo de un pipeline de datos robusto (ETL/ELT) para procesar datos virales asimétricos de YouTube, transformándolos en una Capa Gold (Capa Semántica) lista para un tablero de Business Intelligence ejecutivo (Tableau/Power BI).
Stakeholder Simulado: Sterling & Draper (Agencia de Publicidad). Misión: Automatizar el análisis de tendencias regionales y categóricas para direccionar pautas publicitarias basadas en comportamiento real.
- Market Share por Categoría (%): Distribución del volumen viral.
- Inteligencia Geográfica: Detección de patrones en Estados Unidos frente al bloque global.
- Stickiness (Consistencia): Retención y ciclo de vida de una tendencia (Días consecutivos).
- Estacionalidad: Impacto del fin de semana en la detonación de contenido viral.
Para acompañar la robustez de la arquitectura de datos, los resultados (data/processed) alimentan directamente una herramienta de BI para la toma de decisiones gerencial.
Adicionalmente, puede interactuar con la Visualización en Tableau Public o revisar los archivos originales alojados en la carpeta dashboards/ del repositorio.
Hallazgos Clave Identificados:
- Las categorías de Entertainment y Music acaparan abrumadoramente el Market Share global.
- Estados Unidos (
US) representa el mayor volumen individual por país frente al resto. - Nota Arquitectónica: La persistencia de datos virales (Stickiness) fue agregada asumiendo consistencia diaria por categoría en las visualizaciones de negocio.
- Impacto de Negocio: La automatización del pipeline reduce el tiempo de ingesta, limpieza y generación de reportes para el equipo de marketing de horas de trabajo manual a segundos de ejecución.
| Capa / Funcionalidad | Herramienta / Estándar | Detalles Técnicos |
|---|---|---|
| Core | Python 3.12+ | Lógica base y orquestación. |
| Data Processing | Pandas 3.0+ | Motor principal habilitado con Copy-on-Write (CoW). |
| Performance Backend | PyArrow | Inferencia estricta para máxima compresión (dtype_backend="pyarrow"). |
| Arquitectura Modular | PEP 8 / PEP 484 | Desacoplamiento de scripts (src/) ejecutados desde Jupyter. Type Hinting. |
| Data Sink (Export) | Parquet & CSV | Formato dual (Alto rendimiento local vs Accesibilidad Tableau Public). |
graph LR
A[data/raw] -->|ingest.py| B(Validación PyArrow)
B -->|transform.py| C(Limpieza & Feature Engineering)
C --> D[data/processed]
D -->|Parquet/CSV| E[Tableau / Power BI]
style A fill:#e1f5fe,stroke:#01579b,stroke-width:2px,color:#000000
style D fill:#e8f5e9,stroke:#1b5e20,stroke-width:2px,color:#000000
style E fill:#fff3e0,stroke:#e65100,stroke-width:2px,color:#000000
yt_trends_analytics_pipeline/
├── dashboards/ # Reportes visuales, consultas clave y archivos de BI (.pbix, .pdf)
├── data/
│ ├── raw/ # Datos originales sin procesar (inmutables)
│ └── processed/ # Datos limpios y estructurados (.parquet y .csv)
├── notebooks/ # Orquestación iterativa
│ └── trends_data_cleaning.ipynb # Limpieza y visualización preliminar
├── src/ # Código fuente de lógica de datos
│ ├── ingest.py # Funciones de validación e ingesta eficiente
│ ├── transform.py # Lógica matemática de limpieza y preprocesamiento
│ ├── charts.py # Módulos para pruebas visuales en notebook
│ └── utils.py # Configuraciones globales y manejo de rutas
├── .gitignore # Archivos ignorados por git
├── environment.yml # Dependencias Conda (Aisladas)
├── LICENSE # Licencia MIT
├── requirements.txt # Dependencias Pip
└── README.md # Documentación del proyecto
La paquetería está aislada siguiendo estándares de reproducibilidad.
# 1. Clonar el repositorio
git clone https://github.com/IsaacEx/yt-trends-dashboard-pipeline.git
# 2. Configurar entorno (Recomendado Conda)
conda env create -f environment.yml
# 3. Alternativa para Pip
pip install -r requirements.txt
# 4. Ejecutar el orquestador
jupyter nbconvert --execute notebooks/trends_data_cleaning.ipynb- Autor: Isaac Esteban Martínez Ortega - Business & Data Analyst
- Licencia: Este proyecto está bajo la Licencia MIT. Consulta el archivo
LICENSEpara más detalles.