Este repositorio contiene todos los materiales para la capacitación en Arquitectura de Datos con SQL y Databricks. El curso está diseñado para llevar a los participantes desde los fundamentos del SQL y el diseño relacional hasta convertirse en arquitectos de datos capaces de diseñar, optimizar y mantener sistemas de datos modernos en un entorno de Lakehouse.
El enfoque principal es cambiar la mentalidad de un "escritor de consultas" a un "diseñador de sistemas de datos", haciendo un fuerte énfasis en el rendimiento, la gobernanza y la creación de valor para el negocio.
Este curso está dirigido a:
- Analistas de Datos y BI que deseen profundizar en la ingeniería y arquitectura de datos.
- Desarrolladores de Software que trabajen con bases de datos y quieran entender los principios de los sistemas analíticos.
- Ingenieros de Datos Junior que busquen consolidar sus conocimientos en optimización y diseño en Databricks.
- Conocimiento básico de SQL (
SELECT,FROM,WHERE). - Comprensión fundamental de los conceptos de bases de datos.
- No se requiere experiencia previa en Databricks o Spark.
El curso se divide en 7 sesiones, cada una construida sobre la anterior:
- Sesión 1: Fundamentos del Diseño Relacional
- Normalización, Llaves Primarias y Foráneas, y Diagramas ERD.
- Sesión 2: Del Origen a la Plata - Construyendo Confianza
- Arquitectura Medallion (Bronce a Plata), Delta Lake, y técnicas de auditoría (
TIME TRAVEL, CDF).
- Arquitectura Medallion (Bronce a Plata), Delta Lake, y técnicas de auditoría (
- Sesión 3: El Arte de la Optimización Física
- Planes de Ejecución (
EXPLAIN), Particionamiento y Z-Ordering.
- Planes de Ejecución (
- Sesión 4: SQL Analítico Avanzado
CTEs(Common Table Expressions) y Funciones de Ventana.
- Sesión 5: Creando Valor de Negocio (Capa Oro)
- Diseño de tablas agregadas y vistas materializadas para consumo de BI.
- Sesión 6: Automatización y Pipelines de Datos
- Construcción de pipelines de extremo a extremo en Databricks.
- Sesión 7: Más Allá de lo Relacional
- Introducción a modelos de datos alternativos (NoSQL, Grafos).
- Cuadernos de Trabajo: Cada sesión tiene una carpeta dedicada (ej.
sesion_1_diseno_relacional/) que contiene los cuadernos de Databricks (.ipynb) y cualquier material de apoyo. - Presentaciones Interactivas: Todas las diapositivas del curso están disponibles en línea en el siguiente portal:
Este proyecto se distribuye bajo la Licencia MIT. Puedes ver los detalles completos en el archivo LICENSE.
Carlos Izainea
- Correo:
cizaineam@gmail.com