Skip to content

Izainea/capacitacion_dian_usta

Repository files navigation

🎓 Capacitación: Arquitectura de Datos con SQL y Databricks

Descripción del Curso

Este repositorio contiene todos los materiales para la capacitación en Arquitectura de Datos con SQL y Databricks. El curso está diseñado para llevar a los participantes desde los fundamentos del SQL y el diseño relacional hasta convertirse en arquitectos de datos capaces de diseñar, optimizar y mantener sistemas de datos modernos en un entorno de Lakehouse.

El enfoque principal es cambiar la mentalidad de un "escritor de consultas" a un "diseñador de sistemas de datos", haciendo un fuerte énfasis en el rendimiento, la gobernanza y la creación de valor para el negocio.

🎯 Audiencia

Este curso está dirigido a:

  • Analistas de Datos y BI que deseen profundizar en la ingeniería y arquitectura de datos.
  • Desarrolladores de Software que trabajen con bases de datos y quieran entender los principios de los sistemas analíticos.
  • Ingenieros de Datos Junior que busquen consolidar sus conocimientos en optimización y diseño en Databricks.

📋 Prerrequisitos

  • Conocimiento básico de SQL (SELECT, FROM, WHERE).
  • Comprensión fundamental de los conceptos de bases de datos.
  • No se requiere experiencia previa en Databricks o Spark.

🏗️ Estructura del Curso

El curso se divide en 7 sesiones, cada una construida sobre la anterior:

  • Sesión 1: Fundamentos del Diseño Relacional
    • Normalización, Llaves Primarias y Foráneas, y Diagramas ERD.
  • Sesión 2: Del Origen a la Plata - Construyendo Confianza
    • Arquitectura Medallion (Bronce a Plata), Delta Lake, y técnicas de auditoría (TIME TRAVEL, CDF).
  • Sesión 3: El Arte de la Optimización Física
    • Planes de Ejecución (EXPLAIN), Particionamiento y Z-Ordering.
  • Sesión 4: SQL Analítico Avanzado
    • CTEs (Common Table Expressions) y Funciones de Ventana.
  • Sesión 5: Creando Valor de Negocio (Capa Oro)
    • Diseño de tablas agregadas y vistas materializadas para consumo de BI.
  • Sesión 6: Automatización y Pipelines de Datos
    • Construcción de pipelines de extremo a extremo en Databricks.
  • Sesión 7: Más Allá de lo Relacional
    • Introducción a modelos de datos alternativos (NoSQL, Grafos).

🚀 Cómo Utilizar este Repositorio

  • Cuadernos de Trabajo: Cada sesión tiene una carpeta dedicada (ej. sesion_1_diseno_relacional/) que contiene los cuadernos de Databricks (.ipynb) y cualquier material de apoyo.
  • Presentaciones Interactivas: Todas las diapositivas del curso están disponibles en línea en el siguiente portal:

📄 Licencia

Este proyecto se distribuye bajo la Licencia MIT. Puedes ver los detalles completos en el archivo LICENSE.

👨‍🏫 Instructor

Carlos Izainea

  • Correo: cizaineam@gmail.com

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors