You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Resumen de servicios de Azure usados en la ejecución del proyecto:
Se realizó una ingesta de datos de prueba desde una base de datos Azure SQL hacia un Azure Data Lake Storage, automatizado mediante un pipeline realizado en Azure Data Factory y aplicando políticas de seguridad mediante Azure Key Vaults.
Los archivos migrados como .csv al Azure Data Lake Storage son cargados y procesados en Azure Databricks (Lakehouse) para posteriormente obtener un Dashboard (Lakeview) dentro de este último servicio.
Por último fue generado un notebook que es procesado mediante un pipeline de Databricks DataFlow y las conexiones establecidas con el Azure Data Lake Storage cumplen con políticas de seguridad con Azure Key Vault.
La siguiente imagen muestra el proceso o secuencia del proyecto mediante un índice de contenido:
Imagen 01. Servicios de Azure para el proyecto
Imagen 02. Creación de servidor SQL, azuresqlservercvalladares
Imagen 03. Creación de base de datos Azure SQL, databcvalladares
Imagen 04. Creación de tablas (Alumnos, Cursos y Notas) e inserción de datos
Note
EL código SQL para creación de tablas e inserción de datos se encuetran en el archivo insert_data_azure_sql.txt
Imagen 05 y 06. Seguridad establecida medienta key vaults para conexion con Azure SQL y ADLS
Imagen 07. Creación de linked services para key vault, azure sql y azure data lake storage (ADLS)
Imagen 08 y 09. Creación del dataset proveniente de la base de datos en Azure sql
Sin parámetros para que pueda recorrer todas las tablas de la base de datos.
Con parámetros para que obtenga los nombres de las tablas de la base de datos.
Imagen 10. Carga del dataset generado en ADLS
Imagen 11. Creación del pipeline, pip-sql-a-adls-csv
Explicación gráfica del pipeline en Azure Data Factory
Note
El linked service lksv_asql_01 tiene establecido la base de datos Azure SQL a la cual debe conectarse. Como opción, pudo haberse establecido como parámetro.
Imagen 12. Creación del Azure Data Lake Storage, adlseu2dsrpd01cv
Imagen 13 y 14. Creación del contenedor 'data' y directorio 'archivoscsv'
Imagen 15 y 16. Carga de los archivos .csv mediante ejecución del pipeline
Imagen 17 y 18. Creación del Databricks dataflow, pipeline-lakehouse-cv, para ejecutar el notebook Conect_Read_Load_ADLS_DBricks, que lleva los archivos .csv en el ADSL hacia Databricks
Note
El archivo Conect_Read_Load_ADLS_DBricks se encuentra en la carpeta Notebooks de este proyecto en dos versiones .dbc y .ipynb
Imagen 19 y 20. El pipeline incluye trigger y notificación mediante e-mail
Imagen 21. Creación del Cluster, carlos valladares's Cluster 14.3LTS
Imagen 22. Creación de la carpeta poryecto en Workspace y notebook Conect_Read_Load_ADLS_DBricks
Imagen 23. Ejecución del notebook mediante el pipeline (dataflow) y generación de tabla delta (delta_notas_estudiantes)
Imagen 24. Uso de tabla delta para generación del dashboard (lakeview)
Imagen 25. Generación de nuevo conjunto de datos con sql query (Total_Estudiantes) para conocer aprobados y reprobados en los diferentes cursos.
Imagen 26 y 27. Creación de KPI's. graficas y tablas para el Dashboard
About
Proyecto de ingeniería de datos aplicado en la nube de Microsoft Azure usando diferentes servicios con data de prueba