Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks
In this project, the transformation and cleaning of the dataset “Confirmed COVID19 Cases in Bogotá D.C.” from the Bogotá Open Data source are addressed. These processes are guided by the application of capability areas established by DAMADMBOK. The process focuses on applying best practices to impro...
Saved in:
Main Author: | |
---|---|
Other Authors: | |
Format: | Tesis/Trabajo de grado - Monografía - Especialización |
Language: | Español |
Published: |
Universidad Antonio Nariño
2025
|
Subjects: | |
Online Access: | https://repositorio.uan.edu.co/handle/123456789/12139 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
_version_ | 1824086920610709504 |
---|---|
author | Moreno Zuluaga, Jhon Alexander |
author2 | Cables Pérez, Elio Higinio, Elio H. |
author_facet | Cables Pérez, Elio Higinio, Elio H. Moreno Zuluaga, Jhon Alexander |
author_sort | Moreno Zuluaga, Jhon Alexander |
collection | DSpace |
description | In this project, the transformation and cleaning of the dataset “Confirmed COVID19 Cases in Bogotá D.C.” from the Bogotá Open Data source are addressed. These
processes are guided by the application of capability areas established by DAMADMBOK. The process focuses on applying best practices to improve quality and
organization, facilitating analysis and ensuring access to information through the
Databricks tool, where the development of a workflow will guide the applicability
in the project with ETL processes and the implementation of best practices in data
governance.
The applicability of this project also extends to the use of the Databricks tool,
demonstrating its capacity and scalability in data integration and interoperability
processes, as well as in data analysis. |
format | Tesis/Trabajo de grado - Monografía - Especialización |
id | repositorio.uan.edu.co-123456789-12139 |
institution | Repositorio Digital UAN |
language | Español |
publishDate | 2025 |
publisher | Universidad Antonio Nariño |
record_format | dspace |
spelling | repositorio.uan.edu.co-123456789-121392025-01-27T17:26:24Z Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks Moreno Zuluaga, Jhon Alexander Cables Pérez, Elio Higinio, Elio H. Gobierno de datos Análisis de datos Databricks ETL Integración Interoperabilidad Data Governance Data Analysis ETL Integration Interoperability Databrick In this project, the transformation and cleaning of the dataset “Confirmed COVID19 Cases in Bogotá D.C.” from the Bogotá Open Data source are addressed. These processes are guided by the application of capability areas established by DAMADMBOK. The process focuses on applying best practices to improve quality and organization, facilitating analysis and ensuring access to information through the Databricks tool, where the development of a workflow will guide the applicability in the project with ETL processes and the implementation of best practices in data governance. The applicability of this project also extends to the use of the Databricks tool, demonstrating its capacity and scalability in data integration and interoperability processes, as well as in data analysis. En este proyecto se abordan la transformación y limpieza del set de datos “Casos confirmados de COVID-19 en Bogotá D.C.” de la fuente datos abiertos Bogotá, estos procesos están acompañados de la guía y aplicación de las áreas de capacidad establecidas por el DAMA-DMBOK. El proceso se centra en poder mejorar resultados en calidad y organización, así mismo facilitar el análisis y garantizar el acceso a la información a través de la herramienta Databricks, dónde el desarrollo de un flujo de trabajo conducirá la aplicabilidad en el proyecto con procesos ETL y la aplicación de buenas prácticas en la gobernanza de datos. La aplicabilidad de este proyecto también es objetiva al uso de la herramienta databricks, para demostrar la capacidad y escalabilidad frente a procesos de integración e interoperabilidad de datos e igualmente al análisis de datos. final Especialista en Gobierno de Datos Especialización Presencial Proyecto 2025-01-27T17:26:20Z 2025-01-27T17:26:20Z 2024-11-26 2025-01-27 Tesis/Trabajo de grado - Monografía - Especialización Estudio explicativo info:eu-repo/semantics/acceptedVersion http://purl.org/coar/resource_type/c_46ec http://purl.org/redcol/resource_type/PIC http://purl.org/coar/version/c_b1a7d7d4d402bcce https://repositorio.uan.edu.co/handle/123456789/12139 Español Attribution-NonCommercial-NoDerivs 2.5 Colombia http://creativecommons.org/licenses/by-nc-nd/2.5/co/ info:eu-repo/semantics/openAccess http://purl.org/coar/access_right/c_abf2 pdf application/pdf application/pdf application/pdf Universidad Antonio Nariño Especialización en Gobierno de Datos Facultad de Ingeniería de Sistemas Bogotá - Federmán instname:Universidad Antonio Nariño Sierra Caicedo, C. C. (2023). Aplicativo web para la optimización de precios de partes vehiculares en la empresa Derco SAS basado en servicio Azure Databricks. Kalla, D., Samaah, F., Kuraku, S., & Smith, N. (2023). Phishing detection implementation using databricks and artificial Intelligence. International Journal of Computer Applications, 185(11), 1-11. Parwani, K., Das, S., Mittal, S., & Raj, R. (2024). Scalable machine learning with Databricks: Challenges and opportunities. Journal of Analysis and Computation (JAC), 18(2), 17-19. Koppula, R. S. (2022). Implementing data lakes with Databricks for advanced analytics. North American Journal of Engineering and Research, 3(2), abril - junio 2022. Gartner, Inc. (2024). Magic Quadrant for Data Science and Machine Learning Platforms. Afraz Jaffri, Aura Popa, Peter Krensky, Jim Hare, Raghvender Bhati, Maryam Hassanlou, & Tong Zhang. (ID G00799982, 17 de junio de 2024). Gartner. (GEL. (s.f.). Programa del Gobierno en Línea de la República de Colombia. Investigación Lineamientos para la implementación de Datos Abiertos en Colombia. Septiembre de 2011.) Sunlight Foundation. (n.d.). Guía de datos abiertos. https://sunlightfoundation.com/opendataguidelines/es/ Databricks. (n.d.-a). Delta Lake. https://docs.databricks.com/en/delta/index.html Databricks. (n.d.-b). Introduction to Databricks. https://docs.databricks.com/en/introduction/index.html Microsoft. (n.d.-a). What is Azure?. https://azure.microsoft.com/enus/resources/cloud-computing-dictionary/what-isazure/#:~:text=What%20is%20Azure%3F%20The%20Azure%20cloud%20platform %20is,with%20the%20tools%20and%20frameworks%20of%20your%20choice.?mso ckid=34538b825e3664bb106099325f9965aa |
spellingShingle | Gobierno de datos Análisis de datos Databricks ETL Integración Interoperabilidad Data Governance Data Analysis ETL Integration Interoperability Databrick Moreno Zuluaga, Jhon Alexander Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
title | Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
title_full | Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
title_fullStr | Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
title_full_unstemmed | Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
title_short | Flujo De Trabajo Para El Proceso De Etl Del Portal De Datos Abiertos Bogotá Para Generar Un Formato Más Legible Y Limpio A Través De La Herramienta Databricks |
title_sort | flujo de trabajo para el proceso de etl del portal de datos abiertos bogota para generar un formato mas legible y limpio a traves de la herramienta databricks |
topic | Gobierno de datos Análisis de datos Databricks ETL Integración Interoperabilidad Data Governance Data Analysis ETL Integration Interoperability Databrick |
url | https://repositorio.uan.edu.co/handle/123456789/12139 |
work_keys_str_mv | AT morenozuluagajhonalexander flujodetrabajoparaelprocesodeetldelportaldedatosabiertosbogotaparagenerarunformatomaslegibleylimpioatravesdelaherramientadatabricks |