Aprender Ingeniería de Datos
Data Engineering es el proceso de diseñar, construir y mantener sistemas para la recolección, almacenamiento y procesamiento de datos, permitiendo un análisis eficiente y la toma de decisiones basadas en datos.
Introducción
- Definición de Data Engineering
- Importancia en el ecosistema de datos
- Diferencia entre Data Engineering y Data Science
Fundamentos de Data Engineering
- Conceptos básicos de datos
- Tipos de datos
- Estructuras de datos
- Arquitectura de datos
- Bases de datos relacionales y no relacionales
- Data Warehousing vs. Data Lake
- ETL (Extract, Transform, Load)
- Conceptos y procesos
- Herramientas comunes (e.g., Apache Nifi, Talend)
Herramientas y Tecnologías
- Bases de datos
- SQL (MySQL, PostgreSQL, SQL Server)
- NoSQL (MongoDB, Cassandra, Redis)
- Sistemas de procesamiento
- Batch vs. Streaming
- Apache Hadoop, Apache Spark
- Herramientas de orquestación
- Apache Airflow, Luigi
Desarrollo de Pipelines de Datos
- Diseño de Pipelines
- Arquitectura de pipelines
- Mejores prácticas
- Implementación
- Programación en Python, Java, Scala
- Uso de herramientas específicas (e.g., dbt, airflow)
Almacenamiento y Gestión de Datos
- Data Warehousing
- Modelado de datos (Estrella, Copo de nieve)
- Herramientas (e.g., Amazon Redshift, Google BigQuery)
- Data Lakes
- Arquitectura y casos de uso
- Herramientas (e.g., AWS S3, Azure Data Lake)
Calidad y Gobernanza de Datos
- Calidad de Datos
- Validación y limpieza de datos
- Gobernanza de Datos
- Políticas y procedimientos
- Seguridad y privacidad de datos
Escalabilidad y Rendimiento
- Escalabilidad de sistemas
- Horizontal vs. vertical
- Optimización de rendimiento
- Técnicas y herramientas
Casos de Estudio y Aplicaciones
- Estudios de caso
- Ejemplos reales de implementación de Data Engineering
- Aplicaciones prácticas
- Integración con herramientas de BI
- Análisis y visualización de datos
Tendencias y Futuro del Data Engineering
- Nuevas tecnologías
- Tendencias emergentes
- Impacto de la IA y Machine Learning