Aprende Apache Spark en Databricks: DataFrames, SQL, Streaming y MLlib. Curso práctico de 30 horas para analistas, data engineers y científicos de datos.
Introducción
Apache Spark es uno de los motores de procesamiento de datos distribuidos más potentes y utilizados actualmente, especialmente para tareas de análisis a gran escala, machine learning y procesamiento en streaming. Databricks, una plataforma basada en la nube construida por los creadores de Spark, simplifica y potencia su uso mediante notebooks colaborativos, integración con múltiples fuentes de datos y un entorno optimizado para la analítica empresarial. Este curso capacita a los participantes para dominar Apache Spark en el entorno Databricks, desde su sintaxis básica hasta el manejo de flujos complejos de datos.
Objetivo general
Formar a los participantes en el uso de Apache Spark en la plataforma Databricks, abarcando desde la manipulación de datos hasta el desarrollo de pipelines avanzados en entornos colaborativos y escalables en la nube.
Índice de Contenidos
| Módulo | Título del Módulo | Contenidos Detallados |
|---|---|---|
| Módulo 1 | Fundamentos de Apache Spark y Databricks | – Arquitectura de Apache Spark (RDDs, DataFrames, Datasets)
– Uso de Databricks: notebooks, clusters, workspace – Gestión de archivos y fuentes de datos – Lenguajes compatibles: PySpark, SQL, Scala |
| Módulo 2 | Manipulación de Datos con PySpark | – Creación, exploración y transformación de DataFrames
– Acciones y transformaciones en Spark – Funciones comunes: filtros, agregaciones, joins – Tipos complejos: arrays, structs, maps – Lectura/escritura: CSV, Parquet, JSON, Delta Lake |
| Módulo 3 | SQL y Funciones Avanzadas en Spark | – Uso de Spark SQL en Databricks – Tablas temporales y permanentes
– UDFs en Python – Optimización con Catalyst Optimizer – Introducción a Delta Lake y control de versiones |
| Módulo 4 | Pipeline de Procesamiento de Datos | – ETL con PySpark: extracción, transformación y carga
– Validación de datos y manejo de errores – Particiones, persistencia y optimización de rendimiento – Automatización con Databricks Jobs – Integración con Azure Blob, AWS S3, JDBC |
| Módulo 5 | Procesamiento en Tiempo Real y MLlib | – Conceptos de Structured Streaming – Lectura de flujos en tiempo real
– Ventanas temporales y agregaciones – Introducción a MLlib: modelos, pipelines y evaluación |