Databricks Data Engineer Learning path
Sensibilización | Directivos | Inteligencia artificial | Transformación digital
OBJETIVOS
- Aprende Programación con Apache Spark™
○Define los componentes arquitectónicos de Spark
○Describe cómo se transforman, ejecutan y optimizan los DataFrames en Spark
○Aplica la API de DataFrame para explorar, preprocesar, unir y cargar datos en Spark
○Utiliza la API de Structured Streaming para realizar análisis en datos en tiempo real
○Usa Delta Lake para mejorar la calidad y rendimiento de los flujos de datos
- Aprende Ingeniería de Datos con Databricks
○Aprovecha la Plataforma Lakehouse de Databricks para ejecutar tareas centrales en el desarrollo de data pipelines
○Utiliza SQL y Python para escribir data pipelines de producción; para extraer, transformar y cargar datos en tablas y vistas en el Lakehouse
○Simplifica la ingestión de datos y la propagación de cambios incrementales utilizando funciones y sintaxis nativas de Databricks, incluyendo Delta Live Tables
○Orquesta pipelines de producción para obtener resultados frescos para análisis ad hoc y creación de paneles de control
- Aprende a optimizar Apache Spark™ en Databricks
○Explica cómo mitigar los cinco problemas de rendimiento más comunes en una aplicación Spark para lograr un mejor rendimiento
○Resume los problemas de rendimiento más comunes asociados con la ingestión de datos y cómo mitigarlos
○Explica cómo se pueden emplear las nuevas funciones en Spark 3.x para mitigar problemas de rendimiento en tus aplicaciones Spark
A QUIÉN SE DIRIGE
Ingenieros de datos y científicos de datos
PROGRAMA
Cursos incluidos en este camino de formación:
Programación con Apache Spark™ en Databricks (2 días) – Explorarás los fundamentos de Apache Spark y Delta Lake en Databricks. Aprenderás los componentes arquitectónicos de Spark, las API de DataFrame y Structured Streaming, y cómo Delta Lake puede mejorar tus flujos de datos. Por último, ejecutarás consultas en tiempo real para procesar datos en streaming y comprenderás las ventajas de usar Delta Lake.
Ingeniería de Datos con Databricks (2 días) – Obtendrás beneficios de esta introducción completa a los componentes de la Plataforma Lakehouse de Databricks que admiten directamente la implementación de canalizaciones ETL. Utilizarás SQL y Python para definir y programar canalizaciones que procesen incrementalmente nuevos datos de diversas fuentes para alimentar aplicaciones analíticas y paneles en el Lakehouse. Este curso ofrece instrucciones prácticas en Databricks Data Science & Engineering Workspace, Databricks SQL, Delta Live Tables, Databricks Repos, Databricks Task Orchestration y el Unity Catalog.
Optimización de Apache Spark™ en Databricks (2 días) – Explorarás los cinco problemas clave que representan la gran mayoría de los problemas de rendimiento en una aplicación Apache Spark: desequilibrio, derrame, redistribución, almacenamiento y serialización. Con ejemplos basados en conjuntos de datos de 100 GB a 1+ TB, investigarás y diagnosticarás fuentes de cuellos de botella con la interfaz de usuario de Spark y aprenderás estrategias efectivas de mitigación. También descubrirás las nuevas características introducidas en Spark 3 que pueden abordar automáticamente problemas comunes de rendimiento. Por último, aprenderás a diseñar y configurar clústeres para un rendimiento óptimo según las necesidades y preocupaciones específicas del equipo.
Rol
Ingenieros de datos y científicos de datos
Duración
48 horas
Modalidad
Online
Nivel
Avanzado
Precio
Gratuito