Databricks Data Engineer Learning path

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus consectetur dui eu luctus hendrerit. Mauris consequat dictum dui. Nunc at sagittis massa. Donec cursus est eu sem gravida, sit amet elementum quam aliquam

Sensibilización | Directivos | Inteligencia artificial | Transformación digital

OBJETIVOS

Aprende Programación con Apache Spark™

○Define los componentes arquitectónicos de Spark

○Describe cómo se transforman, ejecutan y optimizan los DataFrames en Spark

○Aplica la API de DataFrame para explorar, preprocesar, unir y cargar datos en Spark

○Utiliza la API de Structured Streaming para realizar análisis en datos en tiempo real

○Usa Delta Lake para mejorar la calidad y rendimiento de los flujos de datos

Aprende Ingeniería de Datos con Databricks

○Aprovecha la Plataforma Lakehouse de Databricks para ejecutar tareas centrales en el desarrollo de data pipelines

○Utiliza SQL y Python para escribir data pipelines de producción; para extraer, transformar y cargar datos en tablas y vistas en el Lakehouse

○Simplifica la ingestión de datos y la propagación de cambios incrementales utilizando funciones y sintaxis nativas de Databricks, incluyendo Delta Live Tables

○Orquesta pipelines de producción para obtener resultados frescos para análisis ad hoc y creación de paneles de control

Aprende a optimizar Apache Spark™ en Databricks

○Explica cómo mitigar los cinco problemas de rendimiento más comunes en una aplicación Spark para lograr un mejor rendimiento

○Resume los problemas de rendimiento más comunes asociados con la ingestión de datos y cómo mitigarlos

○Explica cómo se pueden emplear las nuevas funciones en Spark 3.x para mitigar problemas de rendimiento en tus aplicaciones Spark

A QUIÉN SE DIRIGE

Ingenieros de datos y científicos de datos

PROGRAMA

Cursos incluidos en este camino de formación:

Programación con Apache Spark™ en Databricks (2 días) – Explorarás los fundamentos de Apache Spark y Delta Lake en Databricks. Aprenderás los componentes arquitectónicos de Spark, las API de DataFrame y Structured Streaming, y cómo Delta Lake puede mejorar tus flujos de datos. Por último, ejecutarás consultas en tiempo real para procesar datos en streaming y comprenderás las ventajas de usar Delta Lake.

Ingeniería de Datos con Databricks (2 días) – Obtendrás beneficios de esta introducción completa a los componentes de la Plataforma Lakehouse de Databricks que admiten directamente la implementación de canalizaciones ETL. Utilizarás SQL y Python para definir y programar canalizaciones que procesen incrementalmente nuevos datos de diversas fuentes para alimentar aplicaciones analíticas y paneles en el Lakehouse. Este curso ofrece instrucciones prácticas en Databricks Data Science & Engineering Workspace, Databricks SQL, Delta Live Tables, Databricks Repos, Databricks Task Orchestration y el Unity Catalog.

Optimización de Apache Spark™ en Databricks (2 días) – Explorarás los cinco problemas clave que representan la gran mayoría de los problemas de rendimiento en una aplicación Apache Spark: desequilibrio, derrame, redistribución, almacenamiento y serialización. Con ejemplos basados en conjuntos de datos de 100 GB a 1+ TB, investigarás y diagnosticarás fuentes de cuellos de botella con la interfaz de usuario de Spark y aprenderás estrategias efectivas de mitigación. También descubrirás las nuevas características introducidas en Spark 3 que pueden abordar automáticamente problemas comunes de rendimiento. Por último, aprenderás a diseñar y configurar clústeres para un rendimiento óptimo según las necesidades y preocupaciones específicas del equipo.

ACCEDER AL CURSO

Rol
Ingenieros de datos y científicos de datos

Duración
48 horas

Modalidad
Online

Nivel
Avanzado

Precio
Gratuito