Curso de Azure Databricks

Antes de realizar un curso o seminario, escuchamos las necesidades reales y objetivos de cada cliente, para adecuar la formación y obtener el mayor aprovechamiento posible. Ajustamos cada curso a sus necesidades.

Somos también especialistas en formaciones 'in company' adaptadas a las necesidades de cada organización, donde el aprovechamiento para varios asistentes de la misma compañía es mucho mayor. Si es tu caso, contacta con nosotros.

Consulte convocatorias

Ponemos a disposición también plataforma Cloud con todas las herramientas instaladas y configuradas, listas para la formación, incluyendo ejercicios, bases de datos, etc... para no perder tiempo en la preparación y configuración inicial. ¡Sólo preocuparos de aprender!

Ofrecemos también la posibilidad de realizar formaciones en base a ‘Casos de Uso’

Se complementa la formación tradicional de un temario/horas/profesor con la realización de casos prácticos en las semanas posteriores al curso en base a datos reales de la propia organización, de forma que se puedan ir poniendo en producción proyectos iniciales con nuestro soporte, apoyo al desarrollo y revisión con los alumnos y equipos, etc…

En los 10 últimos años, ¡hemos formado a más de 250 organizaciones y 3.000 alumnos!

Ah, y regalamos nuestras famosas camisetas de Data Ninjas a todos los asistentes. No te quedes si las tuyas

Objetivo

Somos partners oficiales de Microsoft

Análisis de macrodatos e inteligencia artificial con Apache Spark optimizado.

Obtenga conclusiones a partir de todos sus datos y cree soluciones de inteligencia artificial (IA) con Azure Databricks, configure un entorno de Apache Spark™ en solo unos minutos, aplique escalabilidad automática y colabore en proyectos compartidos en un área de trabajo interactiva. Azure Databricks admite Python, Scala, R, Java y SQL, además de marcos y bibliotecas de ciencia de datos, como TensorFlow, PyTorch y scikit-learn.

synapse_diagram

Póngase en marcha rápidamente con un entorno de Apache Spark optimizado.

Azure Databricks proporciona las últimas versiones de Apache Spark y permite la integración sin problemas con bibliotecas de código abierto. Ponga en marcha clústeres y cree soluciones con rapidez en un entorno de Apache Spark totalmente administrado, con la escala global y la disponibilidad de Azure. Los clústeres se instalan, configuran y ajustan para asegurar la confiabilidad y el rendimiento sin necesidad de supervisión. Aproveche la escalabilidad y la terminación automáticas para mejorar el costo total de propiedad (TCO).

synapse_diagram

Aumente el potencial del aprendizaje automático con macrodatos.

Acceda a funcionalidad de aprendizaje automático avanzado y automatizado con el servicio integrado Azure Machine Learning para identificar con rapidez los algoritmos e hiperparámetros adecuados. Simplifique la administración, la supervisión y la actualización de los modelos de Machine Learning implementados desde la nube hasta el perímetro. Azure Machine Learning proporciona también un registro central de sus experimentos, modelos y canalizaciones de aprendizaje automático.

synapse_diagram

Obtenga un almacenamiento de datos moderno de alto rendimiento.

Combine datos a cualquier escala y extraiga información a través de paneles analíticos e informes operativos. Automatice el movimiento de los datos con Azure Data Factory; después, cargue los datos en Azure Data Lake Storage, transfórmelos y límpielos con Azure Databricks y déjelos disponibles para analizarlos con Azure Synapse Analytics. Modernice su almacenamiento de datos en la nube para conseguir unos niveles inigualables de rendimiento y escalabilidad.

synapse_diagram

Público objetivo

Profesionales con experiencia en gestión o desarrollo de base de datos y sistemas.

Temario

¿Qué es y para qué sirve Databricks?

Casos de Uso

Determinar cuándo es necesario o recomendable Databricks
Comparación frente al uso de Dataflows (Data Factory o Power BI), Azure Functions, Azure SQL, etc.
Presentación y casos de uso reales

Lenguajes de programación en Databricks

Python vs Scala
RDD's vs Data Frames/SQL
Breve presentación de otras API's de Spark: Machine Learning, Streaming y Graph

Funcionalidades básicas de Azure Databricks

Clústeres, notebooks, almacenamiento y jobs

Introducción a la creación de procesos analíticos usando Pyspark SQL y notebooks

Repaso del lenguaje Python (enfocado al uso de Pyspark)
Introducción al concepto de Data Frames / PySparkSQL
Lectura de datos con PySparkSQL (CSV, JSON, Parquet…)
Principales funciones de procesamiento y análisis en PySparkSQL (select, filter/where, group by, distinct count...)
Ejecución de consultas son sintaxis SQL sobre Dataframes
Escritura de datos (CSV, parquet...)

Ejercicios usando notebooks y PySparkSQL

Creación de un proceso tipo "Hola Mundo" con PySpark
Ejercicio fundamental para la lectura (CSV), tratamiento de dataframes, análisis (SQL) y escritura (CSV/parquet)
Operaciones avanzadas de lectura, join/union y escritura, probando con múltiples formados de entrada/salida
Funciones de ventana
Ejercicio caso de uso

Optimización, depuración de procesos y solución de errores

PysparkSQL avanzado

Operaciones de unión (JOIN y UNION)
Funciones de ventana (OVER, RANK…)
Lectura/Escritura de datos avanzada
Uso de fuentes y destinos comunes en Azure Blob Storage, Data Lake, Azure SQL, Azure Synapse...
Formato de archivo y compresión recomendados en cada escenario
Consideraciones para el particionamiento y ejecución distribuida: repartition, coalesce...

Ejercicios usando notebooks y PySparkSQL

Creación de un proceso tipo "Hola Mundo" con PySpark
Ejercicio fundamental para la lectura (CSV), tratamiento de dataframes, análisis (SQL) y escritura (CSV/parquet)

Técnicas para el desarrollo de proyectos en Databricks

Tipos de clústeres: interactivos y efímeros
Notebooks vs Jobs
Planificación automática: Usando Databricks Jobs o Data Fatory, comparación de ventajas entre ambas alternativas
Integración y despliegue de código continuos en múltiples entornos usando repositorios (ej. GIT) y Azure DevOps Pipelines

Buenas prácticas para abordar las dificultades habituales que encuentran los usuarios

Ejercicios Integrando Azure Databricks y Azure Data Factory

Contacto

Ajustamos cada curso a sus necesidades.

Nuestra oficina en Madrid

Avenida de Brasil 17. Planta 16
28046 Madrid
info@stratebi.com
Tlfno: +34 91.788.34.10
Fax:+34 91.788.57.01

info@stratebi.com

(+034) 91 788 34 10