Before organising a course or seminar, we listen to the real needs and objectives of each client, in order to adapt the training and get the most out of it. We tailor each course to your needs.
We are also specialists in 'in company' trainings adapted to the needs of each organisation, where the benefit for several attendees from the same company is much greater. If this is your case, contact us.
Ponemos a disposición también plataforma Cloud con todas las herramientas instaladas y configuradas, listas para la formación, incluyendo ejercicios, bases de datos, etc... para no perder tiempo en la preparación y configuración inicial. ¡Sólo preocuparos de aprender!
Ofrecemos también la posibilidad de realizar formaciones en base a ‘Casos de Uso’
Se complementa la formación tradicional de un temario/horas/profesor con la realización de casos prácticos en las semanas posteriores al curso en base a datos reales de la propia organización, de forma que se puedan ir poniendo en producción proyectos iniciales con nuestro soporte, apoyo al desarrollo y revisión con los alumnos y equipos, etc…
En los 10 últimos años, ¡hemos formado a más de 250 organizaciones y 3.000 alumnos!
Ah, y regalamos nuestras famosas camisetas de Data Ninjas a todos los asistentes. No te quedes si las tuyas
Curso experto en Data Engineer
Curso experto en Data Engineer
Goal
El curso Experto en Data Engineer tiene como objetivo prepararte para trabajar con las tecnologías, metodologías y algoritmos más avanzados para Big Data.
El curso te formará en la preparación, depuración y explotación de los datos con Apache Spark y Scala. Con ese curso podrás desarrollar, escalar y gestionar tus soluciones y proyectos Data Driven.
Target audiences
- Bases de datos SQL
- Conocimientos en lenguajes de scripting (Python, Javascript, R u otras)
Observations
¿Cuál es el roadmap para ser un Data Engineer?
Diferencias entre Business Intelligence y Data Science (bien explicado)
Syllabus
- Por qué Scala
- Por qué Spark
- Por qué Scala y Spark
- Scala y Spark dentro de entorno Hadoop: Importancia e Integración
- Sistema de archivos distribuidos HDFS
- Motor de procesamiento Map Reduce
- Gestor de procesos: YARN
- Sistema de mensajería distribuido para Big Data: Apache Kafka
- Log streaming: Apache Flume
- Ejemplo de arquitecturas Big Data que usen Scala y Spark
Caso teórico/práctico: Diseño de una arquitectura para la detección de fraude en seguros en tiempo real.
- Scala y la necesidad de paralelizar todo “Single-core performance is running out of steam, and you need to parallelize everything” (Martin Odersky , creador de Scala)
- Conceptos básicos de Scala
- Tipos de datos
- Estructuras de control
- Conclusiones
- Ejercicios prácticos:
- Tipos de datos, Colecciones y Estructuras de control en Scala
Caso práctico de procesamiento de datos de AXA con Scala: (Limpieza, filtrado, agregación)
- Introducción
- ¿Debo usar Scala, Python o Java para programar en Spark? Scala en Spark
- Introducción al Shell de Spark para Scala
- Concepto y creación del Spark Context (SC).
- Los conjuntos elásticos de datos distribuidos (RDDs).
- Operaciones sobre RDDs: Transformaciones y Acciones.
- Programación de funciones para RDD’s
- Caché y persistencia de RDD’s
- Trabajo con pares Clave-Valor (Key-Value Pair RDD)
- Carga y almacenamiento desde HDFS (Sistema de archivos distribuido de Hadoop)
- Ejercicios prácticos:
- Sobre cada uno de los puntos anteriores
- Caso práctico
- Caso práctico* de procesamiento de datos de AXA con Scala: (Limpieza, filtrado, agregación).
- Otros lenguajes en Spark (Introducción):
- SQL
- R
- Ejecución en clúster Hadoop con programas Spark.
- Ejercicio práctico:
- Ejecución en el clúster de Axa del programa del caso práctico desarrollado en el ejercicio anterior. (K, iii).
- Introducción a Apache Kafka
- Arquitectura
- Topics
- Productores y Consumidores.
- Kafka y Apache Zookeper
- Flujo de datos en Kafka
- Ejercicio práctico:
- Estudio de una implementación de Kafka para lectura de datos desde Wikipedia.
- Arquitectura y abstracción
- Transformaciones y Operaciones Streaming
- Fuentes de entrada
- Tolerancia a fallos
- Rendimiento
- Ejercicio práctico:
- Diseño e implementación de un programa en Spark Streaming para el procesamiento de los datos de Wikipedia en Streaming usando la implementación proporcionada
Contacto
Ajustamos cada curso a sus necesidades.
Nuestra oficina en Madrid
- Avenida de Brasil 17. Planta 16
- 28046 Madrid
- info@stratebi.com
- Tlfno: +34 91.788.34.10
- Fax:+34 91.788.57.01