Marco Apache Spark para desarrolladores: nivel avanzado - curso 41.500 rublos. del IBS Training Center, capacitación 24 horas, Fecha 26 de noviembre de 2023.
Miscelánea / / December 05, 2023
La capacitación proporciona una comprensión detallada de la estructura interna y el funcionamiento del marco Apache Spark, tanto Spark Core (RDD), Spark SQL, Spark Streaming y Spark Structured Streaming. Se consideran los mecanismos para ejecutar los componentes del clúster Spark bajo el control de diferentes administradores del clúster, gestionar la asignación de recursos (principalmente memoria) y los mecanismos de trabajo de los programadores. Se exploran en detalle las ventajas del formato de representación interna de Tungsten y el funcionamiento del optimizador Catalyst.
Tópicos cubiertos:
Arquitectura interna de Spark, entorno de ejecución de Spark
Configurando Spark Context, SparkConf
Componentes internos de RDD, diseño lógico
Mejores prácticas para programar con RDD
Plan físico: trabajo, etapas, tareas.
Planificadores y Ejecución del Plan Físico
Ajuste de memoria, serialización, almacenamiento en caché, recolección de basura
API de fuente de datos, representación de datos internos de Tungsten, formatos de archivo
Optimizador de catalizador
Microbatch Spark Streaming: recepción y salida de datos
Streaming estructurado: recepción y distribución de datos