SPARK: Анализ данных с помощью современного Apache Spark
6-дневный курс обучения по использованию распределенной платформы Apache Spark для работы с большими массивами данных, в том числе — неструктурированных и потоковой обработки информации.
Вы пройдете путь от основ архитектуры Spark до работы с продвинутыми компонентами, такими как GraphX, ML, Structured Streaming и Delta Lake. Программа охватывает как классические подходы (RDD, DataFrames, Spark SQL), так и актуальные тренды: интеграцию с Kubernetes, pandas API в Spark и управление данными через Delta Lake.