Название: Обработка больших данных с Apache Spark Автор: Бутаков Н.А., Петров М.В., Насонов Д. Издательство: Университет ИТМО Год: 2019 Страниц: 52 Язык: русский Формат: pdf, djvu Размер: 12.7 MB
Учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark. Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETL-конвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных системах, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark. В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами, а также способности к применению машинного обучения на распределенных наборах данных.
Содержание: Введение Архитектура распределенного приложения Spark Основные концепции Spark RDD и граф преобразований Основные этапы обработки данных Загрузка данных из внешнего хранилища Изменение размещения данных и количества партиций Как происходит вычисление над данными в Spark Ветвление и итеративные вычисления Shuffle механизм Управление памятью в Apache Spark DataFrame API и Spark SQL Датафреймы Начало работы с DataFrame API: SparkSession Использование пользовательских функций (UDF) Пользовательские функции агрегации Создание, настройка и запуск Spark проекта Настройка окружения Создание нового проекта Запуск Scala проекта в Intellij Idea Первое Spark приложение Заключение Список литературы
Скачать Обработка больших данных с Apache Spark
|