DP-203T00: Data Engineering on Microsoft Azure/ Инжиниринг данных в Microsoft Azure
Содержание курса
Модуль1. Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных
В этом модуле дается обзор вариантов технологий вычислений и хранения в Azure, а также способов структурирования Data Lake (озера данных) и оптимизации файлов для исследования, потоковой передачи и пакетных нагрузок.
Темы
- Знакомство с Azure Synapse Analytics
- Описание Azure Databricks
- Знакомство с хранилищем Azure Data Lake
- Описание архитектуры Delta Lake
- Работа с потоками данных с использованием Azure Stream Analytics
Лабораторная работа: Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных
- Объединение потоковой и пакетной обработки в одном конвейере
- Упорядочение озера данных в уровни преобразования файлов
- Индексирование хранилища озера данных для ускорения запросов и загрузки
Модуль 2. Выпонение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics
В этом модуле описана работа с файлами, хранящимися в озере данных и внешних источниках данных с помощью инструкций T-SQL, осуществляемых бессерверным пулом SQL в Azure Synapse Analytics.
Темы
- Исследование возможностей бессерверных пулов SQL Azure Synapse
- Запрос данных в озере с использованием бессерверных пулов SQL Azure Synapse
- Создание объектов метаданных в бессерверных пулах SQL Azure Synapse
- Защита данных и управление пользователями в бессерверных пулах SQL Azure Synapse
Лабораторная работа: Выполнение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics
- Выполнение запроса данных Parquet с помощью бессерверных пулов SQL
- Создание внешних таблиц для файлов Parquet и CSV
- Создание представлений с помощью бессерверных пулов SQL
- Защита доступа к данным в озере данных во время использования бессерверных пулов SQL
- Настройка безопасности озера данных с использованием контроля доступа на основе ролей (RBAC) и списка контроля доступа (Access Control List)
Модуль 3. Исследование и преобразование данных в Azure Databrics
В этом модуле рассказывается, как использовать различные методы Apache Spark DataFrame для исследования и преобразования данных в Azure Databricks.
Темы
- Обзор Azure Databricks
- Чтение и запись данных в Azure Databricks
- Работа с DataFrames в Azure Databricks
- Работа с расширенными методами DataFrames в Azure Databricks
Лабораторная работа: Исследование и преобразование данных в Azure Databricks
- Использование DataFrames в Azure Databricks для исследования и фильтрации данных
- Кэширование DataFrame для более быстрого выполнения последующих запросов
- Удаление дублирующихся данных
- Работа со значениями дат/времени
- Удаление и переименование столбцов DataFrame
- Агрегирование данных, хранящихся в DataFrame
Модуль 4.Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark
В этом модуле рассказывается, как исследовать данные, хранимые в озере данных, как преобразовывать и загружать данные в реляционное хранилище данных. Слушатели будут использовать Apache Spark для загрузки данных в хранилище данных и соединения данных Parquet в озере данных с данными в выделенном пуле SQL.
Темы
- Понимание инжиниринга больших данных с помощью Apache Spark в Azure Synapse Analytics
- Получение данных с помощью Spark в Azure Synapse Analytics
- Преобразование данных с помощью DataFrames в пулах Apache Spark в Azure Synapse Analytics
- Интеграция пулов SQL и Apache Spark в Azure Synapse Analytics
Лабораторная работа: Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark
- Исследование данных в Synapse Studio
- Получение данных с помощью Spark в Azure Synapse Analytics
- Преобразование данных с помощью DataFrames в пулах Spark в Azure Synapse Analytics
- Интеграция пулов SQL и Spark в Azure Synapse Analytics
Модуль 5. Получение и загрузка данных в хранилище данных
В этом модуле рассказывается, как получать данные в хранилище данных с помощью скриптов T-SQL и конвейеров интеграции Synapse Analytics.
Темы
- Использование лучших практик загрузки данных в Azure Synapse Analytics
- Прием петабайтов данных с помощью Azure Data Factory
Лабораторная работа: Получение и загрузка данных в хранилище данных
- Получение петабайтов данных с помощью Azure Synapse Pipelines
- Импорт данных с помощью PolyBase и COPY с использованием T-SQL
- Использование лучших практик загрузки данных в Azure Synapse Analytics
Модуль 6. Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines
Этот модуль посвящен проектированию конвейеров интеграции данных.
Темы
- Интеграция данных с помощью Azure Data Factory или Azure Synapse Pipelines
- Безкодовое преобразование и масштабирование с помощью Azure Data Factory или Azure Synapse Pipelines
Лабораторная работа: Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines
- Выполнение безкодовых преобразований и масштабирования с помощью Azure Synapse Pipelines
- Создание конвейера данных для импорта файлов CSV с неправильным форматом
- Создание потоков сопоставления данных
Модуль 7. Управление перемещением и преобразованием данных в zure Synapse Pipelines
Этот модуль описывает создание связанных служб и управление перемещением и преобразованием данных с использованием Azure Synapse Pipelines.
Темы
- Оркестрация перемещения и преобразования данных в Azure Data Factory
Лабораторная работа: Управление перемещением и преобразованием данных в Azure Synapse Pipelines
- Осуществлять оркестрацию перемещения и преобразования данных в Azure Synapse Pipelines
Модуль 8. Комплексное обеспечение безопасности с помощью Azure Synapse Pipelines
В этом модуле описано, как защитить рабочую область Synapse Analytics и ее поддерживающую инфраструктуру. Слушатели рассмотрят SQL Active Directory Admin, а также обеспечат безопасность на уровне столбцов и на уровне строк и динамическое сокрытие данных во время использования выделенных пулов SQL.
Темы
- Защита хранилища данных в Azure Synapse Analytics
- Настройка ключей в Azure Key Vault и управление ими
- Реализация контроля соответствия для конфиденциальных данных
Лабораторная работа: Комплексное обеспечение безопасности с помощью Azure Synapse Analytics
- Защита поддерживающей инфраструктуры Azure Synapse Analytics
- Защита рабочей области Azure Synapse Analytics и управляемых служб
- Защита данных рабочей области Azure Synapse Analytics
Модуль 9. Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link
В этом модуле рассматривается, как Azure Synapse Link обеспечивает подключение учетной записи Azure Cosmos DB к рабочей области Synapse.
Темы
- Разработка гибридной транзакционной и аналитической обработки с использованием Azure Synapse Analytics
- Настройка Azure Synapse Link с помощью Azure Cosmos DB
- Запрос к Azure Cosmos DB с помощью пулов Apache Spark
- Запрос к Azure Cosmos DB с помощью бессерверных пулов SQL
Лабораторная работа: Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link
- Настройка Azure Synapse Link с помощью Azure Cosmos DB
- Запрос к Azure Cosmos DB с помощью Apache Spark для Synapse Analytics
- Запрос к Azure Cosmos DB с помощью бессерверного пула SQL для Azure Synapse Analytics
Модуль 10. Потоковая обработка в реальном временис помощью Sream Analytics
В этом модуле слушатели узнают, как обрабатывать потоковые данные с помощью Azure Stream Analytics.
Темы
- Обеспечение надежного обмена сообщениями для приложений Big Data с использованием Azure Event Hubs
- Работа с потоками данных с использованием Azure Stream Analytics
- Получение потоков данных с использованием Azure Stream Analytics
Лабораторная работа: Потоковая обработка в реальном времени с помощью Stream Analytics
- Использование Stream Analytics для обработки данных от Event Hubs в режиме реального времени
- Использование оконных функций Stream Analytics для построения агрегатов и вывода в Synapse Analytics
- Масштабирование задания Azure Stream Analytics для увеличения пропускной способности с помощью секционирования
- Повторное разбиение входных данных потока для оптимизации распараллеливания
Модуль 11. Создание решения для потоковой обработки с помощью Event Habs и Azure Databrics
В этом модуле слушатели узнают, как получать и обрабатывать потоковые данные с помощью Event Hubs и Spark Structured Streaming в Azure Databricks.
Темы
- Обработка потоковых данных с помощью структурированной потоковой передачи Azure Databricks
Лабораторная работа: Создание решения для потоковой обработки с помощью Event Hubs и Azure Databricks
- Изучение основных функций и вариантов использования структурированной потоковой передачи
- Потоковая передача данных из файла и их запись в распределенную файловую систему
- Использование скользящих окон для агрегирования блоков данных, а не всех данных
- Применение водяных знаков для удаления устаревших данных
- Подключение к потокам чтения и записи Event Hubs
Аннотация
Курс позволяет познакомиться с инжинирингом данных в его связи с работой с пакетными и работающими в реальном времени аналитическими решениями с использованием технологий платформ данных Azure. Слушатели поймут основные технологии вычислений и хранения, которые используются для построения аналитического решения. Слушатели также узнают, как интерактивно исследовать данные, хранящиеся в файлах в Azure Data Lake.
Курс предназначен для специалистов в области данных, архитекторов данных и специалистов по бизнес-аналитике, желающие узнать об инжиниринге данных или построении аналитических решений с использованием технологий платформ данных, существующих в Microsoft Azure. Вторичная аудитория этого курса — аналитики данных и специалисты по обработке данных, которые работают с аналитическими решениями, построенными на Microsoft Azure.
Предварительные требования:
Для эффективного обучения слушатели должны обладать следующими знаниями и навыками:
- Знание основ Azure;
- Знание облачных вычислений;
- Практический опыт работы с большими данными.