Аналитика больших данных для менеджеров / Big Data Analytics for Managers
Содержание курса
1. Введение в Big Data(Большие данные)
Большие данные и цифровая трансформация. Методы аналитики больших данных. Отраслевая специфика аналитики больших данных. Жизненный цикл аналитики данных: Получение данных. Подготовка данных, планирование модели, построение модели, проверка результатов, внедрение.
2. Data Mining - извлечение знаний из больших данных
Задачи Data Mining. Техники Data Mining. Классификация и кластеризация. Прогнозирование и визуализация. Ассоциативные правила и обнаружение аномалий. Методология CRISP-DM. Инструменты Data Mining. Специфика применения Data Mining для разных отраслей бизнеса с примерами.
3. Машинное обучение для Data mining
Основные определения. Задачи и область применения машинного обучения. Supervised/unsupervised машинное обучение. Инструменты и технологии машинного обучения.
4. Data mining в социальных сетях
Введение в анализ социальных сетей и теорию графов. Базовые алгоритмы на графах и основные возможности графового анализа. Феномен маленького мира. Выделение важных узлов в социальных сетях. Инструменты и методы визуализации графов для применения в бизнесе.
5. Анализ текстов в Data Mining
Задачи анализа текста. Методы автоматической обработки текстов. Специфика обработки больших объемов текстов. Sentiment Analysis - определение тональности текста.
6. Инструментарий для работы с Big Data
Специфика работы с Big Data. Аналитика для неструктурированнных данных - Hadoop и MapReduce. Компоненты экосистемы Apache Hadoop для хранения и обработки Big Data (MapReduce, HDFS, YARN, Spark, HBase, и т.д.). Функционал и особенности MapReduce. Введение в Apache Spark. Сравнительный анализ Hadoop дистрибутивов и инструментария аналитика данных на примерах использования.
7. Интеграция Больших данных
Основные принципы работы с Big Data. Импорт и экспорт данных с Hadoop (SQL, NoSQL, HDFS, NFS, потоковые данные, web content, файлы логов, социальные сети). Пакетная и динамическая загрузка данных. Использование Data Management Platform (Платформа управления данными). Архитектура и использование Data Management Platform (DMP).
8. Правовые аспекты организации защиты персональных данных
Правовое регулирование в области защиты персональных данных. Международная практика в области защиты персональных данных. Права субъекта и обязанности оператора при обработке персональных данных. Виды нарушений безопасности персональных данных.
9. С чего начать?
Формирование команды проекта Big Data. Ключевые роли. Специфика рынка данных и аналитики. Отличия подходов Business Intelligence и Data Science. Сравнительные характеристики компонент Экосистемы Hadoop, программных и аппартных решений для реализации решений по Big Data.
Аннотация
Данный курс предоставляет базовые знания необходимые для участия в проектах по анализу больших данных. Включает информацию о фазах жизненного цикла процессов аналитики больших данных при переходе бизнеса к использованию Big Data. Материал курса обеспечивает слушателей знанием базовых и расширенных аналитических методов и техник, применяемых для поиска и извлечения знаний из больших массивов разнородных данных. Сравнение различных дистрибутивов платформы Hadoop, "open source" и коммерческие инструменты используемые для хранения, обработки и аналитики больших данных.
Аудитория
Данный курс предназначен для руководителей, менеджеров и специалистов желающих получить дополнительные знания по инструментам и методам анализа больших данных для участия в проектах больших данных.