Data Science: Анализ данных, визуализация и моделирование в R
Содержание курса
Программа
Тема 1. Основы методологии статистического анализа данных и моделирования – 2 ак.ч.
-
· Виды первичных данных для анализа
-
· Понятие генеральной совокупности и выборки
-
· Виды выборок при изучении данных
-
· Шкалы измерения переменных
-
· Направления анализа статистических данных
-
· Описательная и аналитическая статистика
-
· Выбор методов описательного анализа
-
· Выбор методов проверки гипотез
-
· Выбор методов изучения взаимосвязи
-
· Понятие точечной и интервальной оценки
-
· Понятие статистической гипотезы
-
· Виды статистических гипотез
-
· Виды статистических ошибок
-
· Принципы проверки статистических гипотез
-
· Понятие Data Mining
-
· Понятие машинного обучения
-
· Основные классы задач моделирования
-
· Инструменты для анализа данных и моделирования
Тема 2. Введение в работу в среде R – 2 ак.ч.
-
· Особенности работы в пакете R
-
· Установка программы R
-
· Среда R
-
· Правила задания команд
-
· Задание рабочей директории
-
· Пакеты R
-
· Графические интерфейсы
-
· R как калькулятор
-
· Справочная система R
-
· Сохранение результатов
Тема 3. Основы программирования в среде R – 2 ак.ч.
-
· Виды объектов в R
-
· Вектора
-
· Основные операции над векторами
-
· Списки
-
· Матрицы
-
· Факторы
-
· Таблицы данных
-
· Выражения
-
· Операторы доступа к данным
-
· Функции и аргументы
-
· Циклы и условные операторы
-
· Основные команды управления данными
-
· Векторизация операций
-
· Режим отладки
Тема 4. Ввод и организация данных для анализа в среде R – 1 ак.ч.
-
· Способы загрузки данных
-
· Непосредственный ввод данных
-
· Ввод данных в таблице
-
· Загрузка текстовых файлов с разделителем
-
· Загрузка текстовых файлов фиксированной длины
-
· Загрузка данных из MS Excel и других программ
-
· Сохранение данных во внешних форматах
-
· Представление количественных переменных
-
· Представление номинальных и порядковых переменных
-
· Задание пропущенных значений в данных
-
· Поиск логических несоответствий и ошибок в данных
-
· Работа с пропущенными данными
Тема 5. Графические возможности R – 1 ак.ч.
-
· Графические команды
-
· Команды рисования высокого уровня
-
· Команды рисования низкого уровня
-
· Интерактивная графика
-
· Графические устройства вывода
-
· Графические параметры
Тема 6. Подготовка и исследование данных перед моделированием – 2 ак.ч.
-
· Определение целевой переменной
-
· Определение независимых переменных
-
· Меры центральной тенденции для количественных данных
-
· Меры разброса для количественных данных
-
· Процентили и их анализ
-
· Графический анализ распределения: гистограмма и ящичковая диаграмма
-
· Нормальный закон распределения
-
· Обзор основных распределений, отличных от нормального
-
· Анализ выбросов в данных
-
· Анализ категориальных данных
-
· Категоризация количественных переменных
-
· Стандартизация количественных данных
-
· Нормализация количественных данных
Тема 7. Статистические тесты выявлений различий в выборках – 2 ак.ч.
-
· Z-критерий для сравнения долей
-
· Одновыборочный t-критерий
-
· t-критерий для сравнения независимых выборок
-
· t-критерий для сравнения зависимых выборок
-
· Условия применения непараметрических критериев
-
· Одновыборочный критерий знаковых рангов Вилкоксона
-
· Критерий Манна-Уитни
-
· Критерий знаков Вилкоксона для связанных выборок
Тема 8. Оценка взаимосвязи между переменными – 4 ак.ч.
-
· Анализ взаимосвязи на основе таблиц сопряженности
-
· Ожидаемые частоты и остатки в таблицах сопряженности
-
· Критерий независимости хи-квадрат
-
· Классификация видов взаимосвязи
-
· Визуальный анализ наличия взаимосвязи: диаграммы рассеяния
-
· Коэффициент корреляции Пирсона
-
· Ранговые коэффициенты корреляции
-
· Коэффициент корреляции Спирмена
-
· Проверка значимости связи
-
· Интервальная оценка коэффициента корреляции Пирсона
-
· Частные коэффициенты корреляции
Тема 9. Моделирование связи с помощью дисперсионного анализа – 4 ак.ч.
-
· Модели дисперсионного анализа
-
· Предпосылки применения дисперсионного анализа
-
· Модель однофакторного дисперсионного анализа
-
· Таблица дисперсионного анализа
-
· Оценка степени влияния фактора
-
· Апостериорные критерии парных сравнений
-
· Дисперсионный анализ с двумя и более факторами
-
· Графическая интерпретация взаимодействия факторов
-
· Непараметрический дисперсионный анализ Крускала-Уоллиса
-
· Критерий Фридмана для зависимых выборок
Тема 10. Линейный и нелинейный регрессионный анализ – 4 ак.ч.
-
· Основные понятия регрессионного анализа
-
· Парная и множественная линейная модель регрессии
-
· Предпосылки линейного регрессионного анализа
-
· Проверка предпосылок регрессионного анализа
-
· Оценка коэффициентов регрессии МНК
-
· Проверка обоснованности модели регрессии
-
· Значимость уравнения регрессии
-
· Значимость коэффициентов регрессии
-
· Отбор переменных в регрессионном анализе
-
· Оценка точности уравнения регрессии: коэффициент детерминации
-
· Оценка статистической устойчивости уравнения регрессии
-
· Точечная и интервальная оценка зависимой переменной
-
· Категориальные независимые переменные в линейной модели регрессии
-
· Проблема мультиколлинеарности и способы ее устранения
-
· Нелинейные регрессионные модели
-
· Виды нелинейных регрессионных моделей
-
· Преобразование нелинейных моделей к линейным
Тема 11. Бинарный классификатор на основе логистической регрессии – 4 ак.ч.
· Понятие модели бинарного выбора
· Модель логистической регрессии
· Достоинства и недостатки логистической регрессии
· Алгоритм построения логистической регрессии
· Оценка коэффициентов логистической регрессии методом максимального правдоподобия
· Проверка обоснованности модели логистической регрессии
· Логарифм правдоподобия и проверка значимости уравнения
· Оценки коэффициента детерминации
· Критерий Хосмера-Лемешева
· Проверка значимости коэффициентов и их интервальные оценки
· Интерпретация коэффициентов при количественных и категориальных предикторах
· Методы отбора предикторов
· Прогноз зависимой переменной
· Таблица классификации
· Чувствительность и специфичность модели
· ROC-анализ
· Показатели качества классификации: AUC, Джини
Тема 12. Методы многомерной кластеризации –4 ак.ч.
· Обзор методов многомерной кластеризации
· Понятие и области применения кластерного анализа
· Задачи и методы кластерного анализа
· Преимущества и недостатки кластерного анализа
· Этапы кластерного анализа
· Исходные данные в многомерном анализе
· Меры различия между количественными данными
· Меры различия и сходства между количественными данными
· Меры различия и сходства между бинарными данными и их оценка
· Меры различия между частотными данными и их оценка
· Анализ качества классификации
· Особенности иерархического кластерного анализа
· Алгоритм иерархических методов кластерного анализа
· Меры расстояния между кластерами
· Графическое представление результатов иерархического кластерного анализа
· Сущность и особенности метода k-средних
· Алгоритм метода k-средних
· Графическое представление результатов
Тема 13. Изучение структуры данных методом факторного анализа – 4 ак.ч.
· Понятие факторного и компонентного анализа
· Цель и задачи факторного анализа
· Этапы реализации методов снижения размерности
· Алгоритм компонентного анализа
· Алгоритм факторного анализа
· Предпосылки применения факторного и компонентного анализа
· Сравнение факторного и компонентного анализов
· Правила отбора факторов
· Выбор метода факторного анализа
· Проблема вращения факторов
· Матрица нагрузок и ее интерпретация
· Диаграмма «каменистой осыпи» и отбор факторов на ее основе
· Получение значений факторов на объекте и работа с ними
Тема 14. Классификация и предсказание на основе деревьев решений – 4 ак.ч.
· Цель метода деревьев решений
· Терминология деревьев решений
· Задачи построения деревьев решения
· Преимущества и недостатки метода деревьев решений
· Методы деревьев решений
· Описание метода CHAID
· Особенности метода исчерпывающий CHAID
· Особенности метода CRT
· Проблемы построения деревьев решений
· Бэггинг
· Градиентный бустинг
· Метод случайного леса
Аннотация
Данный курс является необходимым для получения практических навыков работы с программой R при анализе больших данных и моделировании. R – бесплатный язык программирования для статистической обработки данных, визуализации данных и моделирования. Пройдя данный курс Вы освоите основы программирования в пакете R. Узнаете, как загружать, сохранять и преобразовывать данные, создавать графики и проводить базовый статистический анализ. Научитесь проводить углубленный статистический анализ и строить статистические модели в зависимости от поставленных бизнес-задач. Слушатели получат системное теоретическое представление об основных классах моделей Data Mining, а также практический опыт их построения. Курс практический, все темы иллюстрируются практическими примерами реализации в пакете R.
Аудитория
1. IT-специалисты по работе с большими данными, желающие повысить свою квалификацию и стать аналитиками;
2. бизнес-аналитики, желающие систематизировать свои знания по статистическому анализу и моделированию, а также освоить новый инструмент для анализа данных – R;
3. руководители, желающие получить расширенную теоретическую и практическую подготовку по использованию программы R для аналитических расчетов и моделирования.
Предварительная подготовка
· Знание программы R не требуется
· Практический опыт работы с данными
· Желательно знание основ статистики
· Желательны навыки программирования