Аннотация курса
Целью курса является изучение методов и алгоритмов решения основных
задач интеллектуального анализа данных: поиск шаблонов, классификация,
кластеризация, поиск аномалий. Результатом обучения являются умение и
навыки применения указанных методов и алгоритмов при решении
практических задач из реальных предметных областей. Курс покрывает
следующие основные темы:
- Введение в дисциплину. Феномен Больших данных.
Понятие интеллектуального анализа данных. Технологический цикл анализа
данных. Основные задачи интеллектуального анализа данных.
- Поиск
шаблонов. Понятия транзакции, частого набора, шаблона, поддержки,
достоверности. Основные алгоритмы поиска частых наборов. Выбор полезных
шаблонов. Компактное представление частых наборов.
- Классификация. Процесс классификации: обучение модели, оценка модели,
применение модели. Деревья решений. Байесовская классификация.
Классификация по ближайшим соседям. Оценка качества классификации.
Ансамблевая классификация.
- Кластеризация. Задачи кластеризации данных и
подходы к ее решению. Разделительная кластеризация. Иерархическая
кластеризация. Плотностная кластеризация. Нечеткая кластеризация. Меры
качества кластеризации.
- Поиск аномалий. Понятия аномалии (выброса), шума, новизны в
данных. Виды аномалий. Статистические методы поиска аномалий. Поиск
аномалий на основе расстояния. Поиск аномалий на основе плотности. Поиск
аномалий с помощью кластеризации. Поиск аномалий на основе
классификации.
Слайды к лекциям
- Введение PDF
- Поиск шаблонов PDF
- Классификация PDF
- Кластеризация PDF
- Поиск аномалий PDF