Аннотация курса

Целью курса является изучение методов и алгоритмов решения основных задач интеллектуального анализа данных: поиск шаблонов, классификация, кластеризация, поиск аномалий. Результатом обучения являются умение и навыки применения указанных методов и алгоритмов при решении практических задач из реальных предметных областей. Курс покрывает следующие основные темы:

  • Введение в дисциплину. Феномен Больших данных. Понятие интеллектуального анализа данных. Технологический цикл анализа данных. Основные задачи интеллектуального анализа данных.
  • Поиск шаблонов. Понятия транзакции, частого набора, шаблона, поддержки, достоверности. Основные алгоритмы поиска частых наборов. Выбор полезных шаблонов. Компактное представление частых наборов.
  • Классификация. Процесс классификации: обучение модели, оценка модели, применение модели. Деревья решений. Байесовская классификация. Классификация по ближайшим соседям. Оценка качества классификации. Ансамблевая классификация.
  • Кластеризация. Задачи кластеризации данных и подходы к ее решению. Разделительная кластеризация. Иерархическая кластеризация. Плотностная кластеризация. Нечеткая кластеризация. Меры качества кластеризации.
  • Поиск аномалий. Понятия аномалии (выброса), шума, новизны в данных. Виды аномалий. Статистические методы поиска аномалий. Поиск аномалий на основе расстояния. Поиск аномалий на основе плотности. Поиск аномалий с помощью кластеризации. Поиск аномалий на основе классификации.

Слайды к лекциям

  • Введение PDF
  • Поиск шаблонов PDF
  • Классификация PDF
  • Кластеризация PDF
  • Поиск аномалий PDF