Аннотация курса
- Введение в дисциплину. Феномен Больших данных.
Понятие интеллектуального анализа данных. Технологический цикл анализа
данных. Основные задачи интеллектуального анализа данных.
- Поиск
шаблонов. Понятия транзакции, частого набора, шаблона, поддержки,
достоверности. Основные алгоритмы поиска частых наборов. Выбор полезных
шаблонов. Компактное представление частых наборов.
- Классификация. Процесс классификации: обучение модели, оценка модели,
применение модели. Деревья решений. Байесовская классификация.
Классификация по ближайшим соседям. Оценка качества классификации.
Ансамблевая классификация.
- Кластеризация. Задачи кластеризации данных и
подходы к ее решению. Разделительная кластеризация. Иерархическая
кластеризация. Плотностная кластеризация. Нечеткая кластеризация. Меры
качества кластеризации.
- Поиск аномалий. Понятия аномалии (выброса), шума, новизны в
данных. Виды аномалий. Статистические методы поиска аномалий. Поиск
аномалий на основе расстояния. Поиск аномалий на основе плотности. Поиск
аномалий с помощью кластеризации. Поиск аномалий на основе
классификации.
Слайды к лекциям
- Введение PDF
- Поиск шаблонов
- Основные концепции и алгоритмы
PDF
- Меры полезности
PDF
- Поиск в шаблонов в Больших данных
PDF
- Классификация
- Основные концепции и деревья решений
PDF
- Наивная Байесовская классификация
PDF
- Классификация по ближайшим соседям
PDF
- Оценка качества классификации
PDF
- Ансамблевая классификация
PDF
- Кластеризация
- Основные концепции и разделительная кластеризация
PDF
- Иерархическая кластеризация
PDF
- Плотностная кластеризация
PDF
- Нечеткая кластеризация
PDF
- Оценка качества классификации
PDF
- Поиск аномалий PDF