Грант РФФИ No. 17-07-00463-а  (2017–2019 гг.)
Разработка высокомасштабируемых методов и алгоритмов интеллектуального анализа распределенных данных
на высокопроизводительных компьютерных системах с кластерной архитектурой

 
Аннотация
 
Участники
 
Публикации
 
Апробация
 
Отчеты
 
Диссертации

Участники проекта

Руководитель проекта: Цымблер Михаил Леонидович (mzym@susu.ru)

Основные исполнители проекта:

Аннотация проекта

В настоящее время стандартной платформой для аналитической обработки сверхбольших распределенных хранилищ данных являются высокопроизводительные компьютерные системы с кластерной архитектурой. Одной из важных современных тенденций развития аппаратного обеспечения является широкое распространение многоядерных ускорителей GPU и Intel Xeon Phi, устанавливаемых в том числе на суперкомпьютерные кластеры, входящие в список TOP500. Одной из важных особенностей данных ускорителей является возможность векторизации вычислений – выполнение нескольких скалярных операций при помощи одной векторной инструкции за время, близкое к выполнению скалярной операции. Проект направлен на разработку новых методов и алгоритмов интеллектуального анализа распределенных данных на высокопроизводительных вычислительных кластерах с узлами на базе многоядерных ускорителей, обеспечивающих эффективное использование векторизации вычислений и сверхвысокую масштабируемость обработки данных.

Целью проекта является разработка методов и алгоритмов, позволяющих эффективно использовать высокопроизводительные кластеры с многоядерными ускорителями для интеллектуального анализа распределенных данных. В рамках проекта предполагается рассмотреть задачи интеллектуального анализа временных рядов и поиска шаблонов в распределенных хранилищах данных. Для достижения цели необходимо решить следующие основные задачи:

  1.  Разработать новые параллельные алгоритмы и методы интеллектуального анализа распределенных данных, обеспечивающие сверхвысокую масштабируемость обработки данных на вычислительных кластерах с узлами на базе многоядерных ускорителей; при этом особое внимание предполагается уделить использованию векторизации вычислений и выравнивания данных;

  2. Разработать подход к интеграции созданных методов и алгоритмов в параллельную СУБД;

  3. Выполнить вычислительные эксперименты, исследующие эффективность разработанных методов и алгоритмов на реальных и синтетических данных.

Публикации по проекту

Основные результаты, полученные в ходе выполнения данного проекта, опубликованы в следующих работах:

2018 г.
  1. Kraeva Ya., Zymbler M. An Efficient Subsequence Similarity Search on Modern Intel Many-core Processors for Data Intensive Applications // Selected Papers of the XX International Conference on Data Analytics and Management in Data Intensive Domains, DAMDID/RCDL 2018, Moscow, Russia, October 9–12, 2018.  CEUR Workshop Proceedings. 2018. Vol. 2277. P. 143–151. [URL] [PDF]

  2. Kraeva Ya., Zymbler M. An Efficient Subsequence Similarity Search on Modern Intel Many-core Processors for Data Intensive Applications // Аналитика и управление данными в областях с интенсивным использованием данных: Сборник научных трудов XX Международной конференции DAMDID/RCDL'2018 (9–12 октября 2018 г., Москва, МГУ, Россия). С. 116–124. [PDF]

  3. Rechkalov T., Zymbler M. A Study of Euclidean Distance Matrix Computation on Intel Many-Core Processors // 12th International Conference, PCT 2018, Rostov-on-Don, Russia, April 2–6, 2018, Revised Selected Papers. Communications in Computer and Information Science. 2018. Vol. 910. P. 200–215. [PDF] [DOI: 10.1007/978-3-319-99673-8_15] [Scopus]

  4. Rechkalov T., Zymbler M. Integrating DBMS and Parallel Data Mining Algorithms for Modern Many-Core Processors // 19th International Conference on Data Analytics and Management in Data Intensive Domains, DAMDID/RCDL 2017, Moscow, Russia, October 10–13, 2017, Revised Selected Papers. Communications in Computer and Information Science. 2018. Vol. 822. P. 230–245. [PDF] [DOI: 10.1007/978-3-319-96553-6_17] [Scopus]

  5. Речкалов Т.В., Цымблер М.Л. Параллельный алгоритм вычисления матрицы Евклидовых расстояний для многоядерного процессора Intel Xeon Phi Knights Landing // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2018. Т. 7, № 3. С. 65–82. [PDF] [DOI: 10.14529/cmse180305] (Перечень ВАК)

 2017 г.

  1. Zymbler M. Accelerating Dynamic Itemset Counting on Intel Many-core Systems // Proceedings of the 40th International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO'2017, Opatija, Croatia, May 22–26, 2017. IEEE, 2017. P. 1575–1580. [PDF] [DOI: 10.23919/MIPRO.2017.7973631] [WOS:000426903800234] [Scopus]

  2. Rechkalov T., Zymbler M. An Approach to Data Mining Inside PostgreSQL Based on Parallel Implementation of UDFs // Selected Papers of the XIX International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2017), Moscow, Russia, October 9–13, 2017. CEUR Workshop Proceedings. 2017. Vol. 2022. P. 114–121. [PDF] [URL] [Scopus]

  3. Rechkalov T., Zymbler M. An Approach to Data Mining Inside PostgreSQL Based on Parallel Implementation of UDFs // Аналитика и управление данными в областях с интенсивным использованием данных: Сборник научных трудов XIX Международной конференции DAMDID / RCDL'2017 (10–13 октября 2017 г., Москва, МГУ, Россия). С. 147–154. [PDF] [РИНЦ]

Апробация проекта

Основные результаты, полученные в ходе выполнения данного проекта, докладывались на следующих научных конференциях, семинарах и совещаниях:

2018 г.
  1. Международная научная конференция DAMDID/RCDL’2018, Data Analytics and Management in Data Intensive Domains (Moscow, Russia, October 9–12, 2018), М.Л. Цымблер, Я.А. Краева.
    An Efficient Subsequence Similarity Search on Modern Intel Many-core Processors for Data Intensive Applications. [PDF]

  2. Международная научная конференция "Параллельные вычислительные технологии (ПаВТ) 2018" (Ростов-на-Дону, 2–6 апреля 2018 г.), М.Л. Цымблер, Т.В. Речкалов.
    A Study of Euclidean Distance Matrix Computation on Intel Many-core Processors. [PDF

 2017 г.

  1. Международная научная конференция DAMDID/RCDL’2017, Data Analytics and Management in Data Intensive Domains (Moscow, Russia, October 10–13, 2017), М.Л. Цымблер, Т.В. Речкалов.
    An Approach to Data Mining Inside PostgreSQL Based on Parallel Implementation of UDFs. [PDF]
  2. Международная научная конференция MIPRO 2017 - 40th International Convention (Opatija, Croatia, May 22–26, 2017), М.Л. Цымблер.
    Accelerating Dynamic Itemset Counting on Intel Many-core Systems. [PDF]

Научные отчеты по проекту

Текст

 
Изменено: 15.12.2018

Copyright © Кафедра системного программирования ЮУрГУ

Дизайн М.Л. Цымблер