Грант РФФИ No. 17-07-00463-а  (2017–2019 гг.)
Разработка высокомасштабируемых методов и алгоритмов интеллектуального анализа распределенных данных
на высокопроизводительных компьютерных системах с кластерной архитектурой

 
Аннотация
 
Участники
 
Публикации
 
Апробация
 
Отчеты
 
Диссертации

Участники проекта

Руководитель проекта: Цымблер Михаил Леонидович (mzym@susu.ru)

Основные исполнители проекта:

Аннотация проекта

В настоящее время стандартной платформой для аналитической обработки сверхбольших распределенных хранилищ данных являются высокопроизводительные компьютерные системы с кластерной архитектурой. Одной из важных современных тенденций развития аппаратного обеспечения является широкое распространение многоядерных ускорителей GPU и Intel Xeon Phi, устанавливаемых в том числе на суперкомпьютерные кластеры, входящие в список TOP500. Одной из важных особенностей данных ускорителей является возможность векторизации вычислений – выполнение нескольких скалярных операций при помощи одной векторной инструкции за время, близкое к выполнению скалярной операции. Проект направлен на разработку новых методов и алгоритмов интеллектуального анализа распределенных данных на высокопроизводительных вычислительных кластерах с узлами на базе многоядерных ускорителей, обеспечивающих эффективное использование векторизации вычислений и сверхвысокую масштабируемость обработки данных.

Целью проекта является разработка методов и алгоритмов, позволяющих эффективно использовать высокопроизводительные кластеры с многоядерными ускорителями для интеллектуального анализа распределенных данных. В рамках проекта предполагается рассмотреть задачи интеллектуального анализа временных рядов и поиска шаблонов в распределенных хранилищах данных. Для достижения цели необходимо решить следующие основные задачи:

  1.  Разработать новые параллельные алгоритмы и методы интеллектуального анализа распределенных данных, обеспечивающие сверхвысокую масштабируемость обработки данных на вычислительных кластерах с узлами на базе многоядерных ускорителей; при этом особое внимание предполагается уделить использованию векторизации вычислений и выравнивания данных;

  2. Разработать подход к интеграции созданных методов и алгоритмов в параллельную СУБД;

  3. Выполнить вычислительные эксперименты, исследующие эффективность разработанных методов и алгоритмов на реальных и синтетических данных.

Публикации по проекту

Основные результаты, полученные в ходе выполнения данного проекта, опубликованы в следующих работах:

2019 г.
  1. Zymbler M., Polyakov A., Kipnis M. Time Series Discord Discovery on Intel Many-Core Systems // 13th International Conference, PCT 2019, Kaliningrad, Russia, April 2–4, 2019, Revised Selected Papers. Communications in Computer and Information Science. 2019. Vol. 1063. P. 168–182. [PDF] [Scopus] [DOI: 10.1007/978-3-030-28163-2_12]
  2. Kraeva Ya., Zymbler M. Scalable Algorithm for Subsequence Similarity Search in Very Large Time Series Data on Cluster of Phi KNL // 20th International Conference on Data Analytics and Management in Data Intensive Domains, DAMDID/RCDL 2018, Moscow, Russia, October 9–12, 2018, Revised Selected Papers. Communications in Computer and Information Science. 2019. Vol. 1003. P. 149–164. [PDF] [Scopus] [DOI: 10.1007/978-3-030-23584-0_9]
  3. Цымблер М.Л. Параллельный алгоритм поиска диссонансов временного ряда для многоядерных ускорителей // Вычислительные методы и программирование: Новые вычислительные технологии. 2019. Т. 20, № 3. С. 211–223. [PDF] [DOI: 10.26089/NumMet.v20r320] (Перечень ВАК)
  4. Цымблер М.Л. Обзор методов интеграции интеллектуального анализа данных в реляционные СУБД // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2019. Т. 8, № 2. С. 32–62. [PDF] [DOI: 10.14529/cmse190203] [РИНЦ] (Перечень ВАК)
  5. Речкалов Т.В., Цымблер М.Л. Параллельный алгоритм кластеризации данных для многоядерных ускорителей Intel MIC // Вычислительные методы и программирование: Новые вычислительные технологии. 2019. Т. 20, № 2. С. 104–115. [PDF] [DOI: 10.26089/NumMet.v20r211] [РИНЦ] (Перечень ВАК)
  6. Краева Я.А., Цымблер М.Л. Совместное использование технологий MPI и OpenMP для параллельного поиска похожих подпоследовательностей в сверхбольших временных рядах на вычислительном кластере с узлами на базе многоядерных процессоров Intel Xeon Phi Knights Landing // Вычислительные методы и программирование: Новые вычислительные технологии. 2019. Т. 20, № 1. С. 29–44. [PDF] [DOI: 10.26089/NumMet.v20r104] [РИНЦ] (Перечень ВАК)
  7. Цымблер М.Л. Параллельный поиск частых наборов на многоядерных ускорителях Intel MIC // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2019. Т. 8, № 1. С. 54–70. [PDF] [DOI: 10.14529/cmse190104] [РИНЦ] (Перечень ВАК)
2018 г.
  1. Zymbler M. Parallel Algorithm for Frequent Itemset Mining on Intel Many-core Systems // Journal of Computing and Information Technology. 2018. Vol. 26, No. 4. P. 209–221. [PDF] [DOI: 10.20532/cit.2018.1004382] [Scopus]

  2. Kraeva Ya., Zymbler M. An Efficient Subsequence Similarity Search on Modern Intel Many-core Processors for Data Intensive Applications // Selected Papers of the XX International Conference on Data Analytics and Management in Data Intensive Domains, DAMDID/RCDL 2018, Moscow, Russia, October 9–12, 2018.  CEUR Workshop Proceedings. 2018. Vol. 2277. P. 143–151. [URL] [PDF] [Scopus]

  3. Kraeva Ya., Zymbler M. An Efficient Subsequence Similarity Search on Modern Intel Many-core Processors for Data Intensive Applications // Аналитика и управление данными в областях с интенсивным использованием данных: Сборник научных трудов XX Международной конференции DAMDID/RCDL'2018 (9–12 октября 2018 г., Москва, МГУ, Россия). С. 116–124. [PDF]

  4. Rechkalov T., Zymbler M. A Study of Euclidean Distance Matrix Computation on Intel Many-Core Processors // 12th International Conference, PCT 2018, Rostov-on-Don, Russia, April 2–6, 2018, Revised Selected Papers. Communications in Computer and Information Science. 2018. Vol. 910. P. 200–215. [PDF] [DOI: 10.1007/978-3-319-99673-8_15] [Scopus]

  5. Rechkalov T., Zymbler M. Integrating DBMS and Parallel Data Mining Algorithms for Modern Many-Core Processors // 19th International Conference on Data Analytics and Management in Data Intensive Domains, DAMDID/RCDL 2017, Moscow, Russia, October 10–13, 2017, Revised Selected Papers. Communications in Computer and Information Science. 2018. Vol. 822. P. 230–245. [PDF] [DOI: 10.1007/978-3-319-96553-6_17] [Scopus]

  6. Речкалов Т.В., Цымблер М.Л. Параллельный алгоритм вычисления матрицы Евклидовых расстояний для многоядерного процессора Intel Xeon Phi Knights Landing // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2018. Т. 7, № 3. С. 65–82. [PDF] [DOI: 10.14529/cmse180305] (Перечень ВАК)

 2017 г.

  1. Zymbler M. Accelerating Dynamic Itemset Counting on Intel Many-core Systems // Proceedings of the 40th International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO'2017, Opatija, Croatia, May 22–26, 2017. IEEE, 2017. P. 1575–1580. [PDF] [DOI: 10.23919/MIPRO.2017.7973631] [WOS:000426903800234] [Scopus]

  2. Rechkalov T., Zymbler M. An Approach to Data Mining Inside PostgreSQL Based on Parallel Implementation of UDFs // Selected Papers of the XIX International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2017), Moscow, Russia, October 9–13, 2017. CEUR Workshop Proceedings. 2017. Vol. 2022. P. 114–121. [PDF] [URL] [Scopus]

  3. Rechkalov T., Zymbler M. An Approach to Data Mining Inside PostgreSQL Based on Parallel Implementation of UDFs // Аналитика и управление данными в областях с интенсивным использованием данных: Сборник научных трудов XIX Международной конференции DAMDID / RCDL'2017 (10–13 октября 2017 г., Москва, МГУ, Россия). С. 147–154. [PDF] [РИНЦ]

Апробация проекта

Основные результаты, полученные в ходе выполнения данного проекта, докладывались на следующих научных конференциях, семинарах и совещаниях:

2019 г.
  1. Международная научная конференция "Параллельные вычислительные технологии (ПаВТ) 2019" (Калининград, 2–4 апреля 2019 г.), М.Л. Цымблер, А.В. Поляков.
    Time Series Discord Discovery on the Intel Many-core Systems. [PDF
2018 г.
  1. Международная научная конференция DAMDID/RCDL’2018, Data Analytics and Management in Data Intensive Domains (Moscow, Russia, October 9–12, 2018), М.Л. Цымблер, Я.А. Краева.
    An Efficient Subsequence Similarity Search on Modern Intel Many-core Processors for Data Intensive Applications. [PDF]

  2. Международная научная конференция "Параллельные вычислительные технологии (ПаВТ) 2018" (Ростов-на-Дону, 2–6 апреля 2018 г.), М.Л. Цымблер, Т.В. Речкалов.
    A Study of Euclidean Distance Matrix Computation on Intel Many-core Processors. [PDF

 2017 г.

  1. Международная научная конференция DAMDID/RCDL’2017, Data Analytics and Management in Data Intensive Domains (Moscow, Russia, October 10–13, 2017), М.Л. Цымблер, Т.В. Речкалов.
    An Approach to Data Mining Inside PostgreSQL Based on Parallel Implementation of UDFs. [PDF]
  2. Международная научная конференция MIPRO 2017 - 40th International Convention (Opatija, Croatia, May 22–26, 2017), М.Л. Цымблер.
    Accelerating Dynamic Itemset Counting on Intel Many-core Systems. [PDF]

Научные отчеты по проекту

Текст

 
Изменено: 22.08.2019

Copyright © Кафедра системного программирования ЮУрГУ

Дизайн М.Л. Цымблер