Грант РФФИ No. 17-07-00463-а  (2017–2019 гг.)
Разработка высокомасштабируемых методов и алгоритмов интеллектуального анализа распределенных данных
на высокопроизводительных компьютерных системах с кластерной архитектурой

 
Аннотация
 
Участники
 
Публикации
 
Апробация
 
Отчеты
 
Диссертации

Участники проекта

Руководитель проекта: Цымблер Михаил Леонидович (mzym@susu.ru)

Основные исполнители проекта:

Аннотация проекта

В настоящее время стандартной платформой для аналитической обработки сверхбольших распределенных хранилищ данных являются высокопроизводительные компьютерные системы с кластерной архитектурой. Одной из важных современных тенденций развития аппаратного обеспечения является широкое распространение многоядерных ускорителей GPU и Intel Xeon Phi, устанавливаемых в том числе на суперкомпьютерные кластеры, входящие в список TOP500. Одной из важных особенностей данных ускорителей является возможность векторизации вычислений – выполнение нескольких скалярных операций при помощи одной векторной инструкции за время, близкое к выполнению скалярной операции. Проект направлен на разработку новых методов и алгоритмов интеллектуального анализа распределенных данных на высокопроизводительных вычислительных кластерах с узлами на базе многоядерных ускорителей, обеспечивающих эффективное использование векторизации вычислений и сверхвысокую масштабируемость обработки данных.

Целью проекта является разработка методов и алгоритмов, позволяющих эффективно использовать высокопроизводительные кластеры с многоядерными ускорителями для интеллектуального анализа распределенных данных. В рамках проекта предполагается рассмотреть задачи интеллектуального анализа временных рядов и поиска шаблонов в распределенных хранилищах данных. Для достижения цели необходимо решить следующие основные задачи:

  1.  Разработать новые параллельные алгоритмы и методы интеллектуального анализа распределенных данных, обеспечивающие сверхвысокую масштабируемость обработки данных на вычислительных кластерах с узлами на базе многоядерных ускорителей; при этом особое внимание предполагается уделить использованию векторизации вычислений и выравнивания данных;

  2. Разработать подход к интеграции созданных методов и алгоритмов в параллельную СУБД;

  3. Выполнить вычислительные эксперименты, исследующие эффективность разработанных методов и алгоритмов на реальных и синтетических данных.

Публикации по проекту

Основные результаты, полученные в ходе выполнения данного проекта, опубликованы в следующих работах:

2019 г.
  1. Zymbler M., Kraeva Ya. Discovery of Time Series Motifs on Intel Many-Core Systems. Lobachevskii Journal of Mathematics. 2019. Vol. 40, No. 12. P. 2124–2132. PDF] DOI: 10.1134/S199508021912014X]
  2. Zymbler M., Kumar S., Kraeva Y., Grents A., Perkova A. Big Data Processing and Analytics Inside DBMS. Selected Papers of the XX International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2019), Kazan, Russia, October 15–18, 2019. CEUR Workshop Proceedings. 2019. Vol. 2523. P. 21. URL] PDF]
  3. Zymbler M., Polyakov A., Kipnis M. Time Series Discord Discovery on Intel Many-Core Systems. 13th International Conference, PCT 2019, Kaliningrad, Russia, April 2–4, 2019, Revised Selected Papers. Communications in Computer and Information Science. 2019. Vol. 1063. P. 168–182. PDF] Scopus] DOI: 10.1007/978-3-030-28163-2_12]
  4. Kraeva Ya., Zymbler M. Scalable Algorithm for Subsequence Similarity Search in Very Large Time Series Data on Cluster of Phi KNL. 20th International Conference on Data Analytics and Management in Data Intensive Domains, DAMDID/RCDL 2018, Moscow, Russia, October 9–12, 2018, Revised Selected Papers. Communications in Computer and Information Science. 2019. Vol. 1003. P. 149–164. PDF] Scopus] DOI: 10.1007/978-3-030-23584-0_9]
  5. Цымблер М.Л. Параллельный алгоритм поиска диссонансов временного ряда для многоядерных ускорителей. Вычислительные методы и программирование: Новые вычислительные технологии. 2019. Т. 20, № 3. С. 211–223. PDF] DOI: 10.26089/NumMet.v20r320] (Перечень ВАК)
  6. Цымблер М.Л. Обзор методов интеграции интеллектуального анализа данных в реляционные СУБД. Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2019. Т. 8, № 2. С. 32–62. PDF] DOI: 10.14529/cmse190203] РИНЦ] (Перечень ВАК)
  7. Речкалов Т.В., Цымблер М.Л. Параллельный алгоритм кластеризации данных для многоядерных ускорителей Intel MIC. Вычислительные методы и программирование: Новые вычислительные технологии. 2019. Т. 20, № 2. С. 104–115. PDF] DOI: 10.26089/NumMet.v20r211] РИНЦ] (Перечень ВАК)
  8. Краева Я.А., Цымблер М.Л. Совместное использование технологий MPI и OpenMP для параллельного поиска похожих подпоследовательностей в сверхбольших временных рядах на вычислительном кластере с узлами на базе многоядерных процессоров Intel Xeon Phi Knights Landing. Вычислительные методы и программирование: Новые вычислительные технологии. 2019. Т. 20, № 1. С. 29–44. PDF] DOI: 10.26089/NumMet.v20r104] РИНЦ] (Перечень ВАК)
  9. Цымблер М.Л. Параллельный поиск частых наборов на многоядерных ускорителях Intel MIC. Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2019. Т. 8, № 1. С. 54–70. PDF] DOI: 10.14529/cmse190104] РИНЦ] (Перечень ВАК)
2018 г.
  1. Zymbler M. Parallel Algorithm for Frequent Itemset Mining on Intel Many-core Systems. Journal of Computing and Information Technology. 2018. Vol. 26, No. 4. P. 209–221. PDF] DOI: 10.20532/cit.2018.1004382] Scopus]

  2. Kraeva Ya., Zymbler M. An Efficient Subsequence Similarity Search on Modern Intel Many-core Processors for Data Intensive Applications. Selected Papers of the XX International Conference on Data Analytics and Management in Data Intensive Domains, DAMDID/RCDL 2018, Moscow, Russia, October 9–12, 2018.  CEUR Workshop Proceedings. 2018. Vol. 2277. P. 143–151. URL] PDF] Scopus]

  3. Kraeva Ya., Zymbler M. An Efficient Subsequence Similarity Search on Modern Intel Many-core Processors for Data Intensive Applications. Аналитика и управление данными в областях с интенсивным использованием данных: Сборник научных трудов XX Международной конференции DAMDID/RCDL'2018 (9–12 октября 2018 г., Москва, МГУ, Россия). С. 116–124. PDF]

  4. Rechkalov T., Zymbler M. A Study of Euclidean Distance Matrix Computation on Intel Many-Core Processors. 12th International Conference, PCT 2018, Rostov-on-Don, Russia, April 2–6, 2018, Revised Selected Papers. Communications in Computer and Information Science. 2018. Vol. 910. P. 200–215. PDF] DOI: 10.1007/978-3-319-99673-8_15] Scopus]

  5. Rechkalov T., Zymbler M. Integrating DBMS and Parallel Data Mining Algorithms for Modern Many-Core Processors. 19th International Conference on Data Analytics and Management in Data Intensive Domains, DAMDID/RCDL 2017, Moscow, Russia, October 10–13, 2017, Revised Selected Papers. Communications in Computer and Information Science. 2018. Vol. 822. P. 230–245. PDF] DOI: 10.1007/978-3-319-96553-6_17] Scopus]

  6. Речкалов Т.В., Цымблер М.Л. Параллельный алгоритм вычисления матрицы Евклидовых расстояний для многоядерного процессора Intel Xeon Phi Knights Landing. Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2018. Т. 7, № 3. С. 65–82. PDF] DOI: 10.14529/cmse180305] (Перечень ВАК)

 2017 г.

  1. Zymbler M. Accelerating Dynamic Itemset Counting on Intel Many-core Systems. Proceedings of the 40th International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO'2017, Opatija, Croatia, May 22–26, 2017. IEEE, 2017. P. 1575–1580. PDF] DOI: 10.23919/MIPRO.2017.7973631] WOS:000426903800234] Scopus]

  2. Rechkalov T., Zymbler M. An Approach to Data Mining Inside PostgreSQL Based on Parallel Implementation of UDFs. Selected Papers of the XIX International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2017), Moscow, Russia, October 9–13, 2017. CEUR Workshop Proceedings. 2017. Vol. 2022. P. 114–121. PDF] URL] Scopus]

  3. Rechkalov T., Zymbler M. An Approach to Data Mining Inside PostgreSQL Based on Parallel Implementation of UDFs. Аналитика и управление данными в областях с интенсивным использованием данных: Сборник научных трудов XIX Международной конференции DAMDID / RCDL'2017 (10–13 октября 2017 г., Москва, МГУ, Россия). С. 147–154. PDF] РИНЦ]

Апробация проекта

Основные результаты, полученные в ходе выполнения данного проекта, докладывались на следующих научных конференциях, семинарах и совещаниях:

2019 г.
  1. Huawei DB+AI Workshop’2019 (12–13 December 2019, Tula, Russia), М.Л. Цымблер, Я.А. Краева, А.В. Гренц, А.И. Перкова, С. Кумар.
    Big Data Processing and Analytics Inside Relational DBMS. PDF]
  2. Международная научная конференция DAMDID/RCDL’2019, Data Analytics and Management in Data Intensive Domains (Kazan, Russia, October 16–18, 2019), М.Л. Цымблер, Я.А. Краева, А.В. Гренц, А.И. Перкова, С. Кумар.
    Big Data Processing and Analytics Inside DBMS. PDF]
  3. Международная научная конференция "Параллельные вычислительные технологии (ПаВТ) 2019" (Калининград, 2–4 апреля 2019 г.), М.Л. Цымблер, А.В. Поляков.
    Time Series Discord Discovery on the Intel Many-core Systems. PDF
2018 г.
  1. Международная научная конференция DAMDID/RCDL’2018, Data Analytics and Management in Data Intensive Domains (Moscow, Russia, October 9–12, 2018), М.Л. Цымблер, Я.А. Краева.
    An Efficient Subsequence Similarity Search on Modern Intel Many-core Processors for Data Intensive Applications. PDF]

  2. Международная научная конференция "Параллельные вычислительные технологии (ПаВТ) 2018" (Ростов-на-Дону, 2–6 апреля 2018 г.), М.Л. Цымблер, Т.В. Речкалов.
    A Study of Euclidean Distance Matrix Computation on Intel Many-core Processors. PDF

 2017 г.

  1. Международная научная конференция DAMDID/RCDL’2017, Data Analytics and Management in Data Intensive Domains (Moscow, Russia, October 10–13, 2017), М.Л. Цымблер, Т.В. Речкалов.
    An Approach to Data Mining Inside PostgreSQL Based on Parallel Implementation of UDFs. PDF]
  2. Международная научная конференция MIPRO 2017 - 40th International Convention (Opatija, Croatia, May 22–26, 2017), М.Л. Цымблер.
    Accelerating Dynamic Itemset Counting on Intel Many-core Systems. PDF]

Диссертации, выполненные в рамках проекта

По теме данного проекта выполнена следующая диссертация:

Цымблер М.Л. Интеллектуальный анализ данных в СУБД. Дис. ... докт. физ.-мат. наук: 05.13.11 / Южно-Уральский государственный университет. Челябинск, 2019. 260 л. Автореферат диссертации в формате PDF. Полный текст диссертации в формате PDF]

Научные отчеты по проект

Текст

 
Изменено: 04.07.2023

Copyright © Кафедра системного программирования ЮУрГУ

Дизайн М.Л. Цымблер