Resumen:
В настоящее время большие временные ряды используются в широком спектре предметных областей.
Современные системы управления базами данных временных рядов (СУБД-ВР) предлагают, однако, скромный набор встроенных инструментов и средств для интеллектуального анализа данных. Использование
сторонних систем интеллектуального анализа временных рядов приводит в связи с этим к нежелательным
накладным расходам на экспорт данных вне СУБД-ВР, преобразование данных и импорт результатов анализа. В то же время актуальной научной задачей является внедрение методов интеллектуального анализа
данных в реляционные СУБД (РСУБД), которые доминируют на рынке средств управления данными. Однако пока отсутствуют разработки по внедрению методов интеллектуального анализа временных рядов в
РСУБД. В статье предлагается подход к управлению и интеллектуальному анализу временных рядов внутри РСУБД на основе концепции матричного профиля. Матричный профиль представляет собой структуру
данных, которая для каждой подпоследовательности временного ряда сохраняет индекс и расстояние до ее
ближайшего соседа (подпоследовательности ряда, наиболее похожей на данную). Матричный профиль служит основой для обнаружения лейтмотивов (шаблонов), аномалий и других примитивов интеллектуального
анализа временных рядов. Описанный подход реализован в РСУБД PostgreSQL. Представлены результаты вычислительных экспериментов, показавшие более высокую эффективность предложенного подхода по
сравнению с СУБД-ВР InfluxDB и OpenTSDB. Currently, large time series are used in a wide range of subject areas. Modern time series DBMSs (TSDBMS)
offer, however, a modest set of built-in tools for data mining. The use of third-party time series mining systems
to undesirable overhead costs for exporting data outside the TSDBMS, converting data and importing analysis
results. At the same time, there is a topical issue of the embedding of data mining methods into relational DBMSs
(RDBMS), which dominate the market of data management tools. However, there are still no developments of
time series mining methods in RDBMS. The article proposes an approach to the management and mining of time
series data within the RDBMS based on the matrix profile concept. A matrix profile is a data structure that,
for each subsequence of a time series, stores the index of and the distance to its nearest neighbor. The matrix
profile serves as the basis for detecting motifs, anomalies and other primitives of time series mining. The proposed
approach is implemented in the PostgreSQL RDBMS. The experimental results showed a higher efficiency of the
proposed approach compared to the TSDBMS InfluxDB and OpenTSDB.
Descripción:
Иванова Елена Владимировна, к.ф.-м.н., кафедра системного программирования,
Южно-Уральский государственный университет (национальный исследовательский университет) (Челябинск, Российская Федерация).
Цымблер Михаил Леонидович, д.ф.-м.н., доцент, кафедра системного программирования, Южно-Уральский государственный университет (национальный исследовательский
университет) (Челябинск, Российская Федерация). E.V. Ivanova, M.L. Zymbler
South Ural State University (pr. Lenina 76, Chelyabinsk, 454080 Russia)
E-mail: elena.ivanova@susu.ru, mzym@susu.ru