Аннотации:
настоящее время во многих предметных областях обработка сенсорных данных в режиме реального
времени связана с необходимостью синтеза значения соответствующего временного ряда, которое было пропущено ввиду технического сбоя или человеческого фактора. В данной статье предлагается параллельный
алгоритм восстановления пропущенных значений потокового временного ряда в режиме реального времени
для многоядерного процессора. Алгоритм использует набор опорных временных рядов, которые имеют семантическую связь с исходным рядом. Алгоритм применяет следующую эвристику: если в опорных рядах
имеют место повторяющиеся (схожие) подпоследовательности, то в ряде, содержащем пропущенное значение, повторяющиеся подпоследовательности возникают в тех же временн´ых интервалах. Образцами поиска
для каждого опорного ряда полагаются подпоследовательности заданной длины, оканчивающиеся в момент
пропуска значения в исходном ряде. Схожесть подпоследовательностей с образцом определяется на основе
меры DTW (Dynamic Time Warping), имеющей квадратичную вычислительную сложность относительно
длины подпоследовательности. Применяется техника нижних границ схожести, позволяющая отбрасывать
подпоследовательности, заведомо непохожие на образец, без вычисления DTW. Нижние границы имеют
меньшую, чем у DTW сложность, и вычисляются параллельно. Восстановленное значение вычисляется
как среднее арифметическое последних элементов найденных интервалов. В вычислительных экспериментах предложенный алгоритм демонстрирует высокую точность восстановления в сравнении с аналогами и
быстродействие, приемлемое для применения алгоритма в режиме реального времени. Currently, in many subject areas, the processing of sensor data in real time assumes imputation of values
missed due to a technical failure or a human factor. This article proposes a parallel algorithm for imputation the
missing values of a streaming time series in real time for a many-core processor. The algorithm employs a set of
reference time series that have a semantic relationship with the original time series. The algorithm exploits the
following heuristics: if there are repeated (similar) subsequences in the reference time series, then in the time
series containing the missing value, repeated subsequences occur in the same time intervals. For each reference
time series, a query is defined as a subsequence of a given length ending at the moment when the value in the
original time series was missed. The similarity of the subsequences with the query is determined based on the
DTW (Dynamic TimeWarping) measure that is of quadratic computational complexity relative to the subsequence
length. The algorithm employs the lower bounding technique to discard subsequences that are obviously dissimilar
to the query, without calculating DTW. The lower bounds have less complexity than DTW and are calculated
in parallel. The imputed value is calculated as the arithmetic mean of the last elements of the found intervals. In
computational experiments, the proposed algorithm demonstrates high imputation accuracy in comparison with
analogs and performance acceptable for real-time applications.
Описание:
Цымблер Михаил Леонидович, д.ф.-м.н., доцент, кафедра системного программирования, Южно-Уральский государственный университет (национальный исследовательский
университет) (Челябинск, Российская Федерация)
Полуянов Андрей Николаевич, к.т.н., старший научный сотрудник, Институт математики им. С.Л. Соболева СО РАН (Омск, Российская Федерация)
Краева Яна Александровна, старший преподаватель, кафедра системного программирования, Южно-Уральский государственный университет (национальный исследовательский университет) (Челябинск, Российская Федерация). M.L. Zymbler1, A.N. Poluyanov2, Ya.A. Kraeva1
1South Ural State University (pr. Lenina 76, Chelyabinsk, 454080 Russia),
2S.L. Sobolev Institute of Mathematics SB RAS (Pevtsova str. 13, Omsk, 644043 Russia)
E-mail: mzym@susu.ru, andrey.poluyanov@gmail.com, kraevaya@susu.ru