Аннотации:
В работе исследовано применение модели ARIMA прогнозирования временных рядов для анализа открытых данных о распространении коронавирусной инфекции в ряде регионов Российской Федерации. Рассмотрена возможность применения существующих методов и алгоритмов языка программирования для статистической обработки данных R, приводятся алгоритмы подбора параметров модели ARIMA. Разработан
и опубликован скрипт на языке программирования R, позволяющий осуществить с помощью стандартной
библиотеки auto.arima прогнозирование суммарных случаев заражения и летальных исходов на выбранный
промежуток времени. В работе показано, что параметры модели различны для временных рядов разной
длины, для различных регионов, кроме того, параметры модели меняются с течением времени. Исследован имеющийся инструментарий языка R и показано, что существуют наборы данных, для которых он не
позволяет получить параметры модели, дающие наименьшую погрешность. Исследована частота переобучения модели, приведены данные об изменении параметров модели для временных рядов разной длины.
Изучение случаев ошибки автоматического подбора параметров модели является темой для дальнейших
исследований. Приведена содержательная интерпретация полученных данных. Проведено сравнение прогнозов, полученных в конце октября 2020 г. и актуальных данных на середину ноября 2020 г. Показано,
что полученный прогноз позволил достаточно точно предсказать суммарное число заражений и летальных
исходов на 7–10 дней. In our paper we explore the use of the ARIMA model for forecasting time series for the analysis of open
data on the spread of the coronavirus infection in a number of the Russian Federation regions. The possibility of
using the existing methods and algorithms of R programming language is considered, algorithms for selecting the
parameters of the ARIMA model are presented. We have developed and uploaded the script in R programming
language, which allows using the standard library auto.arima to predict the total cases of infection and deaths
for a selected period. The paper shows that the parameters of the model are different for time series of different
lengths, for different regions; in addition, the parameters of the model change over time. The available toolkit
of the R language is investigated and it is shown that there are data sets for which it does not allow obtaining
the parameters of the model that gives the smallest error. The frequency of model retraining is investigated, data
on changes in the model parameters for time series of different lengths are presented. Investigation of cases of
errors in automatic selection of model parameters is a topic for further research. We have presented a meaningful
interpretation of the data obtained. A comparison of the forecasts obtained at the end of October, 2020 and actual
data for the middle of November, 2020 is carried out. We have shown that the obtained forecast made it possible
to accurately predict the total number of infections and deaths for 7–10 days for any further period.
Описание:
Макаровских Татьяна Анатольевна, д.ф.-м.н., доцент, кафедра системного программирования, Южно-Уральский государственный университет (национальный исследовательский университет) (Челябинск, Российская Федерация).
Аботалеб Мостафа Салахелдин Абделсалам, аспирант, кафедра системного программирования, Южно-Уральский государственный университет (национальный исследовательский университет) (Челябинск, Российская Федерация). T.A. Makarovskikh, M.S.A. Abotaleb
South Ural University (pr. Lenina 76, Chelyabinsk, 454080 Russia).
E-mail: Makarovskikh.T.A@susu.ru, abotalebmostafa@yandex.ru