Репозиторий Dspace

Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа

Показать сокращенную информацию

dc.contributor.author Бондаренко, А.А.
dc.contributor.author Ляхов, П.А.
dc.contributor.author Якобовский, М.В.
dc.contributor.author Bondarenko, A.A.
dc.contributor.author Lyakhov, P.A.
dc.contributor.author Yakobovskiy, M.V.
dc.date.accessioned 2021-05-18T10:23:21Z
dc.date.available 2021-05-18T10:23:21Z
dc.date.issued 2019
dc.identifier.citation Бондаренко, А.А. Координированное сохранение с журналированием передаваемвж данных и асинхронное восстановление в случае отказа / А.А. Бондаренко, П.А. Ляхов, М.В. Якобовский // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. - 2019. - Т. 8, № 2. - С. 76-91. DOI: 10.14529/cmsel90205. Bondarenko A.A., Lyakhov P.A., Yakobovskiy M.V. Coordinated Checkpointing with Sender-based Logging and Asynchronous Recovery from Failure. Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering. 2019. vol. 8, no. 2. pp. 76-91. (in Russian). DOI: 10.14529/cmsel90205. ru_RU
dc.identifier.issn 2410-7034
dc.identifier.uri http://dspace.susu.ru/xmlui/handle/0001.74/34924
dc.description Бондаренко Алексей Алексеевич, к.ф.-м.н., старший научный сотрудник, Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация) Ляхов Павел Александрович, аспирант, Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация) Якобовский Михаил Владимирович, член-корреспондент РАН, д.ф.-м.н., профессор, заместители директора по научной работе, Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация) A.A. Bondarenko, P.A. Lyakhov, M.V. Yakobovskiy Keldysh Institute of Applied Mathematics Russian Academy of Sciences (sq. Miusskaya 4, Moscow, 125047 Russia) E-mail: bondaleksey@gmail.com, pavel.lyakhov@phystech.edu, lira@imamod.ru ru_RU
dc.description.abstract Увеличивающийся рост числа компонент суперкомпьютеров приводит специалистов в области НРС к неблагоприятным оценкам для будущих суперкомпьютеров: диапазон среднего времени между отказами будет составлять от 1 часа до 9 часов. Данная оценка ставит под вопрос возможность проведения длительных расчетов на суперкомпьютерах. В работе предлагается метод восстановления после отказов, не требующий возврата большинства процессов к последней контрольной точке, что может позволить сократить накладные расходы для некоторых вычислительных алгоритмов. Стандартный метод обеспечения отказоустойчивости заключается в координированном сохранении, а в случае отказа осуществляется возврат всех процессов к последней контрольной точке. Предлагаемая стратегия заключается в координированном сохранении и журналировании передаваемых данных, а в случае отказа происходит асинхронное восстановление. При асинхронном восстановлении несколько запасных процессов проводят пересчет данных потерянных после отказа, а остальные процессы находятся в ожидании окончания процедуры восстановления потерянных данных. Разработаны параллельные программы, решающие задачу о распространении тепла в тонкой пластине. В данных программах отказы происходят после вызова функции raise (SIGKILL), а координированное или асинхронное восстановление осуществляется с помощью функционала ULFM. Для получения теоретических оценок накладных расходов предложен имитационный метод, моделирующий исполнение программы с отказами. В данном методе отказ может произойти во время расчетов, а также во время сохранения контрольных точек или в ходе восстановления. Проведено сравнение методов восстановления при разных значениях частоты отказов для задачи распространения тепла в тонкой пластине, в которой объем данных для журналирования незначителен. Сравнение показало, что применение асинхронного восстановления приводит к сокращению накладных расходов от 22 % до 40 % при теоретической оценке и от 13 % до 53 % в вычислительном эксперименте. The increasing growth in the number of components of supercomputers leads HPC specialists to unfavorable estimates for future supercomputers: “the range of the mean time between failures will be from f hour to 9 hours.” This estimate leads to the problem of long calculations on supercomputers. In this paper, we propose a recovery method from failure which does not require rollback for all processes. This method can reduce overhead costs for some computational algorithms. The standard fault tolerance method consists of two phases: coordinated checkpointing and rollback of all processes to the last checkpoint in the case of a failure. The proposed method includes coordinated checkpointing with sender-based logging and asynchronous recovery when most processes wait and several processes recalculate the lost data. We developed parallel programs to solve the problem of heat transfer in the thin plate. In these programs, failures occur by calling the function raise(SfGKlLL), and coordinated or asynchronous recovery is performed by ULFM functions. In order to obtain theoretical estimates of overhead costs, we propose a simulation model of program execution with failures. This model assumes that failures strike during computations, checkpointing and recovery. We made a comparison of recovery methods with different failure rates for the problem with a small amount of data for logging. The comparison showed that the use of asynchronous recovery results in a reduction of overhead costs by theoretical estimates from 22 % to 40 %, and by computational experiments from f3 % to 53 %. ru_RU
dc.description.sponsorship Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований в рамках научного проекта № 17-07-01604 а. ru_RU
dc.publisher Издательский центр ЮУрГУ ru_RU
dc.relation.ispartof Вестник ЮУрГу. Серия Вычислительная математика и информатика ru
dc.relation.ispartof Bulletin of South Ural State University. Series 'Computational mathematics and software engineering" en
dc.relation.ispartofseries Вычислительная математика и информатика;Т. 8
dc.subject УДК 004.052.3 ru_RU
dc.subject MPI ru_RU
dc.subject расширение ULFM ru_RU
dc.subject контрольные точки ru_RU
dc.subject координированное сохранение ru_RU
dc.subject асинхронное восстановление ru_RU
dc.subject отказоустойчивость ru_RU
dc.subject ULFM extension ru_RU
dc.subject coordinated checkpointing ru_RU
dc.subject asynchronous recovery ru_RU
dc.subject fault tolerance ru_RU
dc.title Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа ru_RU
dc.title.alternative Coordinated Checkpointing with Sender-based Logging and Asynchronous Recovery from Failure ru_RU
dc.type Article ru_RU
dc.identifier.doi DOI: 10.14529/cmsel90205


Файлы в этом документе

Данный элемент включен в следующие коллекции

Показать сокращенную информацию

Поиск в DSpace


Расширенный поиск

Просмотр

Моя учетная запись