Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа

Бондаренко, А.А.; Ляхов, П.А.; Якобовский, М.В.; Bondarenko, A.A.; Lyakhov, P.A.; Yakobovskiy, M.V.

Главная
→
Научные журналы ЮУрГУ
→
Вестник ЮУрГУ. Серия Вычислительная математика и информатика
→
Просмотр элемента

dc.contributor.author	Бондаренко, А.А.
dc.contributor.author	Ляхов, П.А.
dc.contributor.author	Якобовский, М.В.
dc.contributor.author	Bondarenko, A.A.
dc.contributor.author	Lyakhov, P.A.
dc.contributor.author	Yakobovskiy, M.V.
dc.date.accessioned	2021-05-18T10:23:21Z
dc.date.available	2021-05-18T10:23:21Z
dc.date.issued	2019
dc.identifier.citation	Бондаренко, А.А. Координированное сохранение с журналированием передаваемвж данных и асинхронное восстановление в случае отказа / А.А. Бондаренко, П.А. Ляхов, М.В. Якобовский // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. - 2019. - Т. 8, № 2. - С. 76-91. DOI: 10.14529/cmsel90205. Bondarenko A.A., Lyakhov P.A., Yakobovskiy M.V. Coordinated Checkpointing with Sender-based Logging and Asynchronous Recovery from Failure. Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering. 2019. vol. 8, no. 2. pp. 76-91. (in Russian). DOI: 10.14529/cmsel90205.	ru_RU
dc.identifier.issn	2410-7034
dc.identifier.uri	http://dspace.susu.ru/xmlui/handle/0001.74/34924
dc.description	Бондаренко Алексей Алексеевич, к.ф.-м.н., старший научный сотрудник, Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация) Ляхов Павел Александрович, аспирант, Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация) Якобовский Михаил Владимирович, член-корреспондент РАН, д.ф.-м.н., профессор, заместители директора по научной работе, Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация) A.A. Bondarenko, P.A. Lyakhov, M.V. Yakobovskiy Keldysh Institute of Applied Mathematics Russian Academy of Sciences (sq. Miusskaya 4, Moscow, 125047 Russia) E-mail: bondaleksey@gmail.com, pavel.lyakhov@phystech.edu, lira@imamod.ru	ru_RU
dc.description.abstract	Увеличивающийся рост числа компонент суперкомпьютеров приводит специалистов в области НРС к неблагоприятным оценкам для будущих суперкомпьютеров: диапазон среднего времени между отказами будет составлять от 1 часа до 9 часов. Данная оценка ставит под вопрос возможность проведения длительных расчетов на суперкомпьютерах. В работе предлагается метод восстановления после отказов, не требующий возврата большинства процессов к последней контрольной точке, что может позволить сократить накладные расходы для некоторых вычислительных алгоритмов. Стандартный метод обеспечения отказоустойчивости заключается в координированном сохранении, а в случае отказа осуществляется возврат всех процессов к последней контрольной точке. Предлагаемая стратегия заключается в координированном сохранении и журналировании передаваемых данных, а в случае отказа происходит асинхронное восстановление. При асинхронном восстановлении несколько запасных процессов проводят пересчет данных потерянных после отказа, а остальные процессы находятся в ожидании окончания процедуры восстановления потерянных данных. Разработаны параллельные программы, решающие задачу о распространении тепла в тонкой пластине. В данных программах отказы происходят после вызова функции raise (SIGKILL), а координированное или асинхронное восстановление осуществляется с помощью функционала ULFM. Для получения теоретических оценок накладных расходов предложен имитационный метод, моделирующий исполнение программы с отказами. В данном методе отказ может произойти во время расчетов, а также во время сохранения контрольных точек или в ходе восстановления. Проведено сравнение методов восстановления при разных значениях частоты отказов для задачи распространения тепла в тонкой пластине, в которой объем данных для журналирования незначителен. Сравнение показало, что применение асинхронного восстановления приводит к сокращению накладных расходов от 22 % до 40 % при теоретической оценке и от 13 % до 53 % в вычислительном эксперименте. The increasing growth in the number of components of supercomputers leads HPC specialists to unfavorable estimates for future supercomputers: “the range of the mean time between failures will be from f hour to 9 hours.” This estimate leads to the problem of long calculations on supercomputers. In this paper, we propose a recovery method from failure which does not require rollback for all processes. This method can reduce overhead costs for some computational algorithms. The standard fault tolerance method consists of two phases: coordinated checkpointing and rollback of all processes to the last checkpoint in the case of a failure. The proposed method includes coordinated checkpointing with sender-based logging and asynchronous recovery when most processes wait and several processes recalculate the lost data. We developed parallel programs to solve the problem of heat transfer in the thin plate. In these programs, failures occur by calling the function raise(SfGKlLL), and coordinated or asynchronous recovery is performed by ULFM functions. In order to obtain theoretical estimates of overhead costs, we propose a simulation model of program execution with failures. This model assumes that failures strike during computations, checkpointing and recovery. We made a comparison of recovery methods with different failure rates for the problem with a small amount of data for logging. The comparison showed that the use of asynchronous recovery results in a reduction of overhead costs by theoretical estimates from 22 % to 40 %, and by computational experiments from f3 % to 53 %.	ru_RU
dc.description.sponsorship	Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований в рамках научного проекта № 17-07-01604 а.	ru_RU
dc.publisher	Издательский центр ЮУрГУ	ru_RU
dc.relation.ispartof	Вестник ЮУрГу. Серия Вычислительная математика и информатика	ru
dc.relation.ispartof	Bulletin of South Ural State University. Series 'Computational mathematics and software engineering"	en
dc.relation.ispartofseries	Вычислительная математика и информатика;Т. 8
dc.subject	УДК 004.052.3	ru_RU
dc.subject	MPI	ru_RU
dc.subject	расширение ULFM	ru_RU
dc.subject	контрольные точки	ru_RU
dc.subject	координированное сохранение	ru_RU
dc.subject	асинхронное восстановление	ru_RU
dc.subject	отказоустойчивость	ru_RU
dc.subject	ULFM extension	ru_RU
dc.subject	coordinated checkpointing	ru_RU
dc.subject	asynchronous recovery	ru_RU
dc.subject	fault tolerance	ru_RU
dc.title	Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа	ru_RU
dc.title.alternative	Coordinated Checkpointing with Sender-based Logging and Asynchronous Recovery from Failure	ru_RU
dc.type	Article	ru_RU
dc.identifier.doi	DOI: 10.14529/cmsel90205