Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек

Бондаренко, А. А.; Якобовский, М. В.; Bondarenko, A. A.; Iakobovski, M. V.

Главная
→
Научные журналы ЮУрГУ
→
Вестник ЮУрГУ. Серия Вычислительная математика и информатика
→
Просмотр элемента

dc.contributor.author	Бондаренко, А. А.
dc.contributor.author	Якобовский, М. В.
dc.contributor.author	Bondarenko, A. A.
dc.contributor.author	Iakobovski, M. V.
dc.date.accessioned	2015-08-21T05:10:03Z
dc.date.available	2015-08-21T05:10:03Z
dc.date.issued	2014
dc.identifier.citation	Бондаренко, А. А. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек / А. А. Бондаренко, М. В. Якобовский // Вестник ЮУрГУ. Серия Вычислительная математика и информатика.- 2014.- Т. 3. № 3.- С. 20-36.- Библиогр.: с. 32-33 (33 назв.)	ru_RU
dc.identifier.issn	2305-9052
dc.identifier.uri	http://dspace.susu.ac.ru/xmlui/handle/0001.74/5158
dc.description	Бондаренко Алексей Алексеевич, к.ф.-м.н., научный сотрудник, Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация), bondaleksey@gmail.com. Якобовский Михаил Владимирович, д.ф.-м.н., заведующий сектором «Программное обеспечение вычислительных систем и сетей», Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация), lira@imamod.ru. A.A. Bondarenko, Keldysh Institute of Applied Mathematics (Moscow, Russian Federation), M.V. Iakobovski, Keldysh Institute of Applied Mathematics (Moscow, Russian Federation)	ru_RU
dc.description.abstract	Рассматриваются вопросы, связанные с проведением расчетов в распределенных вычислительных системах, компоненты которых подвержены отказам. В работе приводятся: определения системы, сбоя, ошибки, отказа и модели сбоя; наиболее важные результаты исследований отказов в параллельных вычислительных системах, в том числе с большими группами дисков; основные существующие методы восстановления и распространенные программные реализации обеспечения отказоустойчивости. Развивается подход обеспечения от- казоустойчивости на уровне пользователя. Данный подход требует непосредственного участия разработчика прикладной программы в реализации метода обеспечения отказоустойчивости, в частности в формировании контрольных точек и процедур восстановления. Предложена схема сохранения в памяти вычислительных узлов данных прикладной программы, формирующих согласованную глобальную контрольную точку. В её рамках осуществляется дублирование локальных контрольных точек, что позволяет восстановить вычислительный процесс, если число отказов не превосходит допустимого для данной схемы уровня. Она может быть использована в различных протоколах восстановления и их модификациях. One of the main problems that occur in the area of high-performance computing is to continue computations despite of failures. In this paper, we consider the main definitions relating to dependability, briefly review the failure rates for distributed systems and also survey the rollbackrecovery approaches. The classic fault-tolerance technique used in parallel applications is the coordinated checkpointing protocol. This protocol takes a consistent global checkpoint snapshot by capturing the local state of each process node simultaneously and saves it on a parallel file system via I/O nodes. However, as the number of compute nodes increases and the size of applications grow, the performance overhead of this protocol can reach an unacceptable level. A solution to this problem is to use local storage for checkpointing. To provide protection, it is necessary to duplicate checkpoints to other local storages. In this work, we develop user level approach and present scheme for checkpointing to the local storages. We proof that, if the number of failures is less than the maximum allowable value for the scheme then it is possible to recover from consistent global checkpoint.	ru_RU
dc.language.iso	other	ru_RU
dc.publisher	Издательский центр ЮУрГУ	ru_RU
dc.relation.ispartof	Вестник ЮУрГу. Серия Вычислительная математика и информатика	ru
dc.relation.ispartof	Bulletin of South Ural State University. Series 'Computational mathematics and software engineering"	en
dc.relation.ispartofseries	Вычислительная математика и информатика;Том 3
dc.subject	УДК 004.052.3	ru_RU
dc.subject	параллельные вычисления	ru_RU
dc.subject	отказоустойчивость	ru_RU
dc.subject	контрольные точки	ru_RU
dc.subject	MPI	ru_RU
dc.subject	parallel computing	ru_RU
dc.subject	fault tolerance	ru_RU
dc.subject	checkpoint	ru_RU
dc.subject	MPI	ru_RU
dc.subject	ГРНТИ 50.05	ru_RU
dc.title	Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек	ru_RU
dc.title.alternative	Fault tolerance for hpc by using local checkpoints	ru_RU
dc.type	Article	ru_RU