DSpace Repository

Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек

Show simple item record

dc.contributor.author Бондаренко, А. А.
dc.contributor.author Якобовский, М. В.
dc.contributor.author Bondarenko, A. A.
dc.contributor.author Iakobovski, M. V.
dc.date.accessioned 2015-08-21T05:10:03Z
dc.date.available 2015-08-21T05:10:03Z
dc.date.issued 2014
dc.identifier.citation Бондаренко, А. А. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек / А. А. Бондаренко, М. В. Якобовский // Вестник ЮУрГУ. Серия Вычислительная математика и информатика.- 2014.- Т. 3. № 3.- С. 20-36.- Библиогр.: с. 32-33 (33 назв.) ru_RU
dc.identifier.issn 2305-9052
dc.identifier.uri http://dspace.susu.ac.ru/xmlui/handle/0001.74/5158
dc.description Бондаренко Алексей Алексеевич, к.ф.-м.н., научный сотрудник, Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация), bondaleksey@gmail.com. Якобовский Михаил Владимирович, д.ф.-м.н., заведующий сектором «Программное обеспечение вычислительных систем и сетей», Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация), lira@imamod.ru. A.A. Bondarenko, Keldysh Institute of Applied Mathematics (Moscow, Russian Federation), M.V. Iakobovski, Keldysh Institute of Applied Mathematics (Moscow, Russian Federation) ru_RU
dc.description.abstract Рассматриваются вопросы, связанные с проведением расчетов в распределенных вычислительных системах, компоненты которых подвержены отказам. В работе приводятся: определения системы, сбоя, ошибки, отказа и модели сбоя; наиболее важные результаты исследований отказов в параллельных вычислительных системах, в том числе с большими группами дисков; основные существующие методы восстановления и распространенные программные реализации обеспечения отказоустойчивости. Развивается подход обеспечения от- казоустойчивости на уровне пользователя. Данный подход требует непосредственного участия разработчика прикладной программы в реализации метода обеспечения отказоустойчивости, в частности в формировании контрольных точек и процедур восстановления. Предложена схема сохранения в памяти вычислительных узлов данных прикладной программы, формирующих согласованную глобальную контрольную точку. В её рамках осуществляется дублирование локальных контрольных точек, что позволяет восстановить вычислительный процесс, если число отказов не превосходит допустимого для данной схемы уровня. Она может быть использована в различных протоколах восстановления и их модификациях. One of the main problems that occur in the area of high-performance computing is to continue computations despite of failures. In this paper, we consider the main definitions relating to dependability, briefly review the failure rates for distributed systems and also survey the rollbackrecovery approaches. The classic fault-tolerance technique used in parallel applications is the coordinated checkpointing protocol. This protocol takes a consistent global checkpoint snapshot by capturing the local state of each process node simultaneously and saves it on a parallel file system via I/O nodes. However, as the number of compute nodes increases and the size of applications grow, the performance overhead of this protocol can reach an unacceptable level. A solution to this problem is to use local storage for checkpointing. To provide protection, it is necessary to duplicate checkpoints to other local storages. In this work, we develop user level approach and present scheme for checkpointing to the local storages. We proof that, if the number of failures is less than the maximum allowable value for the scheme then it is possible to recover from consistent global checkpoint. ru_RU
dc.language.iso other ru_RU
dc.publisher Издательский центр ЮУрГУ ru_RU
dc.relation.ispartof Вестник ЮУрГу. Серия Вычислительная математика и информатика ru
dc.relation.ispartof Bulletin of South Ural State University. Series 'Computational mathematics and software engineering" en
dc.relation.ispartofseries Вычислительная математика и информатика;Том 3
dc.subject УДК 004.052.3 ru_RU
dc.subject параллельные вычисления ru_RU
dc.subject отказоустойчивость ru_RU
dc.subject контрольные точки ru_RU
dc.subject MPI ru_RU
dc.subject parallel computing ru_RU
dc.subject fault tolerance ru_RU
dc.subject checkpoint ru_RU
dc.subject MPI ru_RU
dc.subject ГРНТИ 50.05 ru_RU
dc.title Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек ru_RU
dc.title.alternative Fault tolerance for hpc by using local checkpoints ru_RU
dc.type Article ru_RU


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account