Репозиторий Dspace

Моделирование отказов в высокопроизводительных вычислительных системах в рамках стандарта MPI и его расширения ULFM

Показать сокращенную информацию

dc.contributor.author Бондаренко, А. А.
dc.contributor.author Якобовский, М. В.
dc.contributor.author Bondarenko, A. A
dc.contributor.author Iakobovski, M. V.
dc.date.accessioned 2016-06-03T07:11:13Z
dc.date.available 2016-06-03T07:11:13Z
dc.date.issued 2015
dc.identifier.citation Бондаренко, А. А. Моделирование отказов в высокопроизводительных вычислительных системах в рамках стандарта MPI и его расширения ULFM / А. А. Бондаренко, М. В. Якобовский // Вестник ЮУрГУ. Серия Вычислительная математика и информатика.- 2015.- Т. 4. № 3.- С. 5-12.- Библиогр.: с. 10-12 (5 назв.) ru_RU
dc.identifier.issn 2305-9052
dc.identifier.issn 2410-7034
dc.identifier.uri http://dspace.susu.ac.ru/xmlui/handle/0001.74/6474
dc.description Бондаренко Алексей Алексеевич, к.ф.-м.н., научный сотрудник, Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация).bondaleksey@gmail.com. Якобовский Михаил Владимирович, д.ф.-м.н., заведующий сектором «Программное обеспечение вычислительных систем и сетей», Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация), lira@imamod.ru A. A. Bondarenko, Keldysh Institute of Applied Mathematics (Moscow, Russian Federation) bondaleksey@gmail.com,M. V. Iakobovski, Keldysh Institute of Applied Mathematics (Moscow, Russian Federation)lira@imamod.ru ru_RU
dc.description.abstract Рассматривается проблема выполнения длительных расчетов на высокопроизводительных вычислительных системах, компоненты которых подвержены отказам. Для программ, запускаемых на подобных системах, существенным является возможность обработки отказов путем автоматического продолжения расчета на оставшихся работоспособных узлах системы. Возможность обработки отказов предусматривается в разрабатываемом стандарте MPI 3.1. В работе кратко описывается библиотека моделирования отказов для тестирования отказоустойчивых алгоритмов, использующих функционал разрабатываемого стандарта MPI 3.1. Описана техника отказоустойчивости на примере тестовой задачи. Проведено сравнение записи контрольных точек в оперативную память и в распределенную файловую систему. In this paper, we consider one of the main problems that occur in the area of highperformance computing is to continue computations despite of failures. For the programs running on such systems it is very important to handle failures and continue computations on working nodes. One of the MPI 3.1 standardization efforts aim is adding new techniques, approaches, or concepts to support for fault tolerance in MPI applications. The paper briefly describes a library for simulation of failures and testing fault-tolerant algorithms using functional of developing MPI 3.1 standard. In the test problem we describe one of the techniques of fault tolerance and we compare checkpoint in operational memory versus checkpoint in the distributed file system. ru_RU
dc.language.iso other ru_RU
dc.publisher Издательский центр ЮУрГУ ru_RU
dc.relation.ispartof Вестник ЮУрГу. Серия Вычислительная математика и информатика ru
dc.relation.ispartof Bulletin of South Ural State University. Series 'Computational mathematics and software engineering" en
dc.relation.ispartofseries Вычислительная математика и информатика;Том 4
dc.subject параллельные вычисления ru_RU
dc.subject отказоустойчивость ru_RU
dc.subject контрольные точки ru_RU
dc.subject MPI ru_RU
dc.subject ULFM ru_RU
dc.subject моделирование отказов ru_RU
dc.subject parallel computing ru_RU
dc.subject fault tolerance ru_RU
dc.subject checkpoint ru_RU
dc.subject emulation of failures ru_RU
dc.subject УДК 004.052.3 ru_RU
dc.subject ГРНТИ 50.07 ru_RU
dc.title Моделирование отказов в высокопроизводительных вычислительных системах в рамках стандарта MPI и его расширения ULFM ru_RU
dc.title.alternative Simulation of failures in high-performance computing systems under MPI - ULFM ru_RU
dc.type Article ru_RU


Файлы в этом документе

Данный элемент включен в следующие коллекции

Показать сокращенную информацию

Поиск в DSpace


Расширенный поиск

Просмотр

Моя учетная запись