Abstract:
В работе описаны два подхода к проблеме восстановления распределенных
программ из контрольных точек. Предложен алгоритм восстановления взаимосвязей типа «родитель-потомок» и алгоритм принадлежности к группам и сеансам для набора процессов в рамках элементарной машины распределенной вычислительной системы. Предложен алгоритм координированного восстановления набора связанных процессов, перезапускаемых раздельно (на различных элементарных машинах или терминалах). Описанные подходы реализованы в системе создания контрольных точек DMTCP (Distributed MultiThreaded Checkpointing). In paper two approaches to distributed programs restore problem from checkpoints set are described. Computation node wide algorithm of parent-child relationships and group/session assignement recreation at restore time is proposed. Also coordinated algorithm for process set restoration from several nodes/terminals is designed. Described algorightms are implemented in checkpointing package called DMTCP (Distributed MultiThreaded Checkpointing).
Description:
Поляков Артем Юрьевич, лаборатория вычислительных систем, институт физики полупроводников им. А.В. Ржанова СО РАН, artpol84@gmail.com.