Аннотации:
В статье рассмотрена модель территориально распределенной вычислительной системы (ТРС),
состоящей из объединенных каналами связи высокопроизводительных вычислительных установок.
Вычислительные установки из состава ТРС представляют собой высокопроизводительные кластеры,
различающиеся по архитектуре и производительности. Объединяющие их каналы связи имеют
разные надежность и пропускную способность. Особенностью рассматриваемой модели является
децентрализованная схема управления заданиями. Подобная схема подразумевает, что любая
вычислительная установка в любой момент времени может выйти из состава ТРС по причине своей
неисправности или неисправности канала связи. Устранение неисправности означает динамическое
подключение вычислительной установки к ТРС. В этих условиях в ТРС организуется глобальная
очередь заданий с абсолютными приоритетами, из которой задания распределяются по свободным
ресурсам вычислительных установок. Абсолютные приоритеты предполагают вытеснение с выполнения
низкоприоритетного задания поступившим в очередь высокоприоритетным заданием. Для формирования
и хранения глобальной очереди заданий в условиях динамически изменяющегося состава ТРС необходима
надежная распределенная информационная система (РИС). В качестве основы для ее построения
авторами рассмотрен ряд известных распределенных СУБД. В статье сформулированы требования к РИС,
проведен сравнительный анализ и сделан выбор решения, удовлетворяющего требованиям, рассмотрен
разработанный авторами макет ТРС с децентрализованной схемой диспетчеризации заданий. The geographically distributed computing infrastructure (DCI) considered in the paper includes high
performance computing systems united by communication channels. Computing systems from the DCI are
high-performance clusters differing in architecture and performance. Communication channels uniting clusters
have different reliability and bandwidth. The considered model of DCI has a decentralized jobs management
and dispatching scheme. This scheme implies that at any time malfunction of any computing cluster or a failure
in the communication channel can cause cluster’s leaving the DCI. Cluster’s or channel’s troubleshooting means
dynamically connecting the cluster to the DCI. The global job queue is organized in this computing infrastructure.
Computing jobs have absolute priorities, and high priority job can interrupt low priority running jobs. Jobs
from the global queue allocate on idle resources of computing systems. Forming and storing global job queue in
conditions of dynamically changing DCI composition needs the reliable information system. The authors reviewed
some distributed DBMSs as the basis of this information system. The article outlines the requirements for a
distributed information system. The authors conducted a comparative analysis and selected a solution that
satisfies the requirements, and designed prototype of the geographically distributed computing infrastructure
with the decentralized scheme of jobs dispatching.
Описание:
Баранов Антон Викторович, к.т.н., доц., в.н.с., Межведомственный
суперкомпьютерный центр Российской академии наук – филиал Федерального
государственного учреждения «Федеральный научный центр Научно-исследовательский
институт системных исследований Российской академии наук» (Москва, Российская
Федерация).
Тихомиров Артем Игоревич, стажер-исследователь, Межведомственный
суперкомпьютерный центр Российской академии наук – филиал Федерального
государственного учреждения «Федеральный научный центр Научно-исследовательский
институт системных исследований Российской академии наук» (Москва, Российская
Федерация). A.V. Baranov, A.I. Tikhomirov
Joint Supercomputer Center of the Russian Academy of Sciences - Branch of Federal State
Institution «Scientific Research Institute for System Analysis of the Russian Academy of
Sciences», (pr. Leninsky 32a, Moscow, 119334 Russia)
E-mail: tema4277@rambler.ru