Аннотации:
Исследуется задача получения блоков операций и потоков операций параллельного алгоритма, приводящих к меньшему числу обращений к глобальной памяти и к эффективному использованию параллельными потоками вычислений кэшей и разделяемой памяти графического процессора. Сформулированы и доказаны утверждения, позволяющие оценить объем коммуникационных операций, порождаемых альтернативными вариантами задания размеров блоков вычислений, а также минимизировать число промахов кэша за
счет использования временной и пространственной локальности данных с учетом размера и длины строк
кэша. Исследования конструктивны и допускают программную реализацию для практического использования. The problem of obtaining blocks of operations and threads of parallel algorithm resulting in a smaller number
of accesses to global memory and resulting in the efficient use of caches and shared memory graphics processor
is investigated. We formulated and proved statements to assess the volume of communication transactions generated
by alternative sizing of blocks, as well as to minimize the number of cache misses due to the use of temporal
and spatial locality of data. The research is constructive and allows software implementation for practical use.
Описание:
Н.А. Лиходед, М.А. Полещук
Белорусский государственный университет
(220030 Республика Беларусь, Минск, пр. Независимости, д. 4)
E-mail: likhoded@bsu.by, poleschuma@bsu.by. N.A. Likhoded, M.A. Paliashchuk
Belarusian State University (Nezavisimosti avenue 4, Minsk, 220030 Republic of Belarus)
E-mail: likhoded@bsu.by, poleschuma@bsu.by