Resumen:
Глубокие нейронные сети в настоящее время становятся одним из самых популярных подходов к
созданию систем искусственного интеллекта, таких как распознавание речи, обработка естественного языка,
компьютерное зрение и т.п. В статье представлен обзор истории развития и современного состояния методов
обучению глубоких нейронных сетей. Рассматривается модель искусственной нейронной сети, алгоритмы
обучения нейронных сетей, в том числе алгоритм обратного распространения ошибки, применяемый для
обучения глубоких нейронных сетей. Описывается развитие архитектур нейронных сетей: неокогнитрон,
автокодировщики, сверточные нейронные сети, ограниченная машина Больцмана, глубокие сети доверия,
сети долго-краткосрочной памяти, управляемые рекуррентные нейронные сети и сети остаточного обучения.
Глубокие нейронные сети с большим количеством скрытых слоев трудно обучать из-за проблемы
исчезающего градиента. В статье рассматриваются методы решения этой проблемы, которые позволяют
успешно обучать глубокие нейронные сети с более чем ста слоями. Приводится обзор популярных библиотек
глубокого обучения нейронных сетей, которые сделали возможным широкое практическое применение
данной технологии. В настоящее время для задач компьютерного зрения используются сверточные
нейронные сети, а для обработки последовательностей, в том числе естественного языка, — рекуррентные
нейронные сети, прежде всего сети долго-краткосрочной памяти и управляемые рекуррентные нейронные
сети. At present, deep learning is becoming one of the most popular approach to creation of the artificial
intelligences systems such as speech recognition, natural language processing, computer vision and so on. The
paper presents a historical overview of deep learning in neural networks. The model of the artificial neural network
is described as well as the learning algorithms for neural networks including the error backpropagation algorithm,
Обзор методов обучения глубоких нейронных сетей
50 Вестник ЮУрГУ. Серия «Вычислительная математика и информатика»
which is used to train deep neural networks. The development of neural networks architectures is presented
including neocognitron, autoencoders, convolutional neural networks, restricted Boltzmann machine, deep belief
networks, long short-term memory, gated recurrent neural networks, and residual networks. Training deep neural
networks with many hidden layers is impeded by the vanishing gradient problem. The paper describes the
approaches to solve this problem that provide the ability to train neural networks with more than hundred layers.
An overview of popular deep learning libraries is presented. Nowadays, for computer vision tasks convolutional
neural networks are utilized, while for sequence processing, including natural language processing, recurrent
networks are preferred solution, primarily long short-term memory networks and gated recurrent neural networks.
Descripción:
Созыкин Андрей Владимирович, к.т.н., зав. отделом вычислительной техники,
Институт математики и механики им. Н.Н.Красовского УрО РАН, зав. кафедрой,
высокопроизводительных компьютерных технологий, Уральский федеральный университет
(Екатеринбург, Российская Федерация). A.V. Sozykin
N.N. Krasovskii Institute of Mathematics and Mechanics (S.Kovalevskaya str. 16,
Yekaterinburg, 620990 Russia),
Ural Federal University (Mira str. 19, Yekaterinburg, 620002 Russia)
E-mail: avs@imm.uran.ru