Аннотации:
Правильное формирование обучающей выборки часто имеет решающее значение в задачах машинного обучения, что признаётся большинством специалистов в данной области. Зачастую решение задач машинного обучения сводится к грамотному формированию обучающей выборки. Несмотря на это, в современной литературе по машинному обучению вопросам
формирования обучающей выборки почти не уделяется внимание, теоретическая база практически отсутствует. В настоящей статье постараемся исправить данный недостаток. В статье
исследуются возможные проблемы и ошибки при формировании обучающей выборки, обобщается опыт авторов в решении задач машинного обучения, предлагаются теоретические модели для описания явлений, связанных с формированием множества обучающих данных,
приводятся методы улучшения обучающей выборки. Даются практические рекомендации на
основе разработанных теоретических моделей. В конце статьи представлены результаты экспериментов, демонстрирующие некоторые из проблем формирования обучающей выборки и
методы их решения на примере задачи обучения деревьев решений. Proper formation of the training set is often crucial in the problems of machine learning, that is
recognized by most experts in machine learning, often solving machine learning problems is reduced
to the competent formation of the training set. Despite this, in the modern literature on machine
learning these issues given undeservedly little attention, although often it is the correct formation of
the training set is crucial for solving practical problems, theoretical basis practically absent. This article
is intended to correct this shortcoming. The article examines the potential problems and errors
in the formation of a training set, summarizes the author’s experience in solving machine learning
tasks, offers a models for describing the phenomena, associated with the formation of a training set,
methods for improving the training set are given. Practical recommendations, based on these theoretical
models, are given. At the end of the article shows the experimental results demonstrating some
of the problems of training set formation and methods for their solution by the example of learning
a decision trees.
Описание:
Кафтанников Игорь Леопольдович, канд. техн. наук, доцент кафедры электронных вычислительных машин, Южно-Уральский государственный университет, г. Челябинск; kil7491@mail.ru.
Парасич Андрей Викторович, аспирант кафедры электронных вычислительных машин,
Южно-Уральский государственный университет, г. Челябинск; parasichav@yandex.ru. I.L. Kaftannikov, kil7491@mail.ru,
A.V. Parasich, parasichav@yandex.ru
South Ural State University, Chelyabinsk, Russian Federation