Abstract:
The choosing the best prediction method of education results is major challenge of Educational Data Mining (EDM). This EDM paper compares the results of student's performance forecast produced
by the individual binary classifiers (Naive Bayes, Decision Tree, Multi-Layer Perceptron, Nearest Neighbors, Support Vector Machine algorithms) and their ensembles, which are trained (tested) on dataset containing up to 38 input attributes (weekly attendance in mathematics, the intensity of study, interim assessment) of 84 (36) secondary school students from Nasiriyah, Iraq. The two-class school performance was predicted - passing or not passing on final exam. Three following
stages of comparison were completed. At the first stage of the experiment, the dependence of classifiers from the input attributes was investigated. It was shown that the forecast accuracy rises from 61.1-77.7% when all 38 attributes were used, to 75.0-80.5%, if base classifier trained with five attributes pre-selected by Ranker Search method. Then, in second stage, to each of the base classifier the AdaBoost Ml procedure has been applied and five homogenous ensembles were created. And only two of these ensembles demonstrated small rise of 3% in accuracy comparing to corresponding stand-alone classifier, but the overall maximal prediction accuracy of 80.5% stayed the same. Finally,
comparing the accuracies of 77.7% and 83.3% achieved by the heterogeneous ensemble consisted of five simple voting base classifiers and by the heterogeneous meta-ensemble of five simple voting AdaBoost homogenous ensembles correspondingly, we conclude that improvement of the quality of the individual classifier or homogeneous ensembles allows to construct more powerful EDM prediction
methods. Сравниваются результаты прогнозирования итогов обучения бинарных классификаторов и их ансамблей с использованием пяти алгоритмов машинного обучения: Naive Bayes, Decision Tree, Multi-Layer Perceptron, Nearest Neighbors, Support Vector Machine. Все классификаторы
обучались (тестировались) на наборе данных, содержащих до 38 входных атрибутов,
отражавших посещаемость уроков по математике, интенсивность обучения и промежуточные
оценки 84 (36) учащихся средних школ из города Эн-Насирии, Ирак; прогнозировалось
два класса их оценок на экзамене по математике. Эксперимент проводился в три этапа. Сначала было показано, что точность прогнозов классификаторов поднимается с 61,1-77,7 %, при использовании всего набора атрибутов, до 75,0-80,5 %, когда классификаторы обучались на данных из пяти атрибутов, выбранных методом ранжирования Ranker Search. Затем на втором
этапе к каждому из этих слабых классификаторов была применена процедура бустинга AdaBoost M1 и были созданы пять однородных ансамблей. Некоторые из этих ансамблей демонстрировали
3%-ный рост точности, но их максимальная точность не превышала точности лучшего автономного классификатора (80,5 %). Тем не менее сравнение точности гетерогенного
ансамбля, состоявшего из базовых классификаторов, обученных на ранжированных атрибутах
(77,7 %), и мета-ансамбля, состоявшего из пяти однородных ансамблей AdaBoost (83,3 %), позволяет сделать вывод, что улучшение качества отдельных классификаторов и составление
из них гетерогенных ансамблей позволяет построить более мощные методы анализа
образовательных данных.
Descrizione:
Y.K. Salal, Yasskhudheirsalal@gmail.com,
S.M. Abdullaev, abdullaevsm@susu.ru
South Ural State University, Chelyabinsk, Russian Federation. Салал Ясс Кхудейр, аспирант кафедры системного программирования, Южно-Уральский государственный университет, г. Челябинск; Yasskhudheirsalal@gmail.com.
Абдуллаев Санжар Муталович, д-р геогр. наук, профессор кафедры системного программирования,
Южно-Уральский государственный университет, г. Челябинск; abdullaevsm@susu.ru.