Аннотации:
Семантическая сеть слов — это ориентированный граф, вершины которого — лексические значения
слов, а ребра — отношения между ними. В статье представлен комплекс программ SWN, предназначенный
для построения семантической сети слов в автоматическом режиме путем структурирования неразмеченных
словарей синонимов и словарей родо-видовых отношений с использованием векторных представлений слов,
полученных на основе обработки корпуса неструктурированных текстов на естественном языке. Комплекс
программ включает в себя реализацию методов обнаружения групп синонимов и построения отношений
между отдельными значениями слов, основанных на обучении без учителя, а также модуля расширения
отношений, основанного на обучении с учителем. Приведена модель предметной области с использованием
формализма VOWL. Архитектура комплекса программ представлена в формализме UML и включает
модуль обнаружения понятий, модуль построения семантических отношений между значениями слов,
модуль расширения семантических отношений, модуль преобразования результатов работы в форматы
Семантической паутины, и модуль построения оценочного набора данных при помощи краудсорсинга.
Представленный комплекс программ является программным обеспечением с открытым исходным кодом
и доступнен для интеграции в различные системы интеллектуального анализа данных. A semantic word network is a network that represents the semantic relations between individual words or
their lexical senses. In this paper, we present a software system for automatic construction of a semantic word
network. The system, called SWN, is designed for the construction for such a semantic word network and includes
the implementation of unsupervised concept discovery and semantic relation establishing methods as well as the
implementation of a supervised relation expansion method. The methods use widely available language resources,
such as semantic relation dictionaries and background text corpora. The domain model has been presented using
the VOWL notation. The system architecture is represented using the UML notation and is composed of the
concept discovery module, semantic relation construction module, the Semantic Web export module, and the
evaluation dataset construction module based on microtask-based crowdsourcing. The present software system is
open source and is available for integration into third-party data mining systems.
Описание:
Усталов Дмитрий Алексеевич, м.н.с., Институт математики и механики
им. Н.Н. Красовского УрО РАН; ассистент, кафедра высокопроизводительных
компьютерных технологий, Уральский федеральный университет (Екатеринбург,
Российская Федерация)
Созыкин Андрей Владимирович, к.т.н., Институт математики и механики
им. Н.Н. Красовского УрО РАН; зав. каф., кафедра высокопроизводительных
компьютерных технологий, Уральский федеральный университет (Екатеринбург,
Российская Федерация). D.A. Ustalov1,2, A.V. Sozykin1,2
1Krasovskii Institute of Mathematics and Mechanics
(ul. Sofii Kovalevskoy 16, Yekaterinburg, 620990 Russia),
2Ural Federal University (ul. Mira 19, Yekaterinburg, 620002 Russia)
E-mail: dau@imm.uran.ru