DSpace - Digital Repository Unimib

Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка

Mostra i principali dati dell'item

dc.contributor.author Усталов, Д. А.
dc.contributor.author Гольдштейн, М. Л.
dc.contributor.author Ustalov, D. A.
dc.contributor.author Goldstein, M. L.
dc.date.accessioned 2013-09-20T04:02:24Z
dc.date.available 2013-09-20T04:02:24Z
dc.date.issued 2012
dc.identifier.citation Усталов, Д. А. Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка / Д. А. Усталов, М. Л. Гольдштейн // Вестник ЮУрГУ. Серия Математическое моделирование и программирование.- 2012.- Вып. 13. № 27 (286).- С. 119-127.- Библиогр.: с. 125-127 (16 назв.) ru_RU
dc.identifier.issn 2071-0216
dc.identifier.uri http://dspace.susu.ac.ru/handle/0001.74/2558
dc.description Дмитрий Алексеевич Усталов, бакалавр информационных систем, старший програм мист отдела вычислительной техники, Институт математики и механики УрО РАН (г. Екатеринбург, Российская Федерация), dau@imm.uran.ru. D.A. Ustalov, Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences (Yekaterinburg, Russian Federation) . Михаил Людвигович Гольдштейн, кандидат технических наук, заведующий отделом вычислительной техники, Институт математики и механики УрО РАН (г. Екатеринбург, Российская Федерация), mlg@imm.uran.ru. M.L. Goldstein, Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences (Yekaterinburg, Russian Federation) ru_RU
dc.description.abstract В статье рассмотрен подход к масштабированию сервиса морфологического раз- бора слов естественного языка при обработке различных коллекций документов на русском языке. Выполнен обзор и критический анализ существующих решений. Сформированы требования к инструментальной среде словарного морфологического анализатора. Распределенная архитектура Web–сервиса морфологического анализа, предназначенного для обработки крупных коллекций документов на русском языке, представлена в виде структурной модели. Данная архитектура реализована в виде прототипа системы на языке программирования Ruby. Приведена структура используемого морфологического словаря в виде реляционной схемы. Испытания данного метода в распределенной вычислительной среде показали линейную масштабируемость предлагаемого решения. Конфигурация эксперимента включает систему генерации нагрузки в виде HTTP–запросов, систему балансировки нагрузки на рабочие узлы распределенной системы, серверы приложений с функционирующим анализатором и базу данных морфологического словаря, а также кэширующий узел для снижения издержек при выполнении запросов к словарю. Применение данного подхода позволяет получить линейный рост производительности в распределенных системах автоматической обработки больших объемов текста. This article describes an approach to scaling service morphological parsing of words of natural language processing of various collections of documents in Russian. An overview and critical analysis of existing solutions. The requirements workbench vocabulary morphological analyzer were established. The distributed architecture of the web service morphological analysis, designed to a handle large collections of documents in Russian, presented the form of a structural model. This architecture is implemented as a prototype system in the programming language Ruby. The structure used in the morphological dictionary of a relational schema. Tests of this method in a distributed computing environment showed linear scalability of the proposed solutions. The configuration of the experiment involves the generation of the system load as a HTTP requests, system load balancing working nodes of a distributed system, application servers with a functioning database analyzer and morphological dictionary, as well as a caching node to reduce costs when you run queries to the dictionary. Applying this approach provides a linear increase in performance in distributed systems, automated processing of large volumes of text. ru_RU
dc.language.iso other ru_RU
dc.publisher Издательский центр ЮУрГУ ru_RU
dc.relation.isformatof Вестник ЮУрГУ. Серия Математическое моделирование и программирование ru_RU
dc.relation.isformatof Vestnik Yuzhno-Ural'skogo Gosudarstvennogo Universiteta. Seriya Matematicheskoe modelirovanie i programmirovanie ru_RU
dc.relation.isformatof Bulletin of SUSU ru_RU
dc.relation.ispartofseries Математическое моделирование и программирование;Вып. 13
dc.subject распределенные вычисления ru_RU
dc.subject обработка естественного языка ru_RU
dc.subject корпусная лингвистика ru_RU
dc.subject обработка больших объемов данных ru_RU
dc.subject морфологический анализ ru_RU
dc.subject distributed computing ru_RU
dc.subject natural language processing ru_RU
dc.subject corpus linguistics ru_RU
dc.subject data-intensive computing ru_RU
dc.subject morphological analysis ru_RU
dc.subject УДК 004.912 ru_RU
dc.subject УДК 004.655 ru_RU
dc.title Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка ru_RU
dc.title.alternative A distributed dictionary – based morphological analysis framework for russian language processing ru_RU
dc.type Article ru_RU


Files in questo item

Questo item appare nelle seguenti collezioni

Mostra i principali dati dell'item

Cerca in DSpace


Ricerca Avanzata

Ricerca

My Account