Аннотации:
Создание аннотированных корпусов текстов имеет критически важное значение для разработки компьютерных технологий обработки неструктурированной информации (автоматической классификации, интеллектуального контент- и тренд-анализов, машинного обучения, машинного перевода и др.) и находится в центре внимания международных теоретических и прикладных лингвистических исследований. При этом ключевым аспектом этих исследований является автоматизация аннотационных процедур, что, в свою очередь, требует статических (лингвистических) и динамических (программных) ресурсов, с возможностью их полного или частичного многократного применения для аннотирования многоязычных текстов различных предметных областей. В настоящей статье представлен опыт применения метода кейс-стади для создания ресурсов автоматизации концептуального аннотирования, одного из самых востребованных и проблематичных видов аннотаций. Под концептуальной аннотацией понимается тип семантической аннотации, ориентированный на решение конкретных информационных задач в рамках определенной предметной области. Методология и конкретные результаты исследования представлены на основе кейс-стади корпусов текстов предметной области «Терроризм» на русском, английском и французском языках. Ресурсы, созданные в ходе исследования, включают в себя как методику их разработки, так и конкретный программный инструментарий и лингвистический материал (многоязычную онтологию и концептуально аннотированные корпусы текстов предметной области «Терроризм» на трех языках). Результаты исследования можно напрямую использовать
для увеличения объема концептуально аннотированных корпусов предметной области «Терроризм», разработки метрик разрешения концептуальной многозначности, а также для автоматизации аннотирования текстов других предметных областей и языков. Результаты настоящего исследования представляют интерес и для сравнительных лингвистических исследований. The development of annotated corpora is crucial for the computer technologies meant to process unstructured information (automatic classification, intellectual content and trend analysis, machine learning, machine translation, etc.). It is therefore one of the focuses of international theoretical and applied linguistic research. The key aspect here is the automation of annotation procedures, which, in turn, requires static (linguistic) and dynamic (software) resources that could be reused, at least partially, for
annotating multilingual texts of various domains. This paper presents an effort to create such resources for the conceptual type of annotation, one of the most popular and problematic annotation levels, by using the case study method. Conceptual annotation is understood as a kind of semantic annotation focused on solving specific information problems within specific domains. The methodology and results of the study are worked out by applying the case study method to the “Terrorism” domain texts in Russian, English and French. The resources created during the research thus include a universal methodology for the resource development, as well as domain oriented software and linguistic material (multilingual ontology and conceptually annotated corpora in three languages), which can directly be used for augmenting the coverage of annotated corpora in the “Terrorism” domain, developing metrics to resolve conceptual ambiguity, as well as for automating text annotation in other domains and languages. The results of the current research are also of interest for contrastive linguistic studies.
Описание:
Шереметьева Светлана Олеговна, доктор филологических наук, доцент, профессор кафедры лингвистики и перевода, Южно-Уральский государственный университет (Челябинск), sheremetevaso@susu.ru
Бабина Ольга Ивановна, кандидат филологических наук, доцент, доцент кафедры лингвистики и перевода, Южно-Уральский государственный университет (Челябинск), babinaoi@susu.ru
Зиновьева Анастасия Юрьевна, аспирант кафедры лингвистики и перевода, Южно-Уральский государственный университет (Челябинск), bihcwd@bk.ru
Неручева Екатерина Дмитриевна, лаборант НОЦ «Лингво-инновационные технологии» института лингвистики и международных коммуникаций, Южно-Уральский государственный университет (Челябинск), neruchevaekaterina@mail.ru
Svetlana O. Sheremetyeva, PhD (Habilitation), professor of the Department of Linguistics and Translation Studies, South Ural State University (Chelyabinsk), sheremetevaso@susu.ru
Olga I. Babina, PhD, associate professor of the Department of Linguistics and Translation Studies, South Ural State University (Chelyabinsk), babinaoi@susu.ru
Anastasia Yu. Zinoveva, post-graduate student of the Department of Linguistics and Translation Studies, South Ural State University (Chelyabinsk), bihcwd@bk.ru
Ekaterina D. Nerucheva, laboratory assistant, Research and Education Centre of Innovative Linguistic Technologies, Institute of Linguistics and International Communications, South Ural State University (Chelyabinsk), neruchevaekaterina@mail.