Abstract:
The paper is devoted to the problems of question-answer systems development
(QA-systems). The subject of the study is discussion of approaches to the
automatic filling of the database of the QA-system based on the analysis of the
unstructured text sources currently available in the public domain of the Internet.
The analysis reveals that the following ways of implementing QA-systems
are distinguished: based on inference for ontologies, rules and syntax, using artificial
neural networks.
The methods for automatically search of question-answer pairs based on the
structure of sentences and on the basis of associative-ontological analysis has been
developed and tested in the research.
The method based on the analysis of the structure of sentences is effective for
texts such as lists of frequently asked questions (FAQ), as well as literature texts
containing dialogs, direct speech, based on preliminary processing of the text, expressed
in the form of a heuristic rule.
The method based on associative-ontological analysis is focused to the class
of reference and dictionary texts and is based on the assumption that in the descriptive
text there is a sentence (or a group of sentences) containing the main
idea of the text. In this case, the title of the text can be considered a question, and
this sentence (or a group of sentences) is the answer. We need to make the selection
of meaning-generating sentences due to the semantic reduction of the text
automation. For this purpose, algorithms of self-referencing are applied based on
the associative-ontological approach to the processing of texts in natural language.
For the experimental verification of the possibility of creating an open QAsystem
based on the automatic collection of question-answer pairs from the
Internet, a prototype of a collection module for the database of the QA-system
has been developed. Работа посвящена проблемам построения речевых вопросно-ответных систем (QA-систем).
Предметом исследования являются подходы к автоматическому наполнению базы данных вопросно-ответной системы путем анализа неструктурированных текстовых источников, имеющихся в настоящий момент времени в открытом доступе в сети Интернет.
В результате анализа выявлено, что выделяют следующие способы реализации QA-систем:
на основе логического вывода по онтологиям, правилам и на основе синтаксиса, с использованием искусственных нейронных сетей.
В исследовании разработаны и протестированы методы автоматического выделения вопросно-ответных пар на основе структуры предложений и на основе ассоциативно-онтологического
анализа.
Метод на основе анализа структуры предложений эффективен для текстов типа списков часто задаваемых вопросов (FAQ), а также художественных текстов, содержащих диалоги, прямую
речь, основан на предварительной обработке текста, выраженный в виде эвристического правила.
Метод на основе ассоциативно-онтологического анализа ориентирован на класс справочных
и словарных текстов и основан на предположении о том, что в тексте описательного характера
имеется предложение (или группа предложений), содержащее основную мысль текста. В этом
случае заголовок текста может считаться вопросом, а это предложение (или группа предложений) – ответом. Для автоматизации выделения смыслообразующих предложений за счет семантической редукции текста применяются алгоритмы реферирования на основе ассоциативно-
онтологического подхода к обработке текстов на естественном языке.
Для экспериментальной проверки возможности создания открытой вопросно-ответной системы на базе автоматического сбора вопросно-ответных пар из сети Интернет был разработан
прототип модуля сбора базы данных вопросно-ответной системы.
Description:
А.Л. Ронжин, А.А. Зайцева, С.В. Кулешов, К.В. Ненаусников
Санкт-Петербургский институт информатики и автоматизации Российской академии наук,
г. Санкт-Петербург, Россия
E-mail: ronzhin@iias.spb.su. A.L. Ronzhin, A.A. Zaytseva, S.V. Kuleshov, K.V. Nenausnikov
Saint-Petersburg Institute for Informatics and Automation of Russian Academy of Science,
Saint-Petersburg, Russian Federation
E-mail: ronzhin@iias.spb.su