Аннотации:
This paper discusses an approach to automatic generation of intelligent assistants, which provide information
search on the content of a website. A feature of the approach is to use genre models, developed for a given type of
resource (educational, informational, etc.), on the basis of which the genre structuring and subsequent thematic
clustering of the content of the target website is performed. The resulting genre structures allow us to define
more precisely the boundaries of thematic clusters related to the topic of the user’s search query. The search
quality evaluation for the Russian-language websites showed an F-score of 87.8% and originality of 80.9%, which
exceeds the Yandex search engine results by 1.1% and 9.1%, respectively. In order to predict user information
needs, a method for refining the resulting sample is proposed. It allows a user to get information implicitly, based
on current and previous queries, about what the user was not satisfied with in the previous search results. A
model of user’s search intentions has been developed and its computational component includes a method for
evaluating query closeness based on the FRiS function. Based on the proposed methods, a chatbot was created
on the Telegram messenger platform to search the websites of educational institutions. The experiments showed
that the user needs the average of 1.75 qualifying questions to find the necessary information. В данной работе предлагается подход к созданию интеллектуальных помощников в виде чат-ботов,
поддерживающих информационный поиск на основе модели намерений пользователя, предварительной
жанровой и тематической кластеризации контента веб-сайта. Особенностью подхода является использование жанровых моделей, разрабатываемых для заданного типа ресурса (образовательный, информационный и т.п.), на основе которых осуществляется жанровая структуризация контента конкретного сайта.
Полученные жанровые структуры позволяют более точно определять границы тематических кластеров,
относящиеся к теме поискового запроса пользователя. Оценка качества поиска по сайту НГУ показала
F-меру 87.8% и оригинальность 80.9%, что превосходит результаты поисковой системы Яндекс на 1.1% и
9.1% соответственно. С целью повышения качества информационной поддержки пользователя разработана модель поисковых намерений пользователя, которая позволяет неявно получить информацию о том,
что пользователя не устроило в поисковой выдаче и уточнить новый поисковый запрос. В практической
части работы реализован чат-бот на платформе мессенджера Telegram для информационного поиска по
сайтам образовательных организаций. Проведенные эксперименты показали, что пользователю в среднем
требуется 1.75 уточняющих вопросов для нахождения необходимой информации.
Описание:
V.D. Rublev, E.A. Sidorova
A.P. Ershov Institute of Informatics Systems,
Siberian Branch of the Russian Academy of Sciences
(Lavrentieva Avenue 6, Novosibirsk, 630090 Russia)
E-mail: rubleffvlad@gmail.com, lsidorova@iis.nsk.su. Рублев Владислав Дмитриевич, аспирант, Институт систем информатики им. А.П. Ершова Сибирского отделения Российской академии наук, Лаборатория ИИ (Новосибирск,
Россия)
Сидорова Елена Анатольевна, с.н.с., к.ф.-м.н., Институт систем информатики
им. А.П. Ершова Сибирского отделения Российской академии наук, Лаборатория ИИ (Новосибирск, Россия).