Применение трехкомпонентных ключей для полнотекстового поиска с учетом расстояния с гарантированным временем отклика

Веретенников, А.Б.; Veretennikov, A.B.

Главная
→
Научные журналы ЮУрГУ
→
Вестник ЮУрГУ. Серия Вычислительная математика и информатика
→
Просмотр элемента

Применение трехкомпонентных ключей для полнотекстового поиска с учетом расстояния с гарантированным временем отклика

Веретенников, А.Б.; Veretennikov, A.B.

URI: http://dspace.susu.ru/xmlui/handle/0001.74/26558

Дата: 2018

Аннотации:

Рассматриваются задачи поиска фраз и наборов слов в большом объеме текстов. В результате поиска получаем список документов, содержащих заданные слова, при этом документы, где слова располагаются ближе друг к другу, считаются более релевантными. Поскольку эта задача требует сохранения в индексе информации о каждом вхождении каждого слова в текстах, запросы, включающие часто встречающиеся слова, требуют для своего выполнения длительного времени. В некоторых поисковых системах предлагается ввести список стоп слов, которые не учитываются при поиске, но этот подход снижает качество поиска. В данной работе при поиске обрабатываются все слова и применяются дополнительные индексы. С помощью дополнительных индексов время выполнения поискового запроса, включающего часто встречающиеся слова, может быть снижено в десятки раз. Разработан новый вид индекса с трехкомпонентными ключами. Приведены алгоритмы поиска и результаты экспериментов поиска в сравнении с обычными индексами. Эксперименты показывают, что при применении разработанных индексов для определенного класса запросов, состоящих из самых часто встречающихся слов, скорость поиска возрастает более чем в 90 раз. Searches for phrases and word sets in large text arrays by means of additional indexes are considered. A search result is a list of documents that contain specified words. A document which contains the query words near each other is more important. Such a tack required to store one posting per any word occurrence in a document. Some search systems use a list of stop words and exclude any information about a stop word from the index thus reducing search quality. In our paper we store information about all words to ensure search quality and build additional indexes for most frequently used words. Use of the additional indexes may reduce the query processing time by an order of magnitude and more in comparison with standard indexes. A new three component key based index has described. Results of search experiments are given and new search algorithm is provided. The results of the experiments shows 90 times improvement of search time for a class of queries containing most frequently used words in comparison with default inverted file.

Описание:

Веретенников Александр Борисович, к.ф.-м.н., кафедра вычислительной математики и компьютерных наук, Уральский федеральный университет (Екатеринбург, Российская Федерация). A.B. Veretennikov Ural Federal University (pr. Lenina 51, Yekaterinburg, 620083 Russia) E-mail: alexander@veretennikov.ru

Показать полную информацию