DOI

Рассматриваются задачи поиска фраз и наборов слов в большом объеме текстов. В результате поиска получаем список документов, содержащих заданные слова, при этом документы, где слова располагаются ближе друг к другу, считаются более релевантными. Поскольку эта задача требует сохранения в индексе информации о каждом вхождении каждого слова в текстах, запросы, включающие часто встречающиеся слова, требуют для своего выполнения длительного времени. В некоторых поисковых системах предлагается ввести список стоп слов, которые не учитываются при поиске, но этот подход снижает качество поиска. В данной работе при поиске обрабатываются все слова и применяются дополнительные индексы. С помощью дополнительных индексов время выполнения поискового запроса, включающего часто встречающиеся слова, может быть снижено в десятки раз. Разработан новый вид индекса с трехкомпонентными ключами. Приведены алгоритмы поиска и результаты экспериментов поиска в сравнении с обычными индексами. Эксперименты показывают, что при применении разработанных индексов для определенного класса запросов, состоящих из самых часто встречающихся слов, скорость поиска возрастает более чем в 90 раз.
Переведенное названиеPROXIMITY FULL-TEXT SEARCH WITH RESPONSE TIME GUARANTEE BY MEANS OF THREE COMPONENT KEYS
Язык оригиналаРусский
Страницы (с-по)60-77
ЖурналВестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика
Том7
Номер выпуска1
DOI
СостояниеОпубликовано - 2018

    ГРНТИ

  • 50.05.00 Теоретические основы программирования

    Уровень публикации

  • Перечень ВАК

ID: 6568994