Elastic поиск неточных соответствий

Ігор Грегорченко

18.05.2020 04:45

Elasticsearch — поисковая система, основанная на Apache Lucene, которая обеспечивает полнотекстовый поиск и мультиарендность с веб-интерфейсом HTTP и поддержкой без-схемных JSON-документов.

Среди основных преимуществ системы – сравнительная простота настройки и масштабируемость, большое количество модулей (благодаря API) и возможность весьма гибкого и быстрого поиска (хотя скорость индексации уступает Sphinx).

А еще Elasticsearch весьма легко справляется с поиском неточных соответствий, который работает по немного отличному от wildcard-поиска в Sphinx принципу.

Нечеткие запросы

Fuzzy-запросы используют сходство на основе расстояния Левенштейна для текстовых полей или границу слева-справа для числовых полей и дат.

Для этого используется запрос fuzzy, который генерирует все возможные соответствия, которые находятся в пределах максимального редакционного расстояния (задается параметром fuzziness), а затем проверяет словарь терминов для сравнения с существующим индексом.

Создадим простой индекс:

curl -XPUT ‘http://localhost:9200/my_index/my_type/_bulk’ -d'
{ "index": { "_id": 1 }}
{ "text": "Surprise me!"}
{ "index": { "_id": 2 }}
{ "text": "That was surprising."}
{ "index": { "_id": 3 }}
{ "text": "I wasn't surprised."}

# Для тестирования можно использовать утилиту curl

При помощи все того же curl и простого запроса GET можно провести первый поиск:

curl -XGET ‘http://localhost:9200/my_index/my_type/_bulk/_search?pretty=true’ -d’
{
  "query": {
    "fuzzy": {
      "text": "surprize"
    }
  }
}

# Опция pretty=true обеспечит удобный вывод результатов (не в одну строку)

То есть мы провели fuzzy-поиск “surprize” по нашему индексу. Вывод будет содержать первый и третий документы, так как параметр fuzzinessпо умолчанию равен auto:

редакционное расстояние 0 для строк из 1 или 2 символов;
редакционное расстояние 1 для строк длиной от 3 до 5 символов;
редакционное расстояние 2 для строк длиной от 5 символов.

Следующий пример содержит большее количество параметров fuzzy:

curl -XGET ‘http://localhost:9200/my_index/my_type/_bulk/_search?pretty=true’ -d’
{
    "fuzzy" : {
        "text" : {
            "value" :         "surprize",
            "boost" :         1.0,
            "fuzziness" :     2,
            "prefix_length" : 2,
            "max_expansions": 100
        }
    }
}

# Чем выше значение fuzziness, тем больше выдача

Пройдемся по дополнительным параметрам:

boost — задает приоритет запроса, то есть можно повысить приоритет точных совпадений, чтобы они занимали первые позиции в поисковой выдаче;
prefix_length — задает размер префикса, помогает отсеять количество слов при поиске;
max_expansions — максимальное количество терминов неточного запроса, по умолчанию равно 50.

Учтите, что малое значение prefix_length и большое значение max_expansions увеличивают время поиска и нагрузку на сервер.

Запрос match

Неточные совпадения в Elasticsearch также могут использоваться в запросах типа match. К примеру:

curl -XGET ‘http://localhost:9200/my_index/my_type/_bulk/_search?pretty=true’ -d’
{
  "query": {
    "match": {
      "text": {
        "query":     "Surprize me",
        "fuzziness": "auto",
        "operator":  "and"
      }
    }
  }
}

# Сначала проверяются элементы [surprize, me], а затем совпадения в пределах fuzziness

Также можно производить неточный поиск по нескольким полям при помощи multi_match, а также использовать параметры prefix_length и max_expansions.

Самое главное

Fuzzy-запросы помогут расширить результаты поиска. При этом важно учитывать дополнительные параметры, которые увеличивают нагрузку на систему, а также назначать приоритеты, чтобы точные совпадения были выше неточных.

Наступна стаття Vertica ANALYZE_STATISTICS »

попередня стаття « Бекапы в Vertica

Ігор Грегорченко

Теги: elasticelasticsearchsearch

18.05.2020 04:45

Останні статті

Подборки

Всегда перед глазами: 15 лучших тем VS Code на 2026 год

Visual Code от Microsoft, вероятно, один из самых популярных редакторов кода. Разработчики любят его за…

22.02.2026

Подборки

Киберпанк по-японски: 9 лучших аниме в жанре «технологии нас погубят»

Япония сама по себе — сплошной киберпанк. Это заметил даже культовый писатель жанра Уильям Гибсон,…

21.02.2026

Спецпроекты

Не просто коробка с бантом. Как оригинально подарить гаджет: 5 незатратных способов

Сам по себе телефон Айфон 17 Про Макс – отличный подарок. У него красивая заводская…

12.02.2026

Лучшие криптобиржи для криптозаймов в 2025 году: где лучше брать кредит под крипту?

На фоне роста спроса на ликвидность в бычьем рынке 2025 года, криптозаймы снова выходят на…

09.07.2025

Основы

Что такое прокси-сервер: пояснение простыми словами, зачем нужны прокси

Прокси (proxy), или прокси-сервер — это программа-посредник, которая обеспечивает соединение между пользователем и интернет-ресурсом. Принцип…

21.11.2024

Основы

Что такое PWA приложение? Зачем необходимо прогрессивное веб-приложение

Согласитесь, было бы неплохо соединить в одно сайт и приложение для смартфона. Если вы еще…

19.11.2024