全文向量混合检索

全文向量混合检索结合了全文检索和纯向量检索,相较于单独使用全文检索或向量检索,可以更好地获取全文与向量的融合信息。本文介绍基于Python语言,使用Lindorm向量引擎执行全文向量混合检索的方法。

前提条件

  • 已安装Python环境,且Python版本为3.6及以上版本。

  • 已安装opensearch-py,且opensearch-py版本为2.6.0及以上版本。

  • 已开通Lindorm向量引擎。如何开通,请参见开通向量引擎

  • 已开通Lindorm搜索引擎。具体操作,请参见开通指南

  • 已将客户端的IP地址加入到Lindorm实例的白名单中。具体操作,请参见设置白名单

准备工作

在创建和使用向量索引前,您需要通过opensearch-py连接搜索引擎,连接方式如下:

from opensearchpy import OpenSearch, Object

import logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
# 如果使用 logging,为防止 opensearch info 日志过多,需要进行以下修改
logging.getLogger('opensearch').setLevel(logging.WARN)


def get_client() -> OpenSearch:
    search_client = OpenSearch(
        hosts=[{"host": "ld-t4n5668xk31ui****.lindorm.aliyuncs.com", "port": 30070}],
        http_auth=("<username>", "<password>"),
        http_compress=False,
        use_ssl=False,
    )
    return search_client

其中hostusernamepassword分别为搜索引擎的连接地址、默认用户名和默认密码,如何获取,请参见查看连接信息

全文+向量双路召回(RRF融合检索)

在一些查询场景中,您需要综合考虑全文索引和向量索引的排序,根据一定的打分规则对各自返回的结果进一步进行加权计算,并得到最终的排名。

创建索引

以下示例使用hsnw算法。

重要

如果使用ivfpq算法,需要先将knn.offline.construction设置为true,导入离线数据后发起索引构建,构建成功后方可进行查询,详细说明请参见创建向量索引索引构建

index_body = {
    "settings": {
        "index": {
            "number_of_shards": 2,
            "knn": True
        }
    },
    "mappings": {
        "_source": {
            "excludes": ["vector1"]
        },
        "properties": {
            "vector1": {
                "type": "knn_vector",
                "dimension": 3,
                "data_type": "float",
                "method": {
                    "engine": "lvector",
                    "name": "hnsw",
                    "space_type": "l2",
                    "parameters": {
                        "m": 24,
                        "ef_construction": 500
                    }
                }
            },
            "text_field": {
                "type": "text",
                "analyzer": "ik_max_word"
            },
            "field1": {
                "type": "long"
            },
            "filed2": {
                "type": "keyword"
            }
        }
    }
}
response = self.client.indices.create(index=self.index, body=index_body)
print(response)

数据写入

bulk_data = [
    {
        "index": {"_index": self.index, "_id": "1"},
        "field1": 1,
        "field2": "flag1",
        "vector1": [2.5, 2.3, 2.4],
        "text_field": "hello test5"
    },
    {
        "index": {"_index": self.index, "_id": "2"},
        "field1": 2,
        "field2": "flag1",
        "vector1": [2.6, 2.3, 2.4],
        "text_field": "hello test6 test5"
    },
    {
        "index": {"_index": self.index, "_id": "3"},
        "field1": 3,
        "field2": "flag1",
        "vector1": [2.7, 2.3, 2.4],
        "text_field": "hello test7"
    },
    {
        "index": {"_index": self.index, "_id": "4"},
        "field1": 4,
        "field2": "flag2",
        "vector1": [2.8, 2.3, 2.4],
        "text_field": "hello test8 test7"
    },
    {
        "index": {"_index": self.index, "_id": "5"},
        "field1": 5,
        "field2": "flag2",
        "vector1": [2.9, 2.3, 2.4],
        "text_field": "hello test9"
    }
]

response = self.client.bulk(bulk_data, refresh=True)
print(response)

数据查询(融合查询)

RRF计算方式如下:

进行查询时系统会根据传入的rrf_rank_constant参数,对全文检索和向量检索分别获得的topK结果进行处理。对于每个返回的文档_id,使用公式1/(rrf_rank_constant + rank(i))计算得分,其中rank(i)表示该文档在结果中的排名。

如果某个文档_id同时出现在全文检索和向量检索的topK结果中,其最终得分为两种检索方法计算得分之和。而仅出现在其中一种检索结果中的文档,则只保留该检索方法的得分。

rrf_rank_constant = 1为例,计算结果如下:

# doc   | queryA     | queryB         | score
_id: 1 =  1.0/(1+1)  + 0              = 0.5
_id: 2 =  1.0/(1+2)  + 0              = 0.33
_id: 4 =    0        + 1.0/(1+2)      = 0.33
_id: 5 =    0        + 1.0/(1+1)      = 0.5

支持通过_search接口或_msearch_rrf接口进行融合查询,两种接口的对比如下:

接口

开源性

易读性

是否支持全文、向量检索比例调整

_search

兼容

不易读

支持

_msearch_rrf

自研接口

易读

不支持

以下是两种场景下使用_search接口或_msearch_rrf接口的具体写法:

无标量字段过滤的场景

使用开源_search接口

优点:兼容开源_search接口,支持通过rrf_knn_weight_factor参数调整全文检索与纯向量检索的比例。

缺点:写法较为复杂。

ext.lvector扩展字段中,不设置filter_type,则表示该RRF检索只包含全文检索和纯向量检索,同时向量检索中无需进行标量字段的过滤。

query = {
    "size": 10,
    "_source": False,
    "query": {
        "knn": {
            "vector1": {
                "vector": [2.8, 2.3, 2.4],
                "filter": {
                    "match": {
                        "text_field": "test5 test6 test7 test8 test9"
                    }
                },
                "k": 10
            }
        }
    },
    "ext": {"lvector": {
        "hybrid_search_type": "filter_rrf",
        "rrf_rank_constant": "60",
        "rrf_knn_weight_factor": "0.5"
    }}
}
response = self.client.search(index=self.index, body=query)
print(response)

使用自研_msearch_rrf接口

优点:写法较清晰。

缺点:不兼容开源_search接口,不支持调整全文检索与纯向量检索的比例。

  json_string = """
   {"index": "vector_text_hybridSearch"}
   {"size": 10, "_source": false, "query": {"match": {"text_field": "test5 test6 test7 test8 test9"}}}
   {"index": "vector_text_hybridSearch"}
   {"size": 10, "_source": false, "query": {"knn": {"vector1": {"vector": [2.8, 2.3, 2.4], "k": 10}}}}
  \n"""
  response = self.client.transport.perform_request(method='POST',
                                                   url='/_msearch_rrf?re_score=true&rrf_rank_constant=60',
                                                   body=json_string)
  print(response)
说明

连接参数中必须添加re_score=true

包含标量字段的过滤场景

使用开源_search接口

ext.lvector扩展字段中设置filter_type参数,则表示该RRF检索中的向量检索还需进行标量字段的过滤。

RRF融合检索时,如果希望携带filter过滤条件,需要将全文检索的query条件和用于过滤的filter条件分别设置到两个bool表达式中,通过bool.must进行连接。must中的第一个bool表达式将用于全文检索,计算全文匹配度得分。must中第二个bool filter表达式将用于knn检索的过滤条件。

query = {
    "size": 10,
    "_source": False,
    "query": {
        "knn": {
            "vector1": {
                "vector": [2.8, 2.3, 2.4],
                "filter": {
                    "bool": {
                        "must": [
                            {
                                "bool": {
                                    "must": [{
                                        "match": {
                                            "text_field": {
                                                "query": "test5 test6 test7 test8 test9"
                                            }
                                        }
                                    }]
                                }
                            },
                            {
                                "bool": {
                                    "filter": [{
                                        "range": {
                                            "field1": {
                                                "gt": 2
                                            }
                                        }
                                    }]
                                }
                            }
                        ]
                    }
                },
                "k": 10
            }
        }
    },
    "ext": {"lvector": {
        "filter_type": "efficient_filter",
        "hybrid_search_type": "filter_rrf",
        "rrf_rank_constant": "60"
    }}
}
response = self.client.search(index=self.index, body=query)
print(response)

使用自研_msearch_rrf接口

json_string = """
{"index": "vector_text_hybridSearch"}
{"size": 10,"_source":false,"query":{"bool":{"must":[{"match":{"text_field":"test5 test6 test7 test8 test9"}}],"filter":[{"range":{"field1":{"gt":2}}}]}}}
{"index": "vector_text_hybridSearch"}
{"size":10,"_source":false,"query":{"knn":{"vector1":{"vector":[2.8,2.3,2.4],"filter":{"range":{"field1":{"gt":2}}},"k":10}}},"ext":{"lvector":{"filter_type":"efficient_filter"}}}
\n"""
response = self.client.transport.perform_request(method='POST',
                                                 url='/_msearch_rrf?re_score=true&rrf_rank_constant=60',
                                                 body=json_string)
print(response)

相关文档

基于Lindorm多模能力快速搭建智能搜索服务