搜索响应时间与配额

更新时间:

搜索响应时间

搜索接口的响应时间会受到一些因素的影响,包括如下:

  1. 搜索rerank功能(默认开通):召回后,通过rerank模型做一次语义重排序,能够提升约5%的相关性mAP效果,会增加约+120ms;可以联系我们关闭此功能

  2. timeRange自动改写功能(默认关闭):通过对Query的语义理解自动改写timeRange(可提升时效Query的召回效果),会增加约+280ms;

  3. 客户机房位置:目前IQS提供服务机房在张家口,如果客户机房距离张家口较远会有几十毫秒的差异;如果您的服务部署在阿里云的VPC,可以使用vpc-endpoint调用我们(通用搜索),时延和稳定性会有一定提升

  4. Query长度:Query越长搜索时延会有一定增加;

目前的搜索响应时间情况(不包含rerank、timeRange改写、服务端统计时延)可以作为参考,不同用户Query会略有差异:

平均RT

930ms

P90

1268ms

P99

1956ms

说明

您可以通过接口返回参数中的searchInformation.searchTime来查看服务端的耗时,以便用以分析网络耗时情况。

搜索Quota

下单开通时支持30QPS60QPS两个规格,我们会提供对应的资源保障,故价格会有差异;为了尽可能减少一些流量不平滑导致的限流(429/Retrieval.Throttling.User),我们限流时QPS计算时间窗口为3秒;即 30QPS == (90/3s)