搜索质量大模型评估方法_信息查询服务(IQS)-阿里云帮助中心

本文将介绍如何使用大模型对搜索的召回质量的自动化评估

1. 背景

搜索引擎召回文档是否包含足够的信息来回答用户问题（搜索质量评估）一个重要问题。传统的方案是通过专家、众包模式进行人工评估，并将质量评估标准沉淀为指导手册（参考3），但是人工评估无法低成本的scalable。随着大模型能力增强，使用大模型进行自动化评估变得逐步可行，在Bing的工作（参考1）中可以看到大模型评估已经优于内部的众包人工评估。本方案将基于bing & umbrela工作基础上构建一个自动化搜索质量评估器

2. 评估维度

match（搜索相关性）：关键的相关性评估，提供4种区分梯度。
- 0 = 代表段落与查询无关，
- 1 = 代表段落似乎与查询相关但没有回答它，
- 2 = 代表段落对查询有一些回答，但答案可能有点不清楚，或隐藏在无关信息中，
- 3 = 代表段落专门回答查询并包含确切的答案。
trustworthy（可靠度）：通过召回文档的域名以及站点名称信息，通过模型已有知识进行判断。
- 0：不可靠信源
- 1：可靠信源
recency（时效性）：通过query中的时间与召回文档的信息，判断时效性是否一致。
- 0：时效性不匹配
- 1：时效匹配
overall（综合分数）：综合上述三个维度以及各自的重要性，给出评分；即以match为基准，综合考虑trustworthy与recency给出综合分数。评分区间：0~3。

3. 实现方案

3.1 样例代码

tongxiao_eval_main.py

import asyncio
import json

from labs.tongxiao_eval.examples import EXAMPLES
from labs.tongxiao_eval.retrieval_evaluator import TongxiaoEvaluator, Passage


async def tongxiao_eval():
    example = EXAMPLES[0]
    evaluator = TongxiaoEvaluator()
    query = example['query']
    passages = [Passage(**p) for p in example['retrieval_context']]
    response = await evaluator.evaluate(query, passages)
    print(json.dumps(response, indent=4, ensure_ascii=False))


if __name__ == '__main__':
    asyncio.run(tongxiao_eval())

retrieval_evaluator.py

import asyncio
import logging
import re
from datetime import datetime
from typing import List

from langchain_community.chat_models import ChatTongyi
from langchain_core.output_parsers import JsonOutputParser
from langchain_core.prompts import ChatPromptTemplate
from pydantic import BaseModel

from labs.tongxiao_eval.fewshot_prompt import FEWSHOT_EVAL_PROMPT


class Passage(BaseModel):
    passage: str
    publish_time: int
    website: str
    site_label: str
    title: str

    def get_publish_time_str(self):
        if self.publish_time:
            dt_object = datetime.fromtimestamp(int(self.publish_time/1000))
            formatted_date = dt_object.strftime('%Y-%m-%d %H:%M:%S')
            return formatted_date
        return ""

class TongxiaoEvaluator:
    def __init__(self):
        # 阿里云 dashscope api-key
        dashscope_key = ""
        self.model = ChatTongyi(
            model="qwen-plus",
            api_key=dashscope_key,
            temperature=0,
            top_p=1
        )
        prompt = ChatPromptTemplate.from_messages([
            ("system", "You are a helpful assistant."),
            ("human", FEWSHOT_EVAL_PROMPT)
        ])
        self.semaphore = asyncio.Semaphore(10)
        self.chain = (prompt | self.model)

    async def evaluate_passage_with_semaphore(self, query: str, passage: Passage, index: int):
        async with self.semaphore:
            result = await self.evaluate_passage(index, query, passage)
            return index, result

    async def evaluate(self, query: str, passages: List[Passage]) -> dict:
        # 创建任务列表，包含索引信息
        tasks = [
            self.evaluate_passage_with_semaphore(query, passage, i)
            for i, passage in enumerate(passages)
        ]

        # 使用 gather 并行执行评估任务
        results = await asyncio.gather(*tasks)

        # 根据索引排序结果
        sorted_results = sorted(results, key=lambda x: x[0])
        passage_evals = [result[1] for result in sorted_results]

        relevancy_scores = [passage_eval.get("overall") for passage_eval in passage_evals]
        score = sum(relevancy_scores) / len(relevancy_scores)

        detail = dict(
            query=query,
            score=score,
            relevancy_scores=relevancy_scores,
            passages=passage_evals
        )
        return detail

    def extract_steps(self, text):
        # 使用正则表达式提取步骤部分
        pattern = r'### 步骤:(.*?)### final score'
        match = re.search(pattern, text, re.DOTALL)

        if match:
            # 提取匹配的内容并去除首尾空白
            steps_content = match.group(1).strip()
            return steps_content
        else:
            return None

    async def evaluate_passage(self, index: int, query: str, passage: Passage):
        """

        :param query:
        :param passage:
        :return:
          {
            "recency": 0,
            "match": 2,
            "trustworthy": 1,
            "overall": 1,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户想要了解最新的考研专业排名。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落标题提到的是“2024年考研热门专业排名”，但发布日期是2020年12月14日，明显不符合用户对最新信息的需求。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落确实提供了关于考研专业的排名信息，并且具体列出了前十名的专业。因此，在内容上与用户的查询高度相关。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 百家号（baijiahao.baidu.com）是一个百度旗下的内容平台，具有一定的可信度，但不是学术或官方教育机构的来源。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 尽管内容与查询高度相关，但由于发布时间过早，影响了其时效性和准确性，因此不能完全满足用户对最新信息的需求。",
            "index": 0
          }
        """
        try:
            current_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")

            response = await self.chain.ainvoke({
                "query": query,
                "current": current_time,
                "title": passage.title,
                "passage": passage.passage,
                "publish_time": passage.get_publish_time_str(),
                "website": passage.website
            })
            steps = self.extract_steps(response.content)
            json_response = JsonOutputParser().parse(response.content)
            json_response["steps"] = steps
            json_response["index"] = index
            return json_response
        except Exception as e:
            logging.exception(f"invoke qwen evaluate query {query} failed, {e}")
            return {
                "recency": -1,
                "match": -1,
                "trustworthy": -1,
                "overall": -1
            }

fewshot_prompt.py

FEWSHOT_EVAL_PROMPT = """
给定一个查询和一个段落相关信息，你必须在0到3的整数范围内提供一个评分，定义如下：
0 = 代表段落与查询无关，
1 = 代表段落似乎与查询相关但没有回答它，
2 = 代表段落对查询有一些回答，但答案可能有点不清楚，或隐藏在无关信息中，
3 = 代表段落专门回答查询并包含确切的答案。

以下是不同类别相关性分类的一些示例：

###

query: 最新的人类学对环境的定义
query time: 2025-01-07 12:30:29
passage: 在1890年，非生物因素被定义为环境中所有非生物的组成部分。环境中的所有生物因素都依赖于这些非生物因素。例如，在热带雨林中，生物因素的例子包括巨嘴鸟、青蛙、蛇和蜥蜴。热带雨林中的非生物因素包括湿度、土壤成分、温度和阳光。每个环境都由所谓的“生物”和“非生物”因素组成。在本课中，你将学习非生物因素的定义及其重要性，还将探讨热带雨林中存在的一些非生物因素的实例。
passage title: 非生物因素被定义为环境中所有非生物的组成部分
passage publish time: 2004-12-02 10:03:32
passage website: education.nationalgeographic.org

### 步骤:

1. **考虑搜索的潜在意图:**
- 这个意图是寻找最新“环境”的人类学定义，这意味着需要寻找近期一个在人类学背景下的定义。

2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**
- 提供的段落定义来自1890年，发布时间是2004年，并不符合用户对最新定义的期望。

3. **衡量内容与查询的可能意图的匹配程度（match):**
- 段落讨论了环境中的非生物和生物因素，特别是在热带雨林中，但没有将这些概念与人类学联系起来，也没有提供人类学背景下的定义。

4. **衡量段落的可信度（trustworthy):**
- passage website是国家地理学会（National Geographic Society）的教育网站，信息是可靠的

5. **考虑以上方面及各自的相对重要性，并决定最终评分（overall):**
- 这个段落并没有直接回答“环境”的人类学定义，而是更侧重于生态概念，没有提供相关的查询信息。

### final score:
```json
{{
    "recency": 0,
    "match": 0,
    "trustworthy": 1,
    "overall": 0
}}
```

###

query: 最新的人类学对环境的定义
query time: 2025-01-07 12:30:29
passage: 环境的定义是：环境：环境中所有元素、因素和条件的总和，这些可能对生物体或生物群体的发育、行为或生存产生影响。Search MedTerms:
passage title: 环境的定义
passage publish time: 2004-12-02 10:03:32
passage website: byjus.com

### 步骤:
1. **考虑搜索的潜在意图:**
- 这个意图是寻找最新“环境”的人类学定义，这意味着需要寻找一个特别在人类学背景下构架的定义。

2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**
- 内容发布与2004年，并不符合用户对最新定义的期望。

3. **衡量内容与查询的可能意图的匹配程度 (match):**
- 段落提供了一个一般的“环境”定义，但没有特别提到人类学背景。

4. **衡量段落的可信度 (trustworthy):**
- 它提到了“Search MedTerms”，暗示可能是一个医学术语来源，可能与人类学不直接相关。另外站点byjus.com是一家位于印度的教育技术公司，是全球领先的在线教育平台之一，有较强的可参考性

5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**
- 这个段落有些相关，但没有达到具体意图（人类学背景），而且可信度模糊。

### final score:
```json
{{
    "recency": 0,
    "match": 1,
    "trustworthy": 1,
    "overall": 1
}}
```

###

query: 最新的环境的人类学定义
query time: 2025-01-07 12:30:29
passage: 人类学研究生学习。CU Boulder的生物人类学研究生项目提供多个领域的培训，包括灵长类学、人类生物学和古人类学。我们对人类生态学感兴趣，这是一门综合性广泛的人类学领域，研究文化、生物学和环境的相互作用。
passage title: 人类学研究生学习
passage publish time: 2023-12-02 10:03:32
passage website: anthropology.yale.edu

### 步骤:

1. **考虑搜索的潜在意图:**
- 这个意图是寻找“环境”的人类学定义，这意味着需要关注人类学如何定义和解释环境。

2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**
- 提供的段落来自2023年，符合用户对最近定义的期望。

3. **衡量内容与查询的可能意图的匹配程度 (match):**
- 段落讨论了人类生态学，这是一个广泛的整合领域，研究文化、生物学与环境之间的相互作用。这很好地符合关于环境的人类学背景。

4. **衡量段落的可信度 (trustworthy):**
- 该来源提到CU Boulder的一个研究生项目，这是一家信誉良好的机构，表明了可信度高。对应的站点来自于耶鲁大学，可靠度高

5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**
- 段落与查询相关，提供了人类学中环境的上下文理解，尽管没有提供精确的定义，因此能得到较高分。

### final score:
```json
{{
    "recency": 1,
    "match": 2,
    "trustworthy": 1,
    "overall": 2
}}
```

###

query: 最新的环境的人类学定义
query time: 2025-01-07 12:30:29
passage: 考古学通过研究物理证据研究过去人类文化，在美国被认为是人类学的一个分支，尽管在欧洲，它被视为一个独立的学科，或与其他学科相关。环境人类学是人类学领域的一个子专业，它积极研究人类与环境之间在时空上的关系。
passage title: 考古学人类研究
passage publish time: 2024-12-27 17:32:08
passage website: en.wikipedia.org

### 步骤:

1. **考虑搜索的潜在意图:**
- 这个意图是寻找“环境”的人类学定义，这意味着需要一个解释人类学如何看待和研究环境的说明。

2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**
- 段落提供了2024年12月27日的定义，符合用户对最新定义的期望。

3. **衡量内容与查询的可能意图的匹配程度 (match):**
- 段落明确提到了“环境人类学”，这是一个研究人类与环境关系的子专业，直接回答了关于环境的人类学观点。

4. **衡量段落的可信度 (trustworthy):**
- 站点来自于维基百科，可信度高。另外，段落似乎提供了学术和结构化的解释，表明来源可能是学术或教育背景，可信度高。

5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**
- 段落与查询直接相关，提供了关于环境人类学的具体信息及其关注的人类与环境关系，使其高度相关。

### final score:
```json
{{
    "recency": 1,
    "match": 3,
    "trustworthy": 1,
    "overall": 3
}}
```

###

重要指示: 
1. 如果段落与主题有些相关但不完全，则分配类别1；如果段落呈现了整个主题非常重要的内容但也包含一些多余信息，则分配类别2；如果段落仅仅完全涉及主题，则分配类别3。如果没有以上任何一种情况，请分配类别0。
2. 对于时效性(R)对最终评分(O)的影响：如果意图中包含明显的时间要求，并且段落中的信息与时间不匹配，R分为0，根据时效性不匹配对问题的回答影响的严重性，最严重可以分配最终分值为0
3. 仔细分析提供的站点域名，根据大众对站点置信度的判定给与可靠性判定。 
4. 步骤参考：
    将这个问题分为以下几个步骤：
    考虑搜索的潜在意图。
    衡量段落的时效性与查询意图的时效性的匹配程度 (recency)。
    衡量内容与查询的可能意图的匹配程度 (match)。
    衡量段落与来源站点的可信度 (trustworthy)。
    考虑以上方面及各自的相对重要性，并决定最终评分 (overall)。最终评分必须是整数值。
5. 不要添加其他解释、原因与其他代码，按照上述示例，先输出步骤，在输出final score

### 
query: {query}
query time: {current}
passage: {passage}
passage title: {title}
passage publish time: {publish_time}
passage website: {website}

### 步骤:
### final score:
"""

examples.py

EXAMPLES = [
    {
        "query": "考研专业排名",
        "retrieval_context":
            [
                {
                    "passage": "2024年考研热门专业排名前十名！前十名榜依次为计算机技术、电子信息、计算机科学与技术（学硕）、机械、软件工程、人工智能、机械工程（学硕）、会计、法律（非法学）、机械工程（专硕），以互联网相关领域为主。一. 2024年考研热门专业前十二. 考研到底选不选热门专业三. 考研选择专业考虑什么因素",
                    "publish_time": 1607891040000,
                    "website": "baijiahao.baidu.com",
                    "site_label": "",
                    "title": "2024年考研热门专业排名前十名！计算机技术专业榜首"
                },
                {
                    "passage": "根据市场需求和就业前景，以下是2024年十大研究生就业前景好的专业排名： 计算机与应用 涉及计算机一类专业，一直是互联网行业的高薪职业。特别涉及软件开发，对于一些能力出众的毕业生来说毕业月入过万来说基本不是问题，考研深造后前途基本不可限量。市场营销 市场营销专业培养具备管理、经济、法律、市场营销等方面的知识和能力，能在企、事业单位及政府部门从事市场营销与管理以及教学、科研方面工作的工商管理学科高级专门...",
                    "publish_time": 1727593686000,
                    "website": "m.xueti.com",
                    "site_label": "",
                    "title": "2025考研十大热门专业排行榜 最吃香的专业有哪些"
                },
                {
                    "passage": "考研专业排名栏目，为广大考研学子提供研专业排名查询、研究生院校排名等信息，希望对大家有所帮助。",
                    "publish_time": 1691769600000,
                    "website": "m.dxsbb.com",
                    "site_label": "",
                    "title": "考研专业"
                },
                {
                    "passage": "律所的民商法律师更是炙手可热，无数的企业急需大批民商法人才，实在不行还可以自己干。民商法职业是法学中社会地位、职业声望和收入最高的一个专业。民商法直接对口的职业方向是法院、律所、企业。2、刑法　　刑法和民法是两大最主要的...",
                    "publish_time": 1387382400000,
                    "website": "yz.chsi.com.cn",
                    "site_label": "",
                    "title": "法学研究生各专业就业潜力排名"
                },
                {
                    "passage": "考研拉开大幕了，对于一些考研新手来说，择校择专业很重要也很为难。下面小编为大家盘点就业情况非常可观的10大考研专业，希望能帮大家正确抉择!　　1、建筑设计：热度随着行情涨　　在整个...",
                    "publish_time": 1720865043000,
                    "website": "m.creditsailing.com",
                    "site_label": "",
                    "title": "考研专业排名,2024就业情况可观的考研十大专业"
                },
                {
                    "passage": "2024年全国硕士研究生统一招生考试已经结束20多天了。从考研难度排名来看，没有最难，只有更难。下面，请让我们一起来揭示那些看似简单，却极难考的专业。在考研的道路上，每个考生都面临着不同的挑战。有些专业看似简单，实则内含玄机，让无数考生望而却步。今天，我们将为您揭示考研中最难考的专业排名，带您了解那些看似简单却极难考的专业。排名第...",
                    "publish_time": 1705136820000,
                    "website": "view.inews.qq.com",
                    "site_label": "",
                    "title": "考研专业与难度排名，打破人们固有的认知！你选的专业在其中吗"
                },
                {
                    "passage": "对于 考研 党来说，选择报考院校和专业，是非常重要的一步。报名在即，你对自己要报考的专业足够了解吗？主要学科方向有哪些？就业前景 如何？戳图！法学、金融、医学、建筑等14个关注度较高的专业全面解读，科学备考！",
                    "publish_time": 1676782672000,
                    "website": "m.dxsbb.com",
                    "site_label": "",
                    "title": "考研热门专业排名前十名"
                },
                {
                    "passage": "第二梯度(非常困难 税务、保险、翻译、心理学、工商管理、电气工程、自动化、管理科学@小海学长 农学、林学、畜牧医学、地质、矿业 第三梯度(难度一般)图情、护理、工程管理、社会工作、外语文学、数学、土地资源管理、第五梯度(最好上岸)yi、文博 yao学、交通运输 国内考研专业推荐排名 第一梯度(超级困难)第四梯度(相对简单)金融、计算机、医学、马理论、公共管理、法学、国际商务、审计 会计、学科教学、新传、汉语言文学、应用统计、法硕非法、教育学 农林经济管理、建筑、音乐、舞蹈...",
                    "publish_time": 1729645920000,
                    "website": "m.douyin.com",
                    "site_label": "",
                    "title": "国内考研专业难度排名"
                },
                {
                    "passage": "以下是来着软科中国大学专业排名情况，数据仅供参考！大家在25/26考研择校过程中，可以多多斟酌！十大热门专业A+院校考研热门专...",
                    "publish_time": 1720682940000,
                    "website": "baijiahao.baidu.com",
                    "site_label": "",
                    "title": "2024中国大学专业排名，这些专业最热门！"
                }
            ]
    }
]

3.2 返回样例

{
    "query": "考研专业排名",
    "score": 1.4444444444444444,
    "relevancy_scores": [
        1,
        2,
        2,
        1,
        1,
        1,
        1,
        2,
        2
    ],
    "passages": [
        {
            "recency": 0,
            "match": 2,
            "trustworthy": 1,
            "overall": 1,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户想要了解最新的考研专业排名。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落标题提到的是“2024年考研热门专业排名”，但发布日期是2020年12月14日，明显不符合用户对最新信息的需求。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落确实提供了关于考研专业的排名信息，并且具体列出了前十名的专业。因此，在内容上与用户的查询高度相关。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 百家号（baijiahao.baidu.com）是一个百度旗下的内容平台，具有一定的可信度，但不是学术或官方教育机构的来源。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 尽管内容与查询高度相关，但由于发布时间过早，影响了其时效性和准确性，因此不能完全满足用户对最新信息的需求。",
            "index": 0
        },
        {
            "recency": 1,
            "match": 2,
            "trustworthy": 1,
            "overall": 2,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户的意图是寻找最新的考研专业排名，特别是那些在就业市场上热门的专业。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落提供了2024年的研究生就业前景好的专业排名，发布时间为2024年9月29日，符合用户对最新排名的期望。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了2024年十大研究生就业前景好的专业，并具体提到了计算机与应用和市场营销等专业。虽然没有直接提到“考研专业排名”，但内容非常接近用户的查询需求。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 站点m.xueti.com是一个教育类网站，提供关于考试和学习的信息，具有一定的可信度。然而，它并非权威学术机构或官方排名来源，因此可信度中等。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 段落与查询高度相关，提供了具体的热门专业信息，尽管不是严格的“考研专业排名”。考虑到其时效性和内容的相关性，可以给较高评分。",
            "index": 1
        },
        {
            "recency": 1,
            "match": 2,
            "trustworthy": 1,
            "overall": 2,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是查询最新的考研专业排名信息。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2023年8月12日，距离查询时间（2025年3月5日）已有一段时间，但没有明确提到具体的排名数据更新时间，因此时效性较为一般。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落提到了考研专业排名栏目，并说明该栏目提供专业排名和院校排名查询的信息，直接回应了用户的查询需求。然而，它并没有提供具体的排名数据或详细信息。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 网站m.dxsbb.com是一个教育类网站，具有一定的可信度，但并非权威学术机构或官方发布渠道。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 段落与查询相关，提供了关于考研专业排名的信息来源，但没有具体展示排名数据，且时效性一般。",
            "index": 2
        },
        {
            "recency": 0,
            "match": 1,
            "trustworthy": 1,
            "overall": 1,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找最新的考研专业排名，特别是关于不同专业的排名情况。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2013年，远不符合用户对最新排名的期望。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了法学研究生中民商法和刑法的就业潜力，并提及一些职业方向，但没有提供具体的考研专业排名。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 站点来自于中国研究生招生信息网（yz.chsi.com.cn），这是一个官方且可靠的教育信息平台。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 段落内容虽然涉及法学相关领域，但并没有直接回答考研专业排名的问题，且信息已经过时。",
            "index": 3
        },
        {
            "recency": 1,
            "match": 1,
            "trustworthy": 1,
            "overall": 1,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找最新的考研专业排名，这通常意味着希望了解各个专业的相对优劣和受欢迎程度。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布于2024年7月13日，符合用户对最新排名的期望。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了就业情况可观的十大考研专业，但没有提供具体的排名列表，只是提到一些热门专业。因此，虽然相关但未完全回答用户的查询。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 网站m.creditsailing.com似乎是一个教育类网站，其提供的信息有一定的参考价值，但不如官方或学术来源可靠。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 段落与主题有关，但没有提供具体的排名信息，因此部分回答了用户的查询。",
            "index": 4
        },
        {
            "recency": 1,
            "match": 1,
            "trustworthy": 1,
            "overall": 1,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户希望获取最新的考研专业排名信息。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2024年1月13日，内容提到的是2024年的考研难度排名，基本符合用户对最新信息的需求，但并非完全最新的2025年数据。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了考研专业的难度排名，并揭示了一些看似简单但实际上极难考的专业。这与用户的查询意图有一定的相关性，但重点在于考研难度而非具体的考研专业排名。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 文章来自腾讯新闻（view.inews.qq.com），这是一个较为可信的新闻网站，提供了较为可靠的信息。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 段落提供了一些关于考研专业难度的相关信息，但并没有直接给出具体的专业排名，且内容偏向于描述考研难度而非排名本身。因此，它部分回答了用户的查询意图，但不够全面和精确。",
            "index": 5
        },
        {
            "recency": 0,
            "match": 1,
            "trustworthy": 1,
            "overall": 1,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找最新的考研专业排名，特别是了解不同专业的排名情况。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2023年2月19日，距查询时间（2025年3月5日）较久，时效性较差。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落提到了法学、金融、医学、建筑等14个热门专业的解读，但没有直接提供具体的排名信息。尽管内容相关，但并没有完全回答“排名”的问题。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 站点来自于m.dxsbb.com，虽然有一定的教育类内容发布，但不是特别知名的学术或教育网站，因此可信度一般。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 段落与查询有些相关，但没有直接提供排名信息，且时效性不强。",
            "index": 6
        },
        {
            "recency": 1,
            "match": 3,
            "trustworthy": 0,
            "overall": 2,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找考研专业的排名信息，这可能包括不同专业的难度、受欢迎程度或其他排名指标。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2024年10月23日，符合用户对最新排名的期望。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落提供了考研专业按难度的梯度分类，详细列出了各个专业的难易程度。这与用户的查询意图非常契合，即了解各类考研专业的排名。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 该段落来自抖音（Douyin）平台，虽然这个平台有广泛的用户基础，但通常不被视为学术或官方排名的权威来源。因此，其可信度相对较低。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 段落内容与用户的查询高度相关，提供了详细的考研专业难度排名，但来源的可信度较低。因此，尽管内容匹配度高，但由于来源问题，评分不应过高。",
            "index": 7
        },
        {
            "recency": 1,
            "match": 2,
            "trustworthy": 1,
            "overall": 2,
            "steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找最新的考研专业排名，以帮助他们在选择学校和专业时作出决策。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落提供了2024年的中国大学专业排名信息，时间上相对接近用户查询的时间（2025年3月），但不是最新的数据。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了中国大学的专业排名，并提到了十大热门专业和A+院校，这与用户的查询高度相关。然而，段落的内容较为简略，未提供具体的排名列表或详细信息。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 该段落来自百家号（Baidu Baijiahao），这是一个百度旗下的自媒体平台，内容的可信度取决于作者的质量，但总体来说具有一定的参考价值。\n\n5. **考虑以上方面及各自的相对重要性，并决定最终评分 (overall):**\n- 段落与查询相关，提供了关于考研专业排名的部分信息，但由于不是最新数据且缺乏具体细节，部分内容可能不够精确。",
            "index": 8
        }
    ]
}

4. 自动化评估效果

通过在人工标注的100条数据集上，评估自动化评估方案与人工评估的相关性系数，结果如下：

	Pearson	Spearman
本方案（qu_100数据集）	0.6526	0.6414
Deepeval-ContextualRelevancy（qu_100数据集）	0.55	-
G-EVAL-4*（参考4，SummEval数据集的Relevance指标）		0.547 (非统一数据集，供参考)

4.1 Case Study

query：地球智商最高的生物
原因分析：snippet中不包含回答问题信息，但是点击链接后，全文内容是足够回答(如1，3，4)；此类问题会导致评分降低
序号	snippet	human-eval (qu)	llm-eval (overall)
1	网页本文将从这三个维度去分析、总结智力最高的19种动物，当然前提是除人类以外。第19名：马. 人与马的伙伴关系非常久远，马通人 …	2	1
2	网页是的，地球上智商最高的动物就是黑猩猩，它令人印象深刻的智力吸引了人类很多年。它们会制造和使用工具，会集体狩猎，并且能够处理 …	2	2
3	网页这些聪明的生物与人类有着密切的关系，并因其善解人意的行为而受到认可，甚至将其延伸到陌生人身上。在研究中，倭黑猩猩愿意参与导 …	2	1
4	人类真的是这个地球上最聪明的动物吗？？？ - 知乎	2	0
5	网页Dr.Hu . 生物学话题下的优秀答主. 存在过，只是当人们意识到居然有比人类更聪明的物种的时候，就会迅速提出新的测量聪明程度的方法让 …	1	1
6	网页科学家把智力分成两大类：和物理环境打交道的“生态智力”（ecologicalintelligence），以及和他人打交道的“社会智力”（socialintelligence） …	2	1
7	网页世界上最聪明的 10 种动物及其非凡的能力如下：. 1. 黑猩猩. 人类和黑猩猩是最接近的生物，因为它们共享大约 98% 的 DNA。. 它们非凡 …	2	2
8	网页地球上11中高智商动物，海豚排第三，猪榜上有名. 你知道有多少种动物的智商堪比三岁小孩一样聪明？. 然而却被你忽略了！. 实际上，羊竟然比狗还要聪明。. 海豚都只能排第三，第四名更是会说话，猪竟然榜上有名。. 接下来就让美春带你了解一下 ...	2	1

query：snap公司创始人
分析：如果问题无明显指向性（如本例可以认为是关键字检索），大模型评估分数会高于人工评估（如5,6,7,8）
序号	snippet	human-eval (qu)	llm-eval overall
1	<em>Snap</em><em>创始人</em>兼CEO埃文·斯皮格尔周日在德国慕尼黑举办的数字生活设计（DLD）大会上表示力挺海外版抖音（即TikTok），他说：短视频应用TikTok将比Facebook旗下的Instagram更有优势，因为它的内容是由人们的“才能”驱动的，而不是对炫耀自己的社会地位。在斯皮格尔看来，Instagram的内容大多都是炫耀自己的物质生活或者某种社会地位。内容缺乏深度和广度。	1	2
2	进入斯坦福大学后，斯皮格尔和Kappa Sigma兄弟会的墨菲共同<em>创办</em>了FutureFreshman.com，教给学生、父母和辅导员如何申请大学，但由于这个网站的用户非常有限，于是在2011年的夏天，两个<em>创始人</em>..	2	1
3	而它的创始人，<em>90后的天才少年埃文•斯皮格尔也成了人们关注的焦点。</em>如今，斯皮格尔和其合伙人墨菲均持有公司22.4%的股份，一旦上市，斯皮格尔还将获得额外的股票奖励，持股比例将攀升至25%。以此计算，届时他的身家将高达62.5亿美元，成为全世界最富有的年轻人。和比尔盖茨、扎克伯格类似，埃文•斯皮格尔的个人经历同样像开了挂的存在。	2	2
4	超模米兰达·可儿和她的老公、号称“全球最富90后”的<em>Snap创始人</em>埃文·斯皮格尔（Evan Spiegel）近日向洛杉矶一所艺术学校进行了捐赠，帮助该校285名应届毕业生偿还他们的未来的学生债务。...	1	1
5	在引领了阅后即焚风潮的 Snapchat 上线6年后，面对着高达250亿美元的IPO估值，年仅26岁的<em>Snap公司创始人</em>兼CEO 伊万·斯皮格尔（Evan Spiegel），再次回想起三年前与马克·扎克伯格的初次会面时...	1	3
6	<em>Snap创始人</em>兼CEO埃文-斯皮格尔（Evan Spiegel）最近表示，他的<em>公司</em>不会使用“元宇宙”这个词，因为它是“假设的”，而人们“实际上喜欢现实世界”。斯皮格尔在一次采访中表示，<em>Snap</em>更专注于开发...	1	3
7	据CNBC北京时间6月7日报道，<em>Snap创始人</em>兼首席执行官埃文·斯皮格尔（Evan Spiegel）表示，生活远不止是关于赚钱。据《福布斯》富豪榜显示，斯皮格尔的身价高达30亿美元。他在科技媒体Recode日前..	1	3
8	<em>Snap</em>联合<em>创始人</em>兼首席执行官埃文•斯皮格尔 27岁时，斯皮格尔在斯坦福大学的宿舍里联合创立了<em>Snap</em>。2017年3月，该<em>公司</em>进行了首次公开募股，斯皮格尔的身价也因此倍增。当时他的身价约为6.366亿...	1	3
9	<em>Snap创始人</em>兼CEO埃文-斯皮格尔（Evan Spiegel）最近表示，他的<em>公司</em>不会使用“元宇宙”这个词，因为它是“假设的”，而人们“实际上喜欢现实世界”。斯皮格尔在一次采访中表示，<em>Snap</em>更专注于开发...	1	2

5. 限制

对一些时效性的判定还是存在误差，无法评估突发性的隐含时效性，如：民营企业家座谈会。
与人工或者用户标注的对齐上的差异，目前更多能够在语义的相关性对齐，但是对于用户的偏好、上下文、长尾事实的判断存在一定问题。并且也存在偏见：如会将mparticle.uc.cn来源trustworthy置为不可信等。
目前只能基于召回的Snippet进行评估，缺乏正文信息补充。
更加自洽的fewshot。