搜索质量大模型评估方法
本文将介绍如何使用大模型对搜索的召回质量的自动化评估
1. 背景
搜索引擎召回文档是否包含足够的信息来回答用户问题(搜索质量评估)一个重要问题。传统的方案是通过专家、众包模式进行人工评估,并将质量评估标准沉淀为指导手册(参考3),但是人工评估无法低成本的scalable。随着大模型能力增强,使用大模型进行自动化评估变得逐步可行,在Bing的工作(参考1)中可以看到大模型评估已经优于内部的众包人工评估。本方案将基于bing & umbrela工作基础上构建一个自动化搜索质量评估器
2. 评估维度
match(搜索相关性):关键的相关性评估,提供4种区分梯度。
0 = 代表段落与查询无关,
1 = 代表段落似乎与查询相关但没有回答它,
2 = 代表段落对查询有一些回答,但答案可能有点不清楚,或隐藏在无关信息中,
3 = 代表段落专门回答查询并包含确切的答案。
trustworthy(可靠度):通过召回文档的域名以及站点名称信息,通过模型已有知识进行判断。
0:不可靠信源
1:可靠信源
recency(时效性):通过query中的时间与召回文档的信息,判断时效性是否一致。
0:时效性不匹配
1:时效匹配
overall(综合分数):综合上述三个维度以及各自的重要性,给出评分;即以match为基准,综合考虑trustworthy与recency给出综合分数。评分区间:0~3。
3. 实现方案
3.1 样例代码
tongxiao_eval_main.py
import asyncio
import json
from labs.tongxiao_eval.examples import EXAMPLES
from labs.tongxiao_eval.retrieval_evaluator import TongxiaoEvaluator, Passage
async def tongxiao_eval():
example = EXAMPLES[0]
evaluator = TongxiaoEvaluator()
query = example['query']
passages = [Passage(**p) for p in example['retrieval_context']]
response = await evaluator.evaluate(query, passages)
print(json.dumps(response, indent=4, ensure_ascii=False))
if __name__ == '__main__':
asyncio.run(tongxiao_eval())
retrieval_evaluator.py
import asyncio
import logging
import re
from datetime import datetime
from typing import List
from langchain_community.chat_models import ChatTongyi
from langchain_core.output_parsers import JsonOutputParser
from langchain_core.prompts import ChatPromptTemplate
from pydantic import BaseModel
from labs.tongxiao_eval.fewshot_prompt import FEWSHOT_EVAL_PROMPT
class Passage(BaseModel):
passage: str
publish_time: int
website: str
site_label: str
title: str
def get_publish_time_str(self):
if self.publish_time:
dt_object = datetime.fromtimestamp(int(self.publish_time/1000))
formatted_date = dt_object.strftime('%Y-%m-%d %H:%M:%S')
return formatted_date
return ""
class TongxiaoEvaluator:
def __init__(self):
# 阿里云 dashscope api-key
dashscope_key = ""
self.model = ChatTongyi(
model="qwen-plus",
api_key=dashscope_key,
temperature=0,
top_p=1
)
prompt = ChatPromptTemplate.from_messages([
("system", "You are a helpful assistant."),
("human", FEWSHOT_EVAL_PROMPT)
])
self.semaphore = asyncio.Semaphore(10)
self.chain = (prompt | self.model)
async def evaluate_passage_with_semaphore(self, query: str, passage: Passage, index: int):
async with self.semaphore:
result = await self.evaluate_passage(index, query, passage)
return index, result
async def evaluate(self, query: str, passages: List[Passage]) -> dict:
# 创建任务列表,包含索引信息
tasks = [
self.evaluate_passage_with_semaphore(query, passage, i)
for i, passage in enumerate(passages)
]
# 使用 gather 并行执行评估任务
results = await asyncio.gather(*tasks)
# 根据索引排序结果
sorted_results = sorted(results, key=lambda x: x[0])
passage_evals = [result[1] for result in sorted_results]
relevancy_scores = [passage_eval.get("overall") for passage_eval in passage_evals]
score = sum(relevancy_scores) / len(relevancy_scores)
detail = dict(
query=query,
score=score,
relevancy_scores=relevancy_scores,
passages=passage_evals
)
return detail
def extract_steps(self, text):
# 使用正则表达式提取步骤部分
pattern = r'### 步骤:(.*?)### final score'
match = re.search(pattern, text, re.DOTALL)
if match:
# 提取匹配的内容并去除首尾空白
steps_content = match.group(1).strip()
return steps_content
else:
return None
async def evaluate_passage(self, index: int, query: str, passage: Passage):
"""
:param query:
:param passage:
:return:
{
"recency": 0,
"match": 2,
"trustworthy": 1,
"overall": 1,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户想要了解最新的考研专业排名。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落标题提到的是“2024年考研热门专业排名”,但发布日期是2020年12月14日,明显不符合用户对最新信息的需求。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落确实提供了关于考研专业的排名信息,并且具体列出了前十名的专业。因此,在内容上与用户的查询高度相关。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 百家号(baijiahao.baidu.com)是一个百度旗下的内容平台,具有一定的可信度,但不是学术或官方教育机构的来源。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 尽管内容与查询高度相关,但由于发布时间过早,影响了其时效性和准确性,因此不能完全满足用户对最新信息的需求。",
"index": 0
}
"""
try:
current_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
response = await self.chain.ainvoke({
"query": query,
"current": current_time,
"title": passage.title,
"passage": passage.passage,
"publish_time": passage.get_publish_time_str(),
"website": passage.website
})
steps = self.extract_steps(response.content)
json_response = JsonOutputParser().parse(response.content)
json_response["steps"] = steps
json_response["index"] = index
return json_response
except Exception as e:
logging.exception(f"invoke qwen evaluate query {query} failed, {e}")
return {
"recency": -1,
"match": -1,
"trustworthy": -1,
"overall": -1
}
fewshot_prompt.py
FEWSHOT_EVAL_PROMPT = """
给定一个查询和一个段落相关信息,你必须在0到3的整数范围内提供一个评分,定义如下:
0 = 代表段落与查询无关,
1 = 代表段落似乎与查询相关但没有回答它,
2 = 代表段落对查询有一些回答,但答案可能有点不清楚,或隐藏在无关信息中,
3 = 代表段落专门回答查询并包含确切的答案。
以下是不同类别相关性分类的一些示例:
###
query: 最新的人类学对环境的定义
query time: 2025-01-07 12:30:29
passage: 在1890年,非生物因素被定义为环境中所有非生物的组成部分。环境中的所有生物因素都依赖于这些非生物因素。例如,在热带雨林中,生物因素的例子包括巨嘴鸟、青蛙、蛇和蜥蜴。热带雨林中的非生物因素包括湿度、土壤成分、温度和阳光。每个环境都由所谓的“生物”和“非生物”因素组成。在本课中,你将学习非生物因素的定义及其重要性,还将探讨热带雨林中存在的一些非生物因素的实例。
passage title: 非生物因素被定义为环境中所有非生物的组成部分
passage publish time: 2004-12-02 10:03:32
passage website: education.nationalgeographic.org
### 步骤:
1. **考虑搜索的潜在意图:**
- 这个意图是寻找最新“环境”的人类学定义,这意味着需要寻找近期一个在人类学背景下的定义。
2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**
- 提供的段落定义来自1890年,发布时间是2004年,并不符合用户对最新定义的期望。
3. **衡量内容与查询的可能意图的匹配程度(match):**
- 段落讨论了环境中的非生物和生物因素,特别是在热带雨林中,但没有将这些概念与人类学联系起来,也没有提供人类学背景下的定义。
4. **衡量段落的可信度(trustworthy):**
- passage website是国家地理学会(National Geographic Society)的教育网站,信息是可靠的
5. **考虑以上方面及各自的相对重要性,并决定最终评分(overall):**
- 这个段落并没有直接回答“环境”的人类学定义,而是更侧重于生态概念,没有提供相关的查询信息。
### final score:
```json
{{
"recency": 0,
"match": 0,
"trustworthy": 1,
"overall": 0
}}
```
###
query: 最新的人类学对环境的定义
query time: 2025-01-07 12:30:29
passage: 环境的定义是:环境:环境中所有元素、因素和条件的总和,这些可能对生物体或生物群体的发育、行为或生存产生影响。Search MedTerms:
passage title: 环境的定义
passage publish time: 2004-12-02 10:03:32
passage website: byjus.com
### 步骤:
1. **考虑搜索的潜在意图:**
- 这个意图是寻找最新“环境”的人类学定义,这意味着需要寻找一个特别在人类学背景下构架的定义。
2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**
- 内容发布与2004年,并不符合用户对最新定义的期望。
3. **衡量内容与查询的可能意图的匹配程度 (match):**
- 段落提供了一个一般的“环境”定义,但没有特别提到人类学背景。
4. **衡量段落的可信度 (trustworthy):**
- 它提到了“Search MedTerms”,暗示可能是一个医学术语来源,可能与人类学不直接相关。另外站点byjus.com是一家位于印度的教育技术公司,是全球领先的在线教育平台之一,有较强的可参考性
5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**
- 这个段落有些相关,但没有达到具体意图(人类学背景),而且可信度模糊。
### final score:
```json
{{
"recency": 0,
"match": 1,
"trustworthy": 1,
"overall": 1
}}
```
###
query: 最新的环境的人类学定义
query time: 2025-01-07 12:30:29
passage: 人类学研究生学习。CU Boulder的生物人类学研究生项目提供多个领域的培训,包括灵长类学、人类生物学和古人类学。我们对人类生态学感兴趣,这是一门综合性广泛的人类学领域,研究文化、生物学和环境的相互作用。
passage title: 人类学研究生学习
passage publish time: 2023-12-02 10:03:32
passage website: anthropology.yale.edu
### 步骤:
1. **考虑搜索的潜在意图:**
- 这个意图是寻找“环境”的人类学定义,这意味着需要关注人类学如何定义和解释环境。
2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**
- 提供的段落来自2023年,符合用户对最近定义的期望。
3. **衡量内容与查询的可能意图的匹配程度 (match):**
- 段落讨论了人类生态学,这是一个广泛的整合领域,研究文化、生物学与环境之间的相互作用。这很好地符合关于环境的人类学背景。
4. **衡量段落的可信度 (trustworthy):**
- 该来源提到CU Boulder的一个研究生项目,这是一家信誉良好的机构,表明了可信度高。对应的站点来自于耶鲁大学,可靠度高
5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**
- 段落与查询相关,提供了人类学中环境的上下文理解,尽管没有提供精确的定义,因此能得到较高分。
### final score:
```json
{{
"recency": 1,
"match": 2,
"trustworthy": 1,
"overall": 2
}}
```
###
query: 最新的环境的人类学定义
query time: 2025-01-07 12:30:29
passage: 考古学通过研究物理证据研究过去人类文化,在美国被认为是人类学的一个分支,尽管在欧洲,它被视为一个独立的学科,或与其他学科相关。环境人类学是人类学领域的一个子专业,它积极研究人类与环境之间在时空上的关系。
passage title: 考古学人类研究
passage publish time: 2024-12-27 17:32:08
passage website: en.wikipedia.org
### 步骤:
1. **考虑搜索的潜在意图:**
- 这个意图是寻找“环境”的人类学定义,这意味着需要一个解释人类学如何看待和研究环境的说明。
2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**
- 段落提供了2024年12月27日的定义,符合用户对最新定义的期望。
3. **衡量内容与查询的可能意图的匹配程度 (match):**
- 段落明确提到了“环境人类学”,这是一个研究人类与环境关系的子专业,直接回答了关于环境的人类学观点。
4. **衡量段落的可信度 (trustworthy):**
- 站点来自于维基百科,可信度高。另外,段落似乎提供了学术和结构化的解释,表明来源可能是学术或教育背景,可信度高。
5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**
- 段落与查询直接相关,提供了关于环境人类学的具体信息及其关注的人类与环境关系,使其高度相关。
### final score:
```json
{{
"recency": 1,
"match": 3,
"trustworthy": 1,
"overall": 3
}}
```
###
重要指示:
1. 如果段落与主题有些相关但不完全,则分配类别1;如果段落呈现了整个主题非常重要的内容但也包含一些多余信息,则分配类别2;如果段落仅仅完全涉及主题,则分配类别3。如果没有以上任何一种情况,请分配类别0。
2. 对于时效性(R)对最终评分(O)的影响:如果意图中包含明显的时间要求,并且段落中的信息与时间不匹配,R分为0,根据时效性不匹配对问题的回答影响的严重性,最严重可以分配最终分值为0
3. 仔细分析提供的站点域名,根据大众对站点置信度的判定给与可靠性判定。
4. 步骤参考:
将这个问题分为以下几个步骤:
考虑搜索的潜在意图。
衡量段落的时效性与查询意图的时效性的匹配程度 (recency)。
衡量内容与查询的可能意图的匹配程度 (match)。
衡量段落与来源站点的可信度 (trustworthy)。
考虑以上方面及各自的相对重要性,并决定最终评分 (overall)。最终评分必须是整数值。
5. 不要添加其他解释、原因与其他代码,按照上述示例,先输出步骤,在输出final score
###
query: {query}
query time: {current}
passage: {passage}
passage title: {title}
passage publish time: {publish_time}
passage website: {website}
### 步骤:
### final score:
"""
examples.py
EXAMPLES = [
{
"query": "考研专业排名",
"retrieval_context":
[
{
"passage": "2024年考研热门专业排名前十名!前十名榜依次为计算机技术、电子信息、计算机科学与技术(学硕)、机械、软件工程、人工智能、机械工程(学硕)、会计、法律(非法学)、机械工程(专硕),以互联网相关领域为主。一. 2024年考研热门专业前十二. 考研到底选不选热门专业三. 考研选择专业考虑什么因素",
"publish_time": 1607891040000,
"website": "baijiahao.baidu.com",
"site_label": "",
"title": "2024年考研热门专业排名前十名!计算机技术专业榜首"
},
{
"passage": "根据市场需求和就业前景,以下是2024年十大研究生就业前景好的专业排名: 计算机与应用 涉及计算机一类专业,一直是互联网行业的高薪职业。特别涉及软件开发,对于一些能力出众的毕业生来说毕业月入过万来说基本不是问题,考研深造后前途基本不可限量。市场营销 市场营销专业培养具备管理、经济、法律、市场营销等方面的知识和能力,能在企、事业单位及政府部门从事市场营销与管理以及教学、科研方面工作的工商管理学科高级专门...",
"publish_time": 1727593686000,
"website": "m.xueti.com",
"site_label": "",
"title": "2025考研十大热门专业排行榜 最吃香的专业有哪些"
},
{
"passage": "考研专业排名栏目,为广大考研学子提供研专业排名查询、研究生院校排名等信息,希望对大家有所帮助。",
"publish_time": 1691769600000,
"website": "m.dxsbb.com",
"site_label": "",
"title": "考研专业"
},
{
"passage": "律所的民商法律师更是炙手可热,无数的企业急需大批民商法人才,实在不行还可以自己干。民商法职业是法学中社会地位、职业声望和收入最高的一个专业。民商法直接对口的职业方向是法院、律所、企业。2、刑法 刑法和民法是两大最主要的...",
"publish_time": 1387382400000,
"website": "yz.chsi.com.cn",
"site_label": "",
"title": "法学研究生各专业就业潜力排名"
},
{
"passage": "考研拉开大幕了,对于一些考研新手来说,择校择专业很重要也很为难。下面小编为大家盘点就业情况非常可观的10大考研专业,希望能帮大家正确抉择! 1、建筑设计:热度随着行情涨 在整个...",
"publish_time": 1720865043000,
"website": "m.creditsailing.com",
"site_label": "",
"title": "考研专业排名,2024就业情况可观的考研十大专业"
},
{
"passage": "2024年全国硕士研究生统一招生考试已经结束20多天了。从考研难度排名来看,没有最难,只有更难。下面,请让我们一起来揭示那些看似简单,却极难考的专业。在考研的道路上,每个考生都面临着不同的挑战。有些专业看似简单,实则内含玄机,让无数考生望而却步。今天,我们将为您揭示考研中最难考的专业排名,带您了解那些看似简单却极难考的专业。排名第...",
"publish_time": 1705136820000,
"website": "view.inews.qq.com",
"site_label": "",
"title": "考研专业与难度排名,打破人们固有的认知!你选的专业在其中吗"
},
{
"passage": "对于 考研 党来说,选择报考院校和专业,是非常重要的一步。报名在即,你对自己要报考的专业足够了解吗?主要学科方向有哪些?就业前景 如何?戳图!法学、金融、医学、建筑等14个关注度较高的专业全面解读,科学备考!",
"publish_time": 1676782672000,
"website": "m.dxsbb.com",
"site_label": "",
"title": "考研热门专业排名前十名"
},
{
"passage": "第二梯度(非常困难 税务、保险、翻译、心理学、工商管理、电气工程、自动化、管理科学@小海学长 农学、林学、畜牧医学、地质、矿业 第三梯度(难度一般)图情、护理、工程管理、社会工作、外语文学、数学、土地资源管理、第五梯度(最好上岸)yi、文博 yao学、交通运输 国内考研专业推荐排名 第一梯度(超级困难)第四梯度(相对简单)金融、计算机、医学、马理论、公共管理、法学、国际商务、审计 会计、学科教学、新传、汉语言文学、应用统计、法硕非法、教育学 农林经济管理、建筑、音乐、舞蹈...",
"publish_time": 1729645920000,
"website": "m.douyin.com",
"site_label": "",
"title": "国内考研专业难度排名"
},
{
"passage": "以下是来着软科中国大学专业排名情况,数据仅供参考!大家在25/26考研择校过程中,可以多多斟酌!十大热门专业A+院校考研热门专...",
"publish_time": 1720682940000,
"website": "baijiahao.baidu.com",
"site_label": "",
"title": "2024中国大学专业排名,这些专业最热门!"
}
]
}
]
3.2 返回样例
{
"query": "考研专业排名",
"score": 1.4444444444444444,
"relevancy_scores": [
1,
2,
2,
1,
1,
1,
1,
2,
2
],
"passages": [
{
"recency": 0,
"match": 2,
"trustworthy": 1,
"overall": 1,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户想要了解最新的考研专业排名。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落标题提到的是“2024年考研热门专业排名”,但发布日期是2020年12月14日,明显不符合用户对最新信息的需求。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落确实提供了关于考研专业的排名信息,并且具体列出了前十名的专业。因此,在内容上与用户的查询高度相关。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 百家号(baijiahao.baidu.com)是一个百度旗下的内容平台,具有一定的可信度,但不是学术或官方教育机构的来源。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 尽管内容与查询高度相关,但由于发布时间过早,影响了其时效性和准确性,因此不能完全满足用户对最新信息的需求。",
"index": 0
},
{
"recency": 1,
"match": 2,
"trustworthy": 1,
"overall": 2,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户的意图是寻找最新的考研专业排名,特别是那些在就业市场上热门的专业。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落提供了2024年的研究生就业前景好的专业排名,发布时间为2024年9月29日,符合用户对最新排名的期望。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了2024年十大研究生就业前景好的专业,并具体提到了计算机与应用和市场营销等专业。虽然没有直接提到“考研专业排名”,但内容非常接近用户的查询需求。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 站点m.xueti.com是一个教育类网站,提供关于考试和学习的信息,具有一定的可信度。然而,它并非权威学术机构或官方排名来源,因此可信度中等。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 段落与查询高度相关,提供了具体的热门专业信息,尽管不是严格的“考研专业排名”。考虑到其时效性和内容的相关性,可以给较高评分。",
"index": 1
},
{
"recency": 1,
"match": 2,
"trustworthy": 1,
"overall": 2,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是查询最新的考研专业排名信息。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2023年8月12日,距离查询时间(2025年3月5日)已有一段时间,但没有明确提到具体的排名数据更新时间,因此时效性较为一般。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落提到了考研专业排名栏目,并说明该栏目提供专业排名和院校排名查询的信息,直接回应了用户的查询需求。然而,它并没有提供具体的排名数据或详细信息。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 网站m.dxsbb.com是一个教育类网站,具有一定的可信度,但并非权威学术机构或官方发布渠道。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 段落与查询相关,提供了关于考研专业排名的信息来源,但没有具体展示排名数据,且时效性一般。",
"index": 2
},
{
"recency": 0,
"match": 1,
"trustworthy": 1,
"overall": 1,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找最新的考研专业排名,特别是关于不同专业的排名情况。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2013年,远不符合用户对最新排名的期望。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了法学研究生中民商法和刑法的就业潜力,并提及一些职业方向,但没有提供具体的考研专业排名。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 站点来自于中国研究生招生信息网(yz.chsi.com.cn),这是一个官方且可靠的教育信息平台。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 段落内容虽然涉及法学相关领域,但并没有直接回答考研专业排名的问题,且信息已经过时。",
"index": 3
},
{
"recency": 1,
"match": 1,
"trustworthy": 1,
"overall": 1,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找最新的考研专业排名,这通常意味着希望了解各个专业的相对优劣和受欢迎程度。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布于2024年7月13日,符合用户对最新排名的期望。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了就业情况可观的十大考研专业,但没有提供具体的排名列表,只是提到一些热门专业。因此,虽然相关但未完全回答用户的查询。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 网站m.creditsailing.com似乎是一个教育类网站,其提供的信息有一定的参考价值,但不如官方或学术来源可靠。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 段落与主题有关,但没有提供具体的排名信息,因此部分回答了用户的查询。",
"index": 4
},
{
"recency": 1,
"match": 1,
"trustworthy": 1,
"overall": 1,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户希望获取最新的考研专业排名信息。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2024年1月13日,内容提到的是2024年的考研难度排名,基本符合用户对最新信息的需求,但并非完全最新的2025年数据。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了考研专业的难度排名,并揭示了一些看似简单但实际上极难考的专业。这与用户的查询意图有一定的相关性,但重点在于考研难度而非具体的考研专业排名。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 文章来自腾讯新闻(view.inews.qq.com),这是一个较为可信的新闻网站,提供了较为可靠的信息。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 段落提供了一些关于考研专业难度的相关信息,但并没有直接给出具体的专业排名,且内容偏向于描述考研难度而非排名本身。因此,它部分回答了用户的查询意图,但不够全面和精确。",
"index": 5
},
{
"recency": 0,
"match": 1,
"trustworthy": 1,
"overall": 1,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找最新的考研专业排名,特别是了解不同专业的排名情况。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2023年2月19日,距查询时间(2025年3月5日)较久,时效性较差。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落提到了法学、金融、医学、建筑等14个热门专业的解读,但没有直接提供具体的排名信息。尽管内容相关,但并没有完全回答“排名”的问题。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 站点来自于m.dxsbb.com,虽然有一定的教育类内容发布,但不是特别知名的学术或教育网站,因此可信度一般。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 段落与查询有些相关,但没有直接提供排名信息,且时效性不强。",
"index": 6
},
{
"recency": 1,
"match": 3,
"trustworthy": 0,
"overall": 2,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找考研专业的排名信息,这可能包括不同专业的难度、受欢迎程度或其他排名指标。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落发布时间为2024年10月23日,符合用户对最新排名的期望。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落提供了考研专业按难度的梯度分类,详细列出了各个专业的难易程度。这与用户的查询意图非常契合,即了解各类考研专业的排名。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 该段落来自抖音(Douyin)平台,虽然这个平台有广泛的用户基础,但通常不被视为学术或官方排名的权威来源。因此,其可信度相对较低。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 段落内容与用户的查询高度相关,提供了详细的考研专业难度排名,但来源的可信度较低。因此,尽管内容匹配度高,但由于来源问题,评分不应过高。",
"index": 7
},
{
"recency": 1,
"match": 2,
"trustworthy": 1,
"overall": 2,
"steps": "1. **考虑搜索的潜在意图:**\n- 用户意图是寻找最新的考研专业排名,以帮助他们在选择学校和专业时作出决策。\n\n2. **衡量段落的时效性与查询意图的时效性的匹配程度 (recency):**\n- 段落提供了2024年的中国大学专业排名信息,时间上相对接近用户查询的时间(2025年3月),但不是最新的数据。\n\n3. **衡量内容与查询的可能意图的匹配程度 (match):**\n- 段落讨论了中国大学的专业排名,并提到了十大热门专业和A+院校,这与用户的查询高度相关。然而,段落的内容较为简略,未提供具体的排名列表或详细信息。\n\n4. **衡量段落的可信度 (trustworthy):**\n- 该段落来自百家号(Baidu Baijiahao),这是一个百度旗下的自媒体平台,内容的可信度取决于作者的质量,但总体来说具有一定的参考价值。\n\n5. **考虑以上方面及各自的相对重要性,并决定最终评分 (overall):**\n- 段落与查询相关,提供了关于考研专业排名的部分信息,但由于不是最新数据且缺乏具体细节,部分内容可能不够精确。",
"index": 8
}
]
}
4. 自动化评估效果
通过在人工标注的100条数据集上,评估自动化评估方案与人工评估的相关性系数,结果如下:
Pearson | Spearman | |
本方案(qu_100数据集) | 0.6526 | 0.6414 |
Deepeval-ContextualRelevancy(qu_100数据集) | 0.55 | - |
G-EVAL-4*(参考4,SummEval数据集的Relevance指标) | 0.547 (非统一数据集,供参考) |
4.1 Case Study
query:地球智商最高的生物 | |||
原因分析:snippet中不包含回答问题信息,但是点击链接后,全文内容是足够回答(如1,3,4);此类问题会导致评分降低 | |||
序号 | snippet | human-eval (qu) | llm-eval (overall) |
1 | 网页本文将从这三个维度去分析、总结智力最高的19种动物,当然前提是 除人类以外。 第19名:马. 人与马的伙伴关系非常久远,马通人 … | 2 | 1 |
2 | 网页是的,地球上智商最高的动物就是黑猩猩,它令人印象深刻的智力吸引了人类很多年。 它们会制造和使用工具,会集体狩猎,并且能够处理 … | 2 | 2 |
3 | 网页这些聪明的生物与人类有着密切的关系,并因其善解人意的行为而受到认可,甚至将其延伸到陌生人身上。 在研究中,倭黑猩猩愿意参与导 … | 2 | 1 |
4 | 2 | 0 | |
5 | 网页Dr.Hu . 生物学话题下的优秀答主. 存在过,只是当人们意识到居然有比人类更聪明的物种的时候,就会迅速提出新的测量聪明程度的方法让 … | 1 | 1 |
6 | 网页科学家把智力分成两大类:和物理环境打交道的“生态智力”(ecologicalintelligence),以及和他人打交道的“社会智力”(socialintelligence) … | 2 | 1 |
7 | 网页世界上最聪明的 10 种动物及其非凡的能力如下:. 1. 黑猩猩. 人类和黑猩猩是最接近的生物,因为它们共享大约 98% 的 DNA。. 它们非凡 … | 2 | 2 |
8 | 2 | 1 |
query:snap公司创始人 | |||
分析:如果问题无明显指向性(如本例可以认为是关键字检索),大模型评估分数会高于人工评估(如5,6,7,8) | |||
序号 | snippet | human-eval (qu) | llm-eval overall |
1 | <em>Snap</em><em>创始人</em>兼CEO埃文·斯皮格尔周日在德国慕尼黑举办的数字生活设计(DLD)大会上表示力挺海外版抖音(即TikTok),他说:短视频应用TikTok将比Facebook旗下的Instagram更有优势,因为它的内容是由人们的“才能”驱动的,而不是对炫耀自己的社会地位。 在斯皮格尔看来,Instagram的内容大多都是炫耀自己的物质生活或者某种社会地位。内容缺乏深度和广度。 | 1 | 2 |
2 | 进入斯坦福大学后,斯皮格尔和Kappa Sigma兄弟会的墨菲共同<em>创办</em>了FutureFreshman.com,教给学生、父母和辅导员如何申请大学,但由于这个网站的用户非常有限,于是在2011年的夏天,两个<em>创始人</em>.. | 2 | 1 |
3 | 而它的创始人,<em>90后的天才少年埃文•斯皮格尔也成了人们关注的焦点。</em>如今,斯皮格尔和其合伙人墨菲均持有公司22.4%的股份,一旦上市,斯皮格尔还将获得额外的股票奖励,持股比例将攀升至25%。以此计算,届时他的身家将高达62.5亿美元,成为全世界最富有的年轻人。和比尔盖茨、扎克伯格类似,埃文•斯皮格尔的个人经历同样像开了挂的存在。 | 2 | 2 |
4 | 超模米兰达·可儿和她的老公、号称“全球最富90后”的<em>Snap创始人</em>埃文·斯皮格尔(Evan Spiegel)近日向洛杉矶一所艺术学校进行了捐赠,帮助该校285名应届毕业生偿还他们的未来的学生债务。... | 1 | 1 |
5 | 在引领了阅后即焚风潮的 Snapchat 上线6年后,面对着高达250亿美元的IPO估值,年仅26岁的<em>Snap公司创始人</em>兼CEO 伊万·斯皮格尔(Evan Spiegel),再次回想起三年前与马克·扎克伯格 的初次会面时... | 1 | 3 |
6 | <em>Snap创始人</em>兼CEO埃文-斯皮格尔(Evan Spiegel)最近表示,他的<em>公司</em>不会使用“元宇宙”这个词,因为它是“假设的”,而人们“实际上喜欢现实世界”。斯皮格尔在一次采访中表示,<em>Snap</em>更专注于开发... | 1 | 3 |
7 | 据CNBC北京时间6月7日报道,<em>Snap创始人</em>兼首席执行官埃文·斯皮格尔(Evan Spiegel)表示,生活远不止是关于赚钱。据《福布斯》富豪榜显示,斯皮格尔的身价高达30亿美元。他在科技媒体Recode日前.. | 1 | 3 |
8 | <em>Snap</em>联合<em>创始人</em>兼首席执行官埃文•斯皮格尔 27岁时,斯皮格尔在斯坦福大学的宿舍里联合创立了<em>Snap</em>。2017年3月,该<em>公司</em>进行了首次公开募股,斯皮格尔的身价也因此倍增。当时他的身价约为6.366亿... | 1 | 3 |
9 | <em>Snap创始人</em>兼CEO埃文-斯皮格尔(Evan Spiegel)最近表示,他的<em>公司</em>不会使用“元宇宙”这个词,因为它是“假设的”,而人们“实际上喜欢现实世界”。斯皮格尔在一次采访中表示,<em>Snap</em>更专注于开发... | 1 | 2 |
5. 限制
对一些时效性的判定还是存在误差,无法评估突发性的隐含时效性,如:民营企业家座谈会。
与人工或者用户标注的对齐上的差异,目前更多能够在语义的相关性对齐,但是对于用户的偏好、上下文、长尾事实的判断存在一定问题。并且也存在偏见:如会将mparticle.uc.cn来源trustworthy置为不可信等。
目前只能基于召回的Snippet进行评估,缺乏正文信息补充。
更加自洽的fewshot。