系统评估
RAG系列:系统评估 - 基于LLM-as-judge实现评估系统
引言在 系统评估 - 五个主流评估指标详解 中,我们了解了 RAG 系统评估的 5 个主流指标,它们分别是 上下文召回率(Context Recall)、上下文相关性(Context Relevance)、答案忠实度(Faithfulness)、答案相关性(Answer Relevance)以及答案正确性(Answer Correctness),也简单了解了一些 RAG 系统的评估方法以及主流的评估系统。 今天我们将基于 LLM-as-judge 自己实现一套 RAG 系统评估系统,然后通过该评估系统评估我们在 基于 DeepSeek Chroma LangChain 开发一个简单 RAG 系统 中搭建好的基础版 RAG 系统,以基础版 RAG 系统这 5 个评估指标值作为基准,通过学习不同的优化方法来提升这 5 个指标。 因为是通过 LLM 来评估,所以评估 LLM 的能力越强,理论上评估就会越准确,因此在实际的业务场景中,尽可能选用能力更强的 LLM。
5/26/2025 9:57:46 AM
燃哥讲AI
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
AI新词
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
腾讯
Claude
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
研究
AI视频
大语言模型
生成
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
场景
深度学习
架构
生成式AI
DeepMind
编程
视觉
Transformer
预测
AI模型
MCP
伟达
亚马逊