AI在线 AI在线

Evals

LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)

随着大语言模型应用从简单的文本生成,发展到复杂的多轮对话机器人、检索增强生成(RAG)系统乃至智能体(Agent),我们应如何科学、有效地评估它们的性能,确保其稳定可靠? 我们今天为大家带来的文章,作者的观点是,对现代 LLM 应用的评估,必须超越传统的 NLP 评估指标,转向一个分场景、系统化的评估体系,综合运用新兴的评价指标与自动化框架,从而全面地衡量系统的综合表现。 作者系统梳理了从传统 NLP 评估指标(如 BLEU、ROUGE)到现代 LLM 基准测试(如 MMLU)的演进,并重点阐释了“LLM-as-a-judge”这一新兴评估范式。
10/27/2025 1:50:00 AM
Baihai IDP

OpenAI Evals 新增原生音频评估功能,简化语音模型测试

OpenAI 正在进一步拓展其 Evals 工具的功能,为开发者带来了原生音频输入和音频评分支持。 这项更新意味着,现在可以直接评估模型的音频响应,而无需先进行文本转录。 这一新功能极大地简化了语音识别和语音生成模型的评估流程。
9/16/2025 10:06:30 AM
AI在线

OpenAI Evals新增原生音频输入和评估功能

近日,OpenAI 的 Evals 工具迎来了令人振奋的重大更新,新增了原生音频输入和评估功能。 这一创新意味着开发者们在测试和优化语音识别与生成模型时,可以直接使用音频文件进行评估,而无需经过繁琐的文本转录过程。 这一变化极大地简化了评估流程,使得音频应用的开发变得更加高效。
9/16/2025 10:06:11 AM
AI在线
  • 1