OpenAI Evals 新增原生音频评估功能，简化语音模型测试

作者：AI在线 2025-09-16 10:06

OpenAI 正在进一步拓展其 Evals 工具的功能，为开发者带来了原生音频输入和音频评分支持。这项更新意味着，现在可以直接评估模型的音频响应，而无需先进行文本转录。这一新功能极大地简化了语音识别和语音生成模型的评估流程。

OpenAI 正在进一步拓展其 Evals 工具的功能，为开发者带来了原生音频输入和音频评分支持。这项更新意味着，现在可以直接评估模型的音频响应，而无需先进行文本转录。这一新功能极大地简化了语音识别和语音生成模型的评估流程。

通过 Evals 的原生音频支持，开发者可以更高效地测试和优化其音频应用。用户只需上传音频文件，即可直接在平台上进行性能评估，这不仅减少了数据处理的复杂性，还提高了评估结果的准确性和可靠性。对于那些需要频繁测试和调整音频模型的开发者而言，这是一项重要的进步。

OpenAI

该功能的应用场景非常广泛，例如:智能语音助手的开发与优化，语音识别系统的性能评估，音频内容生成的质量控制。

这一更新为开发者提供了更直接、更高效的工具，以确保其音频应用的高质量和高性能。

地址：https://cookbook.openai.com/examples/evaluation/use-cases/evalsapi_audio_inputs

OpenAI Evals新增原生音频输入和评估功能

近日，OpenAI 的 Evals 工具迎来了令人振奋的重大更新，新增了原生音频输入和评估功能。这一创新意味着开发者们在测试和优化语音识别与生成模型时，可以直接使用音频文件进行评估，而无需经过繁琐的文本转录过程。这一变化极大地简化了评估流程，使得音频应用的开发变得更加高效。

9/16/2025 10:06:11 AM AI在线

LLM 应用评估综合指南（多轮对话系统、RAG、AI Agent）

随着大语言模型应用从简单的文本生成，发展到复杂的多轮对话机器人、检索增强生成（RAG）系统乃至智能体（Agent），我们应如何科学、有效地评估它们的性能，确保其稳定可靠？我们今天为大家带来的文章，作者的观点是，对现代 LLM 应用的评估，必须超越传统的 NLP 评估指标，转向一个分场景、系统化的评估体系，综合运用新兴的评价指标与自动化框架，从而全面地衡量系统的综合表现。作者系统梳理了从传统 NLP 评估指标（如 BLEU、ROUGE）到现代 LLM 基准测试（如 MMLU）的演进，并重点阐释了“LLM-as-a-judge”这一新兴评估范式。

10/27/2025 1:50:00 AM Baihai IDP

OpenAI o3 模型运行成本估算大幅上调：单次任务从 3000 美元涨至 3 万美元

Arc Prize Foundation 大幅上调 OpenAI o3 模型运行成本估算，从 3000 美元涨至 3 万美元。高昂成本凸显 AI 模型特定任务的高成本难题，控制成本成行业挑战。##AI模型成本##

4/3/2025 7:59:45 AM 远洋

OpenAI Evals 新增原生音频评估功能，简化语音模型测试

相关资讯

OpenAI Evals新增原生音频输入和评估功能

LLM 应用评估综合指南（多轮对话系统、RAG、AI Agent）

OpenAI o3 模型运行成本估算大幅上调：单次任务从 3000 美元涨至 3 万美元