OpenAI Evals新增原生音频输入和评估功能

作者：AI在线 2025-09-16 10:06

近日，OpenAI 的 Evals 工具迎来了令人振奋的重大更新，新增了原生音频输入和评估功能。这一创新意味着开发者们在测试和优化语音识别与生成模型时，可以直接使用音频文件进行评估，而无需经过繁琐的文本转录过程。这一变化极大地简化了评估流程，使得音频应用的开发变得更加高效。

在以往的评估过程中，开发者们往往需要先将音频内容转化为文本，这不仅费时费力，还可能影响评估结果的准确性。而现在，通过 Evals 的新功能，用户只需简单地上传音频文件，便可以在平台上直接进行性能评估。这种无缝对接的方式，不仅减少了数据处理的复杂性，还提升了评估结果的可靠性，为开发者带来了实实在在的便利。

Evals 的这一升级对于多个应用场景来说都是一个福音。例如，智能语音助手的开发者能够更轻松地测试其系统的响应能力，语音识别系统的性能评估也将变得更加精准。同时，音频内容生成的质量控制也能够得到进一步加强。通过这一工具，开发者们可以频繁地测试和调整他们的音频模型，确保最终产品的质量更上一层楼。

Evals 的原生音频支持为音频应用开发带来了新的机遇，帮助开发者们在激烈的市场竞争中，快速迭代、提升产品性能。如需进一步了解如何使用这一新功能，用户可以参考 OpenAI 官方提供的 Cookbook 指南，获取更详细的操作步骤与应用示例。

OpenAI Evals 新增原生音频评估功能，简化语音模型测试

OpenAI 正在进一步拓展其 Evals 工具的功能，为开发者带来了原生音频输入和音频评分支持。这项更新意味着，现在可以直接评估模型的音频响应，而无需先进行文本转录。这一新功能极大地简化了语音识别和语音生成模型的评估流程。

9/16/2025 10:06:30 AM AI在线

LLM 应用评估综合指南（多轮对话系统、RAG、AI Agent）

随着大语言模型应用从简单的文本生成，发展到复杂的多轮对话机器人、检索增强生成（RAG）系统乃至智能体（Agent），我们应如何科学、有效地评估它们的性能，确保其稳定可靠？我们今天为大家带来的文章，作者的观点是，对现代 LLM 应用的评估，必须超越传统的 NLP 评估指标，转向一个分场景、系统化的评估体系，综合运用新兴的评价指标与自动化框架，从而全面地衡量系统的综合表现。作者系统梳理了从传统 NLP 评估指标（如 BLEU、ROUGE）到现代 LLM 基准测试（如 MMLU）的演进，并重点阐释了“LLM-as-a-judge”这一新兴评估范式。

10/27/2025 1:50:00 AM Baihai IDP

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/9/2025 2:35:00 PM 机器之心

OpenAI Evals新增原生音频输入和评估功能

相关资讯

OpenAI Evals 新增原生音频评估功能，简化语音模型测试

LLM 应用评估综合指南（多轮对话系统、RAG、AI Agent）

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA