Whisper

苹果新 Speech 技术出击！34分钟4K视频转录仅需45秒，速度超OpenAI 55%

苹果新 Speech 技术出击！34分钟4K视频转录仅需45秒，速度超OpenAI 55%

近日，科技媒体 macstories 通过一项实测，揭示了苹果公司全新推出的 Speech API 的强大性能。通过转录一段长达34分钟、大小为7GB 的4K 视频，该技术仅用时45秒完成转录，速度之快令人惊叹。这项技术的推出是在2025年 WWDC 全球开发者大会上宣布的，其中包括两个重要模块:SpeechAnalyzer 和 SpeechTranscriber。

6/18/2025 6:01:46 PM AI在线

苹果新Speech API转录速度惊人，胜过OpenAI Whisper 55%

苹果新Speech API转录速度惊人，胜过OpenAI Whisper 55%

科技媒体 macstories 发布了一篇关于苹果新推出的 Speech API 的博文，引发了业界的广泛关注。通过对一段时长34分钟、大小达7GB 的4K 视频文件进行转录测试，结果显示，苹果的新 Speech API 仅耗时45秒，速度远超其他同类工具。相较之下，OpenAI 的 Whisper 转录时间为101秒，苹果的技术优势可见一斑，提升了约55% 的效率。

6/18/2025 12:01:54 PM AI在线

西北工业大学开源语音理解模型OSUM，结合Whisper和Qwen2，支持8种语音理解任务

西北工业大学开源语音理解模型OSUM，结合Whisper和Qwen2，支持8种语音理解任务

在人工智能领域，语言模型的快速发展引发了语音理解语言模型（SULMs）的广泛关注。近日，西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM，旨在探索在学术资源有限的情况下，如何有效训练和利用语音理解模型，以推动学术界的研究与创新。 OSUM 模型融合了 Whisper 编码器与 Qwen2语言模型，支持8种语音任务，包括语音识别（ASR）、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)及语音转文本聊天(STTC)。

2/20/2025 4:33:00 PM AI在线

OpenAI CEO在社交平台征询用户意见，或暗示重返开源之路

OpenAI CEO在社交平台征询用户意见，或暗示重返开源之路

OpenAI 的首席执行官 Sam Altman 近日在社交媒体平台 X 上发起了一项调查，询问用户对公司下一步开源开发方向的看法。这一举动发生在 OpenAI 正在经历重大转型的背景下，公司正将其营利部门转变为公益公司。自从获得微软投资以来，OpenAI 与开源的关系发生了显著变化。

2/19/2025 9:57:00 AM AI在线

OpenAI 语音转写工具 Whisper 被曝存在重大缺陷：会凭空生成大段虚假内容

OpenAI 语音转写工具 Whisper 被曝存在重大缺陷：会凭空生成大段虚假内容

当地时间 27 日，据美联社报道，超过十位软件工程师、开发人员和学术研究人员称，OpenAI 的语音转写工具 Whisper 存在一个重大缺陷：有时会凭空生成大段甚至整句虚假内容。这些专家指出，这些生成的文本（AI在线注：业内通常称为“AI 幻觉”）可能涉及种族言论、暴力措辞，甚至杜撰的医疗建议。专家们认为，这一问题尤其令人担忧，因为 Whisper 已被广泛应用于全球多个行业，包括用于翻译和转录访谈内容、生成常见消费科技文本及制作视频字幕。

10/28/2024 8:47:58 AM 清源

OpenAI 升级 Whisper 语音转录 AI 模型，不牺牲质量速度快 8 倍

OpenAI 升级 Whisper 语音转录 AI 模型，不牺牲质量速度快 8 倍

OpenAI 在 10 月 1 日举办的 DevDay 活动日中，宣布推出了 Whisper large-v3-turbo 语音转录模型，共有 8.09 亿参数，在质量几乎没有下降的情况下，速度比 large-v3 快 8 倍。Whisper large-v3-turbo 语音转录模型是 large-v3 的优化版本，并且只有 4 层解码器层（Decoder Layers），作为对比 large-v3 共有 32 层。Whisper large-v3-turbo 语音转录模型共有 8.09 亿参数，比 7.69 亿

10/3/2024 11:44:37 AM 故渊

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉