AI在线 AI在线

Whisper

苹果新 Speech 技术出击!34分钟4K视频转录仅需45秒,速度超OpenAI 55%

近日,科技媒体 macstories 通过一项实测,揭示了苹果公司全新推出的 Speech API 的强大性能。 通过转录一段长达34分钟、大小为7GB 的4K 视频,该技术仅用时45秒完成转录,速度之快令人惊叹。 这项技术的推出是在2025年 WWDC 全球开发者大会上宣布的,其中包括两个重要模块:SpeechAnalyzer 和 SpeechTranscriber。
6/18/2025 6:01:46 PM
AI在线

苹果新Speech API转录速度惊人,胜过OpenAI Whisper 55%

科技媒体 macstories 发布了一篇关于苹果新推出的 Speech API 的博文,引发了业界的广泛关注。 通过对一段时长34分钟、大小达7GB 的4K 视频文件进行转录测试,结果显示,苹果的新 Speech API 仅耗时45秒,速度远超其他同类工具。 相较之下,OpenAI 的 Whisper 转录时间为101秒,苹果的技术优势可见一斑,提升了约55% 的效率。
6/18/2025 12:01:54 PM
AI在线

西北工业大学开源语音理解模型OSUM,结合Whisper和Qwen2,支持8种语音理解任务

在人工智能领域,语言模型的快速发展引发了语音理解语言模型(SULMs)的广泛关注。 近日,西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM,旨在探索在学术资源有限的情况下,如何有效训练和利用语音理解模型,以推动学术界的研究与创新。 OSUM 模型融合了 Whisper 编码器与 Qwen2语言模型,支持8种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)及语音转文本聊天(STTC)。
2/20/2025 4:33:00 PM
AI在线

​OpenAI CEO在社交平台征询用户意见,或暗示重返开源之路

OpenAI 的首席执行官 Sam Altman 近日在社交媒体平台 X 上发起了一项调查,询问用户对公司下一步开源开发方向的看法。 这一举动发生在 OpenAI 正在经历重大转型的背景下,公司正将其营利部门转变为公益公司。 自从获得微软投资以来,OpenAI 与开源的关系发生了显著变化。
2/19/2025 9:57:00 AM
AI在线

OpenAI 语音转写工具 Whisper 被曝存在重大缺陷:会凭空生成大段虚假内容

当地时间 27 日,据美联社报道,超过十位软件工程师、开发人员和学术研究人员称,OpenAI 的语音转写工具 Whisper 存在一个重大缺陷:有时会凭空生成大段甚至整句虚假内容。 这些专家指出,这些生成的文本(AI在线注:业内通常称为“AI 幻觉”)可能涉及种族言论、暴力措辞,甚至杜撰的医疗建议。 专家们认为,这一问题尤其令人担忧,因为 Whisper 已被广泛应用于全球多个行业,包括用于翻译和转录访谈内容、生成常见消费科技文本及制作视频字幕。
10/28/2024 8:47:58 AM
清源

OpenAI 升级 Whisper 语音转录 AI 模型,不牺牲质量速度快 8 倍

OpenAI 在 10 月 1 日举办的 DevDay 活动日中,宣布推出了 Whisper large-v3-turbo 语音转录模型,共有 8.09 亿参数,在质量几乎没有下降的情况下,速度比 large-v3 快 8 倍。Whisper large-v3-turbo 语音转录模型是 large-v3 的优化版本,并且只有 4 层解码器层(Decoder Layers),作为对比 large-v3 共有 32 层。Whisper large-v3-turbo 语音转录模型共有 8.09 亿参数,比 7.69 亿
10/3/2024 11:44:37 AM
故渊
  • 1