转录
微软发布 DragonV2.1 模型:AI 转录语音更自然,单词错误率平均下降 12.8%、支持合成超 100 种语言
AI在线 7 月 31 日消息,科技媒体 NeoWin 今天(7 月 31 日)发布博文,报道称微软推出了 DragonV2.1Neural 零次学习(Zero-Shot Learning)模型,仅凭少量数据就能创建更加自然、表现力强的声音,并支持超过 100 种语言。 AI在线援引博文介绍,这是一种零次学习的文本到语音(TTS)模型,承诺提供更加自然和富有表现力的声音,并提高了发音的准确性以及增强了可控性。 新模型仅需几秒钟的语音样本即可合成超过 100 种语言的语音。
7/31/2025 12:57:12 PM
故渊
8 秒转录 30 分钟播客:MacWhisper 应用接入英伟达 Parakeet 模型
科技媒体 9to5Mac 昨日(6 月 27 日)发布博文,报道称 macOS 应用 MacWhisper 在近期版本更新中,通过接入英伟达的 Parakeet 模型,转录速度飙升。
6/28/2025 6:54:35 AM
故渊
ElevenLabs 发布 Scribe 语音转文本模型,准确率创新高、英语达 96.7%
ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司,近日推出了其最新的语音转文本模型 ——Scribe v1。 该模型声称在多种语言中都达到了最高的准确性,用户可以通过其官网进行体验。 根据 ElevenLabs 的基准测试,Scribe 在将口语准确转换为文本方面,超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3,取得了前所未有的低错误率。
2/27/2025 9:56:00 AM
AI在线
OpenAI 语音转写工具 Whisper 被曝存在重大缺陷:会凭空生成大段虚假内容
当地时间 27 日,据美联社报道,超过十位软件工程师、开发人员和学术研究人员称,OpenAI 的语音转写工具 Whisper 存在一个重大缺陷:有时会凭空生成大段甚至整句虚假内容。 这些专家指出,这些生成的文本(AI在线注:业内通常称为“AI 幻觉”)可能涉及种族言论、暴力措辞,甚至杜撰的医疗建议。 专家们认为,这一问题尤其令人担忧,因为 Whisper 已被广泛应用于全球多个行业,包括用于翻译和转录访谈内容、生成常见消费科技文本及制作视频字幕。
10/28/2024 8:47:58 AM
清源
晚上就应该睡觉?新的机器学习技术探索昼夜节律
编辑 | 雪松昼夜节律,如睡眠-觉醒周期,是大多数生物与生俱来的,对地球上的生命至关重要。昼夜时钟在 24 小时日夜周期中协调生物的各项生理变化,会间接影响我们人类的体能水平、健康程度、生存能力。同样,将新陈代谢与日出落日同步等情况也存在于植物中,准确的生物钟有助于调节开花。了解昼夜节律,于植物而言,有助于提高植物的生长和产量;于人类而言,则有可能揭示出治疗疾病的新途径。IBM欧洲研究所与厄尔汉姆研究所的合作团队,描述了一系列基于人工智能(AI)和机器学习(ML)的方法。这些方法可以进行更具成本效益的分析并深入了解
9/22/2021 11:40:00 AM
ScienceAI
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
AI新词
图像
Gemini
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
工具
计算
Sora
GPU
华为
大语言模型
RAG
具身智能
AI设计
字节跳动
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
编程
神器推荐
DeepMind
亚马逊
特斯拉
AI模型