AI在线 AI在线

音频

腾讯混元开源语音数字人模型HunyuanVideo-Avatar:图+音频,让图中的主角说话唱。

腾讯发布了一款创新技术 ——HunyuanVideo-Avatar 语音数字人模型,并将其开源。 这一技术能够仅凭一张图片和一段音频,生成自然、真实的数字人说话或唱歌视频,标志着短视频创作进入了全新阶段。 HunyuanVideo-Avatar 模型的核心功能在于其智能理解能力。
5/28/2025 2:00:50 PM
AI在线

全新音频问答模型 Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答

最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。 该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO(Group Relative Policy Optimization)的强化学习方法进行优化,显示出在音频问答任务中的出色表现。 Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩,涵盖了声音、语音和音乐等多个音频类别。
5/20/2025 12:00:55 PM
AI在线

Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"(Stable Audio Open Small)的紧凑型文本转音频模型,该模型能够在约7秒内生成长达11秒的高质量立体声音频片段,且经过优化可在智能手机等移动设备上运行。 这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"(Adversarial Relativistic-Contrastive,ARC)技术。 该模型在高端硬件如Nvidia H100GPU上的表现更为惊人,能够在仅75毫秒内完成44kHz立体声音频的生成,实现了近乎实时的音频合成能力。
5/19/2025 10:01:05 AM
AI在线

国产MiniMax语音模型横扫国际舞台,迈入个性化语音新时代

在人工智能领域的快速发展中,国产大模型的进步速度让人惊叹。 早在今年初,DeepSeek-R1以超低成本获得了超越 OpenAI 的表现,令人重新审视国外大模型的垄断地位。 如今,MiniMax 再次带来了重磅消息:其全新一代文本转语音(TTS)模型 “Speech-02” 在国际权威的语音评测榜单 Artificial Analysis 上强势登顶,击败了 OpenAI 和 ElevenLabs 等行业巨头。
5/16/2025 10:01:05 AM
AI在线

Stability AI开源341M超轻量文字转语音模型,手机本地跑,音频生成仅需8秒!

近日,Stability AI携手芯片巨头Arm,正式开源了一款轻量级文字转音频模型——Stable Audio Open Small。 这款仅有3.41亿参数的模型,专为Arm CPU优化,能够在智能手机等移动设备上本地运行,生成高质量音频样本仅需不到8秒。 AIbase深入解析这一技术突破,探索其对音频创作和移动AI生态的深远影响。
5/15/2025 12:00:54 PM
AI在线

SDS 技术首次用于音频:英伟达携手 MIT 推 Audio-SDS,参数化控制 AI 音效生成

SDS 技术广泛应用于文本生成 3D 图像和图像编辑中,英伟达融合该技术推出 Audio-SDS,结合预训练模型的生成先验知识,能够直接根据高级文本提示调整 FM 合成参数、冲击音模拟器或分离掩码,将信号处理的清晰可解释性与现代扩散模型的灵活性融为一体。
5/13/2025 2:15:09 PM
故渊

​NVIDIA AI推出Audio-SDS,革新音效生成与多任务音频处理

NVIDIA AI研究团队发布了一项突破性技术——Audio-SDS,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,显著提升了音效生成、音源分离及多任务音频处理的能力。 这一创新成果已在学术界和工业界引发热议。 技术核心:SDS赋能音频扩散模型Audio-SDS基于NVIDIA此前在图像生成领域广泛应用的SDS技术,通过将其适配到预训练的音频扩散模型,实现了从单一模型到多任务音频处理的跨越。
5/12/2025 3:00:52 PM
AI在线

音频同步与视频编辑!腾讯混元开源一致性视频生成工具HunyuanCustom

腾讯开源的一致性视频生成工具 “HunyuanCustom”,该模型不仅能生成生动的视频内容,还能实现音频与口型的同步。 这一创新技术的发布,标志着在深度伪造视频领域的一次重要进步。  一图生成,深度伪造不再遥远HunyuanCustom 的最大亮点在于用户只需提供一张图像,就能创造出深度伪造风格的视频。
5/9/2025 12:01:52 PM
AI在线

谷歌推出iPad专属Gemini应用,赋能多任务处理新体验

近日,谷歌正式发布了一款专为iPadOS设计的全新应用 ——Gemini。 这款应用的推出旨在提升用户在多任务处理和创作方面的效率,充分利用了 iPad 的大屏幕优势。 Gemini 支持分屏功能,让用户能够在同一界面上同时进行多个任务,极大地方便了用户的日常使用。
5/8/2025 6:00:57 PM
AI在线

NotebookLM音频概览新增多语言支持 中文音频表现亮眼

2025 年 4 月 30 日 - AIbase报道:谷歌旗下AI研究助手NotebookLM迎来重大更新,其音频概述(Audio Overviews)功能现已支持超过 50 种语言,其中包括备受期待的中文音频支持。 这一突破性进展得益于谷歌Gemini模型的原生音频处理能力,为全球用户提供了更便捷的多语言学习与内容创作体验。 多语言支持打破语言壁垒NotebookLM的音频概述功能自 2024 年 9 月推出以来,以其将上传文档转化为类似播客的生动讨论而广受好评。
4/30/2025 9:01:01 AM
AI在线

Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。 训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量合成数据。 它的设计体现了小型语言模型在多模态任务上的潜力。
3/10/2025 2:00:00 AM
余俊晖

Stability AI与 Arm 合作 推出离线生成音频技术

Stability AI因其Stable Diffusion文本生成图像模型而闻名。 最近,该公司与全球半导体巨头 Arm 展开合作,致力于将生成音频人工智能能力引入移动设备。 这一合作使得Stable Audio Open模型能够完全在 Arm CPU 上运行,用户可以在设备上快速生成音效、音频样本和制作元素,且无需互联网连接。
3/4/2025 4:25:00 PM
AI在线

​ElevenLabs 发布 Scribe 语音转文本模型,准确率创新高、英语达 96.7%

ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司,近日推出了其最新的语音转文本模型 ——Scribe v1。 该模型声称在多种语言中都达到了最高的准确性,用户可以通过其官网进行体验。 根据 ElevenLabs 的基准测试,Scribe 在将口语准确转换为文本方面,超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3,取得了前所未有的低错误率。
2/27/2025 9:56:00 AM
AI在线

谷歌扩展NotebookLM Plus,个人用户也能享受AI记笔记新体验

谷歌最近宣布,NotebookLM Plus 的付费版本现已向订阅谷歌 One AI Premium 计划的个人用户开放。 这一消息的发布距 NotebookLM Plus 在谷歌云和谷歌工作区首次推出企业版不到两个月,显示出谷歌对个人用户需求的重视。 NotebookLM Plus 于去年12月首次推出,作为一款 AI 驱动的笔记和研究助手,旨在为用户提供更高的使用限制和更多的高级功能。
2/11/2025 10:22:00 AM
AI在线

OpenAI 语音转写工具 Whisper 被曝存在重大缺陷:会凭空生成大段虚假内容

当地时间 27 日,据美联社报道,超过十位软件工程师、开发人员和学术研究人员称,OpenAI 的语音转写工具 Whisper 存在一个重大缺陷:有时会凭空生成大段甚至整句虚假内容。 这些专家指出,这些生成的文本(AI在线注:业内通常称为“AI 幻觉”)可能涉及种族言论、暴力措辞,甚至杜撰的医疗建议。 专家们认为,这一问题尤其令人担忧,因为 Whisper 已被广泛应用于全球多个行业,包括用于翻译和转录访谈内容、生成常见消费科技文本及制作视频字幕。
10/28/2024 8:47:58 AM
清源

氛围感拉满:微软新专利探索 Copilot AI 应用,匹配视频等生成音乐

科技媒体 Windows Report 昨日(10 月 4 日)发布博文,报道称微软公司获得了一项新的专利,构想 Copilot 在未来能辅助用户创建和视频、文本、PowerPoint 等匹配的音乐或者背景音乐。AI在线注:微软该专利名为《Artificial intelligence model for composing audio scores》,主要探讨了基于输入内容,来创建音乐的方法。该专利主要概述了以下步骤:收集数据:收集大量的训练数据,这些数据包括许多包含视频和音频组件的视听数据集。分析提取:分析数据
10/5/2024 2:32:54 PM
故渊

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。▲ Q
8/13/2024 12:07:20 PM
沛霖(实习)

AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目

蚂蚁集团 10 日开源了名为 EchoMimic 的新项目,其能够通过人像面部特征和音频来帮人物“对口型”,结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度,通过融合音频和面部标志点(面部关键特征和结构,通常位于眼、鼻、嘴等位置)的特征,可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频,也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉,其支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。 AI在线附相关链接:项目地址: G
7/11/2024 4:48:41 PM
清源