Audio
Stability AI开源341M超轻量文字转语音模型,手机本地跑,音频生成仅需8秒!
近日,Stability AI携手芯片巨头Arm,正式开源了一款轻量级文字转音频模型——Stable Audio Open Small。 这款仅有3.41亿参数的模型,专为Arm CPU优化,能够在智能手机等移动设备上本地运行,生成高质量音频样本仅需不到8秒。 AIbase深入解析这一技术突破,探索其对音频创作和移动AI生态的深远影响。
5/15/2025 12:00:54 PM
AI在线
NVIDIA AI推出Audio-SDS,革新音效生成与多任务音频处理
NVIDIA AI研究团队发布了一项突破性技术——Audio-SDS,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,显著提升了音效生成、音源分离及多任务音频处理的能力。 这一创新成果已在学术界和工业界引发热议。 技术核心:SDS赋能音频扩散模型Audio-SDS基于NVIDIA此前在图像生成领域广泛应用的SDS技术,通过将其适配到预训练的音频扩散模型,实现了从单一模型到多任务音频处理的跨越。
5/12/2025 3:00:52 PM
AI在线
高盛支持的初创公司Splice收购英国音响工作室,押注 AI 音乐创作
近日,知名音乐样本公司 Splice 宣布,将收购位于伦敦的音响工作室 Spitfire Audio。 这一交易标志着 Splice 在音乐创作领域的一次重要布局,尤其是在人工智能音乐制作日益兴起的背景下。 Spitfire Audio 以其丰富的管弦乐声音库而闻名,这次收购将为 Splice 提供更多样的音乐素材,进一步丰富其产品线。
4/29/2025 11:00:51 AM
AI在线
阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本
感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。▲ Q
8/13/2024 12:07:20 PM
沛霖(实习)
Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等
Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以基于用户输入的提示词,生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 Hugging
6/6/2024 2:15:01 PM
故渊
Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品
Stability AI 近日发布新闻稿,宣布推出 Stable Audio2.0,可以基于用户输入的提示词,生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上,进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容,最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外,还提供了音频生成音频功能,基于用户上传的一小段音频内容,扩展生成、补充相关的音频内容。IT之家附上演示视频如下: 例如音乐家如果在创作某段音乐的时候“卡壳”了,可以上传某段
4/4/2024 10:23:56 AM
故渊
- 1
资讯热榜
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
Microsoft Releases 700 Real AI Cases to Explore New Intelligent Work Models
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
微软发布 700 个真实 AI 案例,探索智能化工作新模式
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
Li Hang, head of ByteDance AI Lab, resigns; Seed team enters adjustment period
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
Meta
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
Claude
AI设计
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
LLM
字节跳动
Transformer
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构