AI在线 AI在线

音频

比尔・盖茨展望“AI 智能体”:能提供心理治疗服务,还能当女友

播客节目 Next Big Idea Club 上周末发布了对微软创始人比尔・盖茨的采访,盖茨谈到了人工智能、超级智能等话题。主持人 Rufus Griscom 询问了比尔盖茨对人工智能未来发展的看法。“1980 年,你曾有过灵光一现的一瞬:当时你宣布每家每户、每个桌子上都将有一台计算机。你认为 AI 会有怎样的发展?你认为我们的每个耳朵里都会有一个‘AI 顾问(AI advisor)’吗?”盖茨回答道,“AI 顾问”的硬件外形并不重要。例如耳机既能增强音频、又能消除音频,还能使音频更清晰,这是一个非常重要的硬件形
7/3/2024 3:43:16 PM
清源

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。最近,AI 圈刮起一股「让照片开口唱歌」的风潮。例如,让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。就在昨天,又有一家名为 Hedra 的公司前来踢馆,推出了基础模型 ——
6/20/2024 8:05:00 PM
机器之能

Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以基于用户输入的提示词,生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 Hugging
6/6/2024 2:15:01 PM
故渊

Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品

Stability AI 近日发布新闻稿,宣布推出 Stable Audio2.0,可以基于用户输入的提示词,生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上,进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容,最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外,还提供了音频生成音频功能,基于用户上传的一小段音频内容,扩展生成、补充相关的音频内容。IT之家附上演示视频如下: 例如音乐家如果在创作某段音乐的时候“卡壳”了,可以上传某段
4/4/2024 10:23:56 AM
故渊

ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

在本届ICASSP 2024 各类音频国际挑战赛中,字节跳动流媒体音频团队联合西北工业大学音频语音与语言处理研究实验室,在丢包补偿(Packet Loss Concealment, PLC)与音质修复(Speech Signal Improvement, SSI)两个挑战赛道中,多项指标上表现优秀,分别取得第一和第二的成绩,达到国际领先水平。ICASSP峰会上的音频挑战赛由国际音频顶级会议 ICASSP 和微软联合发起,旨在激发各研究构在音频效果与音质提升上的研究,自第一届举办以来就吸引了亚马逊、腾讯、阿里巴巴、百
1/5/2024 5:10:00 PM
dd

试了试Meta的最新语音生成器,逼真得有点毛骨悚然

机器之能报道编辑:吴昕这段《小红帽》故事中的所有音频都是 AI 生成的,你能听出来吗?机器之能报道编辑:吴昕这段《小红帽》故事中的所有音频都是 AI 生成的,你能听出来吗?试听地址: Audiobox Maker,你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。有了它,仅用几分钟的时间,机器之心也随意生成了关于五月天假唱热搜的对话:试听地址: Audiobox Maker ,即使是小白用户也可以设计、生成不同人物(比如小红帽、大灰狼和外婆)的声音文件,同时添加不
12/12/2023 7:08:00 PM
机器之能

Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下

年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 MusicGen,并且非商业用途免费使用。
6/12/2023 2:54:00 PM
机器之心

腾讯QQ黑科技亮相2021谷歌开发者大会官网,基于TFlite部署AI语音降噪

当6亿用户习惯每天通过QQ发送语音和进行视频通话,或者在群里与网友语音接龙完成一场Pia戏,又或是与好友一起派对语音答题的时候,大家可曾想过,在不同场景下始终清晰、流畅的QQ音视频体验背后,到底是什么黑科技在支撑这些场景中“声”与“话”的美好?今年11月16日召开的谷歌2021开发者大会期间,大会官网更新了一则案例——《TensorFlow助力:AI语音降噪打造QQ音视频通话新体验》,作者正是QQ音视频通话技术团队。作为谷歌TensorFlow的优秀应用案例,腾讯QQ团队在该文中详细揭秘了语音增强技术在QQ音视频功
11/16/2021 1:08:00 PM
新闻助手

引入多感官数据学习,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

UT-Austin 本年度的最佳博士论文奖获得者 Ruohan Gao,目前是斯坦福大学的博士后研究员。
10/27/2021 4:51:00 PM
机器之心

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外技术团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源分离、音乐结构分析等多个技术方向。如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来,再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。有人说神曲能火是因为歌词和旋律简单,听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场景的短视频
8/12/2021 3:21:00 PM
机器之心