AI在线 AI在线

​两名本科生打造 AI 语音模型,挑战谷歌 NotebookLM

在 AI 语音生成领域,竞争正变得愈发激烈。 近日,来自韩国的两名本科生合伙创建了一款名为 Dia 的 AI 语音模型,声称其功能可与谷歌的 NotebookLM 相媲美。 尽管这两位创始人在 AI 领域的经验尚浅,但他们在短短三个月内,成功开发出一款开放获取的语音生成工具。

在 AI 语音生成领域,竞争正变得愈发激烈。近日,来自韩国的两名本科生合伙创建了一款名为 Dia 的 AI 语音模型,声称其功能可与谷歌的 NotebookLM 相媲美。尽管这两位创始人在 AI 领域的经验尚浅,但他们在短短三个月内,成功开发出一款开放获取的语音生成工具。

QQ_1745375733560.png

Dia 的训练依赖于谷歌的 TPU Research Cloud 项目,该项目为研究人员提供免费的 TPU AI 芯片使用权限。Dia 模型拥有1.6亿个参数,能够根据给定的脚本生成对话。用户还可以自由定制发言人的语调,并插入诸如咳嗽、笑声等非语言提示。参数越多,通常意味着模型的性能越好。

Dia 目前可通过 AI 开发平台 Hugging Face 和 GitHub 获取,适用于大多数配备至少10GB VRAM 的现代个人电脑。在未提供具体风格描述时,Dia 会生成随机的声音,但用户也可以使用该模型进行声音克隆。

在 TechCrunch 的初步测试中,Dia 表现良好,能够毫无障碍地生成关于各种主题的双向对话,语音质量与市面上其他工具相当。值得注意的是,Dia 的声音克隆功能也是记者尝试过的最简单易用的之一。

然而,Dia 在保障措施方面的不足引发了一些担忧。用户可以轻易利用该工具制作虚假信息或欺诈录音。尽管 Nari 在 Dia 的项目页面上呼吁用户不要利用模型进行欺诈或其他非法活动,但他们也表示不对模型的滥用行为负责。此外,Nari 尚未披露用来训练 Dia 的数据来源,这意味着其可能使用了受版权保护的内容,相关法律问题依然复杂。

Nari Labs 的创始人 Toby Kim 表示,他们计划在 Dia 的基础上,构建一个具有 “社交特性” 的合成语音平台,并希望在未来支持更多语言。Nari 还计划发布 Dia 的技术报告,以进一步扩大其影响力。

项目:https://github.com/nari-labs/dia

划重点:

🌟 由两名本科生创建的 AI 语音模型 Dia,可以生成对话并支持声音克隆。  

🚀 Dia 使用谷歌的 TPU Research Cloud 进行训练,具备1.6亿个参数,适用于现代 PC。  

⚠️ 模型存在安全隐患,Nari 不对滥用行为负责,并未披露训练数据的来源。

相关资讯

Arc 浏览器开发商预告全新 AI 浏览器 Dia,计划 2025 年初推出

该公司最新的宣传片显示该产品为 Dia,这是一个利用 AI 工具简化日常互联网任务的网络浏览器,计划于 2025 年初推出。
12/3/2024 7:12:37 AM
沛霖(实习)

谷歌发布第七代 TPU Ironwood:首度专为 AI 推理设计,能效达 TPU v6e 两倍

Ironwood 搭载 292GB HBM 内存,峰值 FP8 AI 算力可达到 4614 TFLOP,支持扩展到 9216 芯片。
4/9/2025 9:38:25 PM
溯波(实习)

中昊芯英与深圳联通携手共建广东首个国产 TPU 智算中心

9月9日,在第五届深圳国际人工智能展(GAIE)第二届智能算力发展论坛上,中昊芯英(杭州)科技有限公司(以下简称“中昊芯英”)与中国联合网络通信有限公司深圳市分公司(以下筒称“深圳联通”)联合举办了“智算基建,加速未来”高性能 AI 智算中心项目启动仪式,标志着双方将携手合作共同建设广东地区首个采用国产 TPU 技术的智算中心。 据深圳联通副总经理赵桂标介绍,“项目一期由32个算力节点通过高效互联构建而成,整体算力不低于50P,后期将扩容至千卡规模,形成训推一体化的枢纽,成为中国联通在深圳的核心智算高地的重要组成部分。 ”谈及合作共建智算中心的具体布局,他进一步表示,“中国联通以国家智算能力布局要求和市场实际需求为牵引,根据‘规划先行、市场驱动、适度超前、小步快跑’原则统筹规划构建中国联通智算体系,构建形成‘1 N X’智算能梯次布局。
9/12/2024 8:11:00 PM
朱可轩
  • 1