两名本科生打造 AI 语音模型，挑战谷歌 NotebookLM

作者：AI在线 2025-04-23 11:00

在 AI 语音生成领域，竞争正变得愈发激烈。近日，来自韩国的两名本科生合伙创建了一款名为 Dia 的 AI 语音模型，声称其功能可与谷歌的 NotebookLM 相媲美。尽管这两位创始人在 AI 领域的经验尚浅，但他们在短短三个月内，成功开发出一款开放获取的语音生成工具。

Dia 的训练依赖于谷歌的 TPU Research Cloud 项目，该项目为研究人员提供免费的 TPU AI 芯片使用权限。Dia 模型拥有1.6亿个参数，能够根据给定的脚本生成对话。用户还可以自由定制发言人的语调，并插入诸如咳嗽、笑声等非语言提示。参数越多，通常意味着模型的性能越好。

Dia 目前可通过 AI 开发平台 Hugging Face 和 GitHub 获取，适用于大多数配备至少10GB VRAM 的现代个人电脑。在未提供具体风格描述时，Dia 会生成随机的声音，但用户也可以使用该模型进行声音克隆。

在 TechCrunch 的初步测试中，Dia 表现良好，能够毫无障碍地生成关于各种主题的双向对话，语音质量与市面上其他工具相当。值得注意的是，Dia 的声音克隆功能也是记者尝试过的最简单易用的之一。

然而，Dia 在保障措施方面的不足引发了一些担忧。用户可以轻易利用该工具制作虚假信息或欺诈录音。尽管 Nari 在 Dia 的项目页面上呼吁用户不要利用模型进行欺诈或其他非法活动，但他们也表示不对模型的滥用行为负责。此外，Nari 尚未披露用来训练 Dia 的数据来源，这意味着其可能使用了受版权保护的内容，相关法律问题依然复杂。

Nari Labs 的创始人 Toby Kim 表示，他们计划在 Dia 的基础上，构建一个具有 “社交特性” 的合成语音平台，并希望在未来支持更多语言。Nari 还计划发布 Dia 的技术报告，以进一步扩大其影响力。

项目：https://github.com/nari-labs/dia

划重点:
🌟 由两名本科生创建的 AI 语音模型 Dia，可以生成对话并支持声音克隆。
🚀 Dia 使用谷歌的 TPU Research Cloud 进行训练，具备1.6亿个参数，适用于现代 PC。
⚠️ 模型存在安全隐患，Nari 不对滥用行为负责，并未披露训练数据的来源。

万字长文！花3天时间一口气评测四大AI浏览器！

最近，AI 浏览器这个赛道，好像还蛮热的。前几天，微软宣布在 Edge 浏览器中上线实验性的 Edge Copilot 模式，正式进军 AI 浏览器领域。不止微软，OpenAI 也有消息，说要进军 AI 浏览器市场。

8/7/2025 8:07:38 AM 数字生命卡兹克

Dia-1.6B TTS：优秀的文本到对话生成模型

译者 | 李睿审校 | 重楼Dia-1.6B TTS是由Nari Labs开发的一款拥有16亿个参数的文本转语音模型（TTS）。本文将详细介绍该模型，以及其访问途径、使用方法，并展示实际应用结果以真正了解该模型的功能。你是否正在寻求一种合适的文本转语音模型？

5/22/2025 8:05:00 AM 李睿

两名本科生打造 AI 语音模型，挑战谷歌 NotebookLM

相关资讯

万字长文！花3天时间一口气评测四大AI浏览器！

Arc 浏览器开发商预告全新 AI 浏览器 Dia，计划 2025 年初推出

Dia-1.6B TTS：优秀的文本到对话生成模型

​两名本科生打造 AI 语音模型，挑战谷歌 NotebookLM

相关资讯

万字长文！花3天时间一口气评测四大AI浏览器！

Arc 浏览器开发商预告全新 AI 浏览器 Dia，计划 2025 年初推出

Dia-1.6B TTS：优秀的文本到对话生成模型

两名本科生打造 AI 语音模型，挑战谷歌 NotebookLM