AI在线 AI在线

声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

在 AI 这条赛道上,语音助手也是大家重点发力的领域。 你可能已经和 OpenAI 版《Her》展开过对话,也可能询问过其他语音助手一些问题。 它们都有各自的优缺点,有选择困难症的小伙伴可能犯难了,到底该选择哪一款呢?

在 AI 这条赛道上,语音助手也是大家重点发力的领域。

你可能已经和 OpenAI 版《Her》展开过对话,也可能询问过其他语音助手一些问题。它们都有各自的优缺点,有选择困难症的小伙伴可能犯难了,到底该选择哪一款呢?

其实,在和语音助手交谈的时候,除了对话流畅,声音的微妙表达如情绪、停顿、安慰都是不能少的。

但当今 AI 语音助手虽然接近人类但仍有机械感或情感表达不自然的时候,用户可能会感到怪异,甚至比完全机械化的语音更难以接受。这种现象被称为语音恐怖谷效应,是当前语音合成技术需要克服的挑战之一。

AI 公司 Sesame 发布的逼真语音助手 Maya,通过情感智能、上下文记忆和高保真语音生成技术,成功跨越了语音恐怖谷,使语音交互更加自然、情感丰富。

image.png

                             Sesame 官方博客中正式写道他们的研究跨越恐怖谷效应,来源:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

在下面演示的这段对话中,你就像和朋友聊天一样,聊上十几分钟都没问题,Maya 的语气很随和,它会打断别人的话,你也可以随时打断它的话,甚至你还能听到对话时的呼吸声。声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

                                    来源:https://x.com/tanvitabs/status/1895842394928791888

现在,Sesame 开源了驱动 Maya 的基础模型 CSM-1B(Conversational Speech Model)。

image.png

  • 项目地址:https://github.com/SesameAILabs/csm

  • huggingface 地址:https://huggingface.co/spaces/sesame/csm-1b

该模型拥有 10 亿参数规模,并且采用了 Apache 2.0 许可证,这意味着它可以在几乎没有限制的情况下用于商业用途。CSM-1B 可以从文本和音频输入中生成「RVQ 音频编码」。

可能大家都很好奇什么是 RVQ(Residual Vector Quantization),简单来讲就是一种将音频编码为离散 token 的技术。这种技术已经被应用于多种 AI 音频研究中,包括各种大厂都在采用,如 Google 的 SoundStream(一款用于收听播客、有声读物和广播节目的应用程序)和 Meta 的 Encodec。

image.png

CSM-1B 使用了 Meta 研发的 Llama 系列模型作为其骨干架构,并搭配了一个音频解码器组件。

image.png

Sesame 表示,Maya 的精细微调版本正是基于 CSM。Sesame 还提到:在 Hugging Face 和 GitHub 上开源的模型是一个基础生成模型,能够产生多种声音,但尚未针对任何特定声音进行精细微调…… 该模型因训练数据中的数据污染,对非英语语言有一定的能力,但表现可能不佳。

目前尚不清楚 Sesame 用于训练 CSM-1B 的数据来源,该公司并未透露相关信息。

值得注意的是,该模型实际上没有任何真正的安全防护措施。Sesame 采用的是一种诚信系统,仅仅是敦促开发者和用户不要在未经他人同意的情况下使用该模型模仿别人的声音,不要创建误导性内容如假新闻,或从事有害或恶意活动。

《消费者报告》最近发出警告,指出市场上众多流行的 AI 语音克隆工具缺乏有效的防范措施来预防欺诈和滥用行为。

公司介绍

Sesame 由 Brendan Iribe(Oculus 联合创始人兼前 CEO)、Ankit Kumar(前 Ubiquity6 首席技术官兼联合创始人)、Ryan Brown(前 Meta Reality Labs 研究工程总监)等创意人才领导。

Sesame 已从 Andreessen Horowitz、Spark Capital 和 Matrix Partners 等投资机构获得融资,但具体金额未对外公布。

Sesame 专注于开发自然对话的语音伙伴及相关设备。公司采用跨学科方法,结合硬件、软件和机器学习技术,确保语音界面既实用又令人愉悦。其研究团队在语音生成、个性化建模和多模态技术领域积极创新,并依托大规模 GPU 集群和专业训练评估体系支持研发工作。

该公司除了开发语音助手技术外,还在研发可全天佩戴的 AI 眼镜原型,这些眼镜将搭载公司自主开发的定制模型。

参考链接:

https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/

https://www.zdnet.com/article/talking-with-sesames-ai-voice-companion-is-amazing-and-creepy-see-for-yourself/

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

可保护作品免遭 AI 训练,Adobe 推出 Content Authenticity 应用

Adobe 推出全新应用 Content Authenticity,用于保护创意工作者的作品署名权,即使有人截屏并在网络二次传播也不受影响。这款网页应用于今日面向公众开放测试,用户上传需要保护的图像,应用就能嵌入隐形元数据和添加“禁止 AI 训练”标签,帮助确认作品归属和保护作品免遭 AI 训练。
4/24/2025 9:32:18 PM
准泽(实习)

城商行掀起大模型招标潮,百万级投入成行业新风口!

在人工智能技术快速发展的背景下,越来越多的城商行开始纷纷参与到大模型的招标中。 根据最新消息,超过10家中小银行近期启动了大模型相关项目的招标,标志着这一领域的竞争加剧。 这些银行希望通过大模型技术优化现有的金融服务流程,提高运营效率,进而为客户提供更优质的服务。
7/11/2025 11:11:51 AM
AI在线
  • 1