AI在线 AI在线

豆包大模型

耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声音特征。原素材(Prompt):Seed-TTS 生成的中文语音: 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”英文语音也可生成,且依然能“复
6/26/2024 3:16:00 PM
机器之心

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。在这个过程中
6/17/2024 3:05:00 PM
机器之心

闷声狂奔一年,字节大模型的进阶之路

2024 年初,字节跳动 CEO 梁汝波在年会中提到,公司层面的半年度技术回顾里,2023 年才出现 GPT 相关讨论。 作为对比,业内做得比较好的大模型创业公司基本在 2018 年到 2021 年之间已经创立。 简而言之,这场由 Open AI 在 2022 年底发布 ChatGPT 3.5 而掀起的“大模型”盛宴,字节没有成为最早的“入场嘉宾”。
5/20/2024 6:51:00 PM
代聪飞

大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘

大模型的性价比之战已经来到了新的阶段。5月15日,2024火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”:豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens,相当于三本《三国演义》的输入量。谭待认为,降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。过去一年时间中,许多企业已经从探索尝试大模型,到成功将大模型与核心
5/15/2024 5:47:00 PM
机器之心