豆包大模型
耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘
Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声音特征。原素材(Prompt):Seed-TTS 生成的中文语音: 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”英文语音也可生成,且依然能“复
6/26/2024 3:16:00 PM
机器之心
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。在这个过程中
6/17/2024 3:05:00 PM
机器之心
闷声狂奔一年,字节大模型的进阶之路
2024 年初,字节跳动 CEO 梁汝波在年会中提到,公司层面的半年度技术回顾里,2023 年才出现 GPT 相关讨论。 作为对比,业内做得比较好的大模型创业公司基本在 2018 年到 2021 年之间已经创立。 简而言之,这场由 Open AI 在 2022 年底发布 ChatGPT 3.5 而掀起的“大模型”盛宴,字节没有成为最早的“入场嘉宾”。
5/20/2024 6:51:00 PM
代聪飞
大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘
大模型的性价比之战已经来到了新的阶段。5月15日,2024火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”:豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens,相当于三本《三国演义》的输入量。谭待认为,降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。过去一年时间中,许多企业已经从探索尝试大模型,到成功将大模型与核心
5/15/2024 5:47:00 PM
机器之心
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用