豆包大模型

百万tokens仅需8毛，不蒸馏造出世界一流大模型，豆包全新1.5Pro不走捷径

马上就要进入蛇年了，国内的 AI 厂商们却完全没有闲下来的意思，正在春节前扎堆发布各自的新一代大模型。本周一，豆包刚刚上线了全新的实时语音功能，可说是在中文语音对话方面做到了断崖式领先，为终端用户带来了智商与情商双高的实时语音助手和聊天伙伴。第二天，月之暗面与 DeepSeek 都各自推出了可比肩满血版 o1 的推理模型，吸引了中外无数眼球。

1/23/2025 12:01:00 PM 机器之心

百万 tokens 降至 0.8 元后，消息称字节跳动豆包大模型毛利率达 50%

据界面新闻今日援引多个知情人士消息称，字节跳动旗下的豆包大模型在去年大幅降价后，毛利率仍然为正。

1/22/2025 6:13:02 PM 清源

豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o

12月30日，字节豆包大模型对外披露2024全领域技术进展。距5月15日首次亮相仅7个月，豆包大模型在通用语言、视频生成、语音对话、视觉理解等方面模型能力均已跨入国际第一梯队。豆包大模型团队表示，“从孩童般学语，到懵懂看世界，到为创作者绘出想象中的奇幻梦境，一切依然处于最早期。

12/30/2024 3:15:07 PM

豆包视觉理解模型惊艳亮相：首次评测就排名全球第二

12 月 18 日-19 日，火山引擎 FORCE 原动力大会・冬正式在上海举行。本次大会最引人关注的看点，无疑就是豆包大模型家族的全线升级，以及全新豆包视觉理解模型的发布

12/23/2024 2:50:02 PM 汐元

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

这段时间，OpenAI 宣告连续 12 轮轰炸，让 2024 年底的大模型领域热闹起来了。但坚持每个凌晨看直播的话会发现，越到后面的发布越平淡，内心的波动也越少了。今年的大模型就卷到这里了吗？

12/23/2024 1:06:00 PM 机器之心

抖音副总裁李亮：希望用更低成本推动 AI 技术普惠和应用发展

在昨日举行的火山引擎 Force 大会上，字节跳动正式发布豆包视觉理解模型，为企业提供多模态大模型能力。千 tokens 输入价格仅为 3 厘，一元钱就可处理 284 张 720P 的图片，官方宣称比行业价格便宜 85％。

12/19/2024 3:35:58 PM 浩渺

代码大模型考卷升级！字节开源FullStack Bench，首次覆盖全栈编程超11类真实场景

代码大模型越来越卷，评估AI编程水平的“考卷”也被迫升级。 12月5日，字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench，在业界首次囊括编程全栈技术中超11类真实场景，覆盖16种编程语言，包含3374个问题，相比此前基准，可以更有效地评估大模型在现实世界中的代码开发能力。代码评估基准是衡量大模型编程能力的标准工具，也是推动模型优化的关键驱动力。

12/5/2024 3:22:19 PM

真·打字P图！字节发布新模型SeedEdit，一句话爆改世界名画，可免费体验

一句话实时P图，网友又能整活了。字节豆包大模型又又又上新了！ 11 月 11 日，字节跳动豆包大模型团队推出了最新图像编辑模型 SeedEdit，主打一句话轻松 P 图。

11/11/2024 1:26:00 PM 机器之心

字节豆包通用图像编辑模型SeedEdit开启测试用户可一句话轻松改图

11月11日，字节在豆包大模型团队官网上公布最新通用图像编辑模型SeedEdit。 SeedEdit支持一句话轻松改图，包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑操作，通过简单的自然语言即可驱动模型编辑任意图像。目前，该模型已经在豆包PC端及即梦网页端开启测试。

11/11/2024 11:34:26 AM

LeCun赞转！类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究揭秘

视频生成模型虽然可以生成一些看似符合常识的视频，但被证实目前还无法理解物理规律！自从 Sora 横空出世，业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示，基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。

11/8/2024 1:29:00 PM 机器之心

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

11/7/2024 2:36:00 PM 机器之心

字节跳动 AI 助手豆包被曝开启视频生成内测

《科创板日报》称，字节跳动旗下大模型 AI 助手豆包正式推出视频生成内测，支持图片文字一键成片、动态运镜和多镜头一致性、风格比例随意挑选。

11/7/2024 12:35:35 PM 问舟

终于拿到内测！豆包-PixelDance真是字节视频生成大杀器

「火山爆发，震撼天地。」这八个字会在你的头脑中触发怎样的影像？是否与下面的视频类似？提示词：火山喷发，升起巨大蘑菇云，岩浆顺着山体往下流，镜头拉近，岩浆正在火山口跳动冒出。这段 10 秒的视频是豆包视频生成模型基于以上提示词想象创造的。可以说这段视频的拟真度非常高，并且有着娴熟的运镜，足以放入任何影视作品中。有着剪映、即梦等视频创作工具的字节跳动，正式宣告进军 AI 视频生成领域。那是在本周二，「2024 火山引擎 AI 创新巡展」来到了深圳。这一巡展上，字节跳

9/29/2024 12:54:00 PM 机器之心

大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

2024 火山引擎 AI 创新巡展上海站于近日举办，活动展示了豆包大模型在综合评分、语音识别等方面的效果提升，还发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR ，提供了语音识别能力支持。Seed-ASR 是一款 ASR（自动语音识别）成果。它能准确转录各种语音信号，识别不同语言、方言、口音。对于人名、生词，Seed-ASR 也能结合文本语音等上下文，实现更准确转录。该成果目前已被集成进豆包 APP 、火山引擎相关服务模块中。本文介绍了 Seed-ASR 技术亮点 —— 高精度识别、大容量

8/22/2024 6:25:00 PM 机器之心

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！

本周学术界瞩目的焦点，无疑是在泰国曼谷举行的 ACL 2024 顶会。这场盛会吸引了全球众多杰出的研究者，大家汇聚一堂，共同探讨和分享最新学术成果。官方公布的数据显示，本届 ACL 共收到近 5000 篇论文投稿，其中 940 篇被主会录用，168 篇工作入选大会口头报告（Oral），录取率低于 3.4%，这当中，字节跳动共有 5 篇成果中选 Oral。在 8 月 14 日下午的 Paper Awards 环节，字节跳动旗下成果《G-DIG: Towards Gradient-based DIverse and h

8/15/2024 2:53:00 PM 机器之心

日均tokens使用量超5000亿，AI生图玩法猛猛上新：豆包大模型为什么越来越「香」了？

2024 年的 AI 图像生成技术，又提升到了一个新高度。技术的飞速迭代，让这一领域的商业化落地进入加速阶段。前有 Midjourney v6 史诗级更新，后有开源巨头 Stable Diffusion 3 独领风骚，而 DALL・E 3 背靠 ChatGPT 这棵「大树」，也收获了众多用户的关注。当然了，在这条赛道上，来自国内的选手毫不逊色。近日，国产大模型「顶流」—— 字节跳动豆包大模型，迎来一场集中放送：在 2024 火山引擎 AI 创新巡展成都站活动上，豆包大模型团队公布了豆包大模型的最新进展，以及文生图模

7/29/2024 1:22:00 PM 机器之心

耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样，连发音瑕疵也能生成出来，尤其在学习模仿人类说话方面，相似性和自然度均有很好表现。举例来说，将一段语音提供给 Seed-TTS，它就能按文本生成全新语音，且带上原素材的声音特征。原素材（Prompt）：Seed-TTS 生成的中文语音：突然，身边一阵笑声。我看着他们，意气风发地挺直了胸膛，甩了甩那稍显肉感的双臂，轻笑道：“我身上的肉，是为了掩饰我爆棚的魅力，否则，岂不吓坏了你们呢？”英文语音也可生成，且依然能“复

6/26/2024 3:16:00 PM 机器之心

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。在这个过程中

6/17/2024 3:05:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

豆包大模型

百万tokens仅需8毛，不蒸馏造出世界一流大模型，豆包全新1.5Pro不走捷径

百万 tokens 降至 0.8 元后，消息称字节跳动豆包大模型毛利率达 50%

豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o

豆包视觉理解模型惊艳亮相：首次评测就排名全球第二

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

抖音副总裁李亮：希望用更低成本推动 AI 技术普惠和应用发展

代码大模型考卷升级！字节开源FullStack Bench，首次覆盖全栈编程超11类真实场景

真·打字P图！字节发布新模型SeedEdit，一句话爆改世界名画，可免费体验

字节豆包通用图像编辑模型SeedEdit开启测试 用户可一句话轻松改图

LeCun赞转！类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究揭秘

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节跳动 AI 助手豆包被曝开启视频生成内测

终于拿到内测！豆包-PixelDance真是字节视频生成大杀器

大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？ 来直播间聊聊！

日均tokens使用量超5000亿，AI生图玩法猛猛上新：豆包大模型为什么越来越「香」了？

耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

字节豆包通用图像编辑模型SeedEdit开启测试用户可一句话轻松改图

1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！