字节跳动

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

无论是语速超快、发音复杂的绕口令，还是精妙绝伦的文言文，又或是充满即兴和灵感的随意聊天，模型都能流畅自然地给出准确而地道的翻译结果。近年来，人工智能（Aritificial Intelligence, AI），尤其是以大语言模型（Large Language Models, LLMs）为代表的 AI 正以惊人的速度发展，这些模型在多种自然语言处理任务中展现了卓越的能力。然而，尽管在许多领域取得了突破，代表着人类顶尖语言水平的同声传译（Simultaneous Interpretation, SI）依然是一个未被完全

7/25/2024 2:06:00 PM 机器之心

李飞飞所创 World Labs 估值或超 10 亿美元；传字节将于 19 日公布文生图/视频等 AI 模型进展丨AI情报局

李飞飞所创 World Labs 估值或超 10 亿美元；传字节将于 19 日公布文生图/视频等 AI 模型进展丨AI情报局

今日融资快报李飞飞旗下AI初创企业World Labs估值已超10亿美元英国《金融时报》报道，著名华裔计算机科学家李飞飞创办的World Labs估值已经赶超10亿美元。该创企主要利用类似人类的视觉数据处理技术，使AI具备高级推理能力。据知情人士透露，从今年4月成立至今，World Labs已经进行了两轮融资，投资方包括顶级科技投资者Andreessen Horowitz和AI基金Radical Ventures。

7/18/2024 10:19:00 AM 我在思考中

字节跳动筋斗云人才计划开启

字节跳动筋斗云人才计划开启

7/12/2024 3:35:00 PM 机器之心

GitHub 8k Star，一作实习生，字节这个大模型成果被苹果选中了

GitHub 8k Star，一作实习生，字节这个大模型成果被苹果选中了

字节跳动大模型团队成果 Depth Anything V2 现已被苹果官方收入 Core ML 模型库。本文介绍了 Depth Anything 系列成果的研发历程、技术挑战与解决方法，分享了团队对于 Scaling Laws 在单一视觉任务方面的思考。值得一提的是，Depth Anything V1 与 V2 两个版本论文一作是团队实习生。近日，字节跳动大模型团队开发的成果 Depth Anything V2 ，入选苹果公司 Core ML 模型库，目前已呈现在开发者相关页面中。Depth Anything 是一

7/11/2024 4:49:00 PM 机器之心

耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样，连发音瑕疵也能生成出来，尤其在学习模仿人类说话方面，相似性和自然度均有很好表现。举例来说，将一段语音提供给 Seed-TTS，它就能按文本生成全新语音，且带上原素材的声音特征。原素材（Prompt）：Seed-TTS 生成的中文语音：突然，身边一阵笑声。我看着他们，意气风发地挺直了胸膛，甩了甩那稍显肉感的双臂，轻笑道：“我身上的肉，是为了掩饰我爆棚的魅力，否则，岂不吓坏了你们呢？”英文语音也可生成，且依然能“复

6/26/2024 3:16:00 PM 机器之心

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected] 在生成式模型的迅速发展中，Image Tokenization 扮演着一个很重要的角色，例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokeniz

6/24/2024 11:07:00 AM 机器之心

字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

通过高保真合成语音与真人语音无异。首先来听一段《凡人修仙传》：你猜的没错，这段有声书并非来自某个专业制作团队，而是一个 AI 模型 Seed-TTS，而这个模型则是来自字节跳动的 Seed Team。TTS 是指文本转语音，这是一种具备诸多妙用的技术，像是让个人智能助理说话、为视频或游戏配音、辅助视障人士、制作有声书等等。对于 TTS 技术研发者来说，流畅自然的表达一直以来都是值得追求的重要目标。字节跳动 Seed Team 发布的 Seed-TTS 不只是一个模型，而是一整个模型系列。论文标题：Seed-TTS:

6/18/2024 3:10:00 PM 机器之心

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。在这个过程中

6/17/2024 3:05:00 PM 机器之心

现在起，真正的强者敢于直面「扣子」的「模型广场」

现在起，真正的强者敢于直面「扣子」的「模型广场」

实时 Pk、“蒙面“ 对垒、大众点评、定期排名...... 就问敢不敢揭榜？字节版 GPTs “扣子”上线后，五年级小学生都能创建自己的英语外教。“扣子”有一个相当大的优势，就是支持国内知名大语言模型作为底座，还免费，许多 “AI bot" 孕育而生。不过，无限续杯也有烦恼。“学霸”这么多，挑谁最合适？看跑分？不太懂，也飘渺。要不，大家现场"全开麦“ PK一下？“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”，上线了。一、“模型广场”：评测玩出盲盒的乐趣“扣子”支持国内多个知名主流大语言模型作为底座，最新名

6/16/2024 6:36:00 PM 机器之心

闷声狂奔一年，字节大模型的进阶之路

闷声狂奔一年，字节大模型的进阶之路

2024 年初，字节跳动 CEO 梁汝波在年会中提到，公司层面的半年度技术回顾里，2023 年才出现 GPT 相关讨论。作为对比，业内做得比较好的大模型创业公司基本在 2018 年到 2021 年之间已经创立。简而言之，这场由 Open AI 在 2022 年底发布 ChatGPT 3.5 而掀起的“大模型”盛宴，字节没有成为最早的“入场嘉宾”。

5/20/2024 6:51:00 PM 代聪飞

大模型价格进入“厘”时代，豆包大模型定价每千tokens仅0.8厘

大模型价格进入“厘”时代，豆包大模型定价每千tokens仅0.8厘

大模型的性价比之战已经来到了新的阶段。5月15日，2024火山引擎FORCE原动力大会上，火山引擎总裁谭待宣布，字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”：豆包通用模型pro-32k版，推理输入价格0.0008元/千tokens，较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens，相当于三本《三国演义》的输入量。谭待认为，降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。过去一年时间中，许多企业已经从探索尝试大模型，到成功将大模型与核心

5/15/2024 5:47:00 PM 机器之心

字节开源大模型量化新思路，2-bit量化模型精度齐平fp16

字节开源大模型量化新思路，2-bit量化模型精度齐平fp16

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]随着深度学习大语言模型的越来越火爆，大语言模型越做越大，使得其推理成本也水涨船高。模型量化，成为一个热门的研究课题。近日，字节跳动语音团队推出一个全新的量化思路，抛弃传统的量化范式，从数学

5/13/2024 2:47:00 PM 机器之心

加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了

加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了

最近，扩散模型（Diffusion Model）在图像生成领域取得了显著的进展，为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果，扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。近期出现了一系列扩散模型蒸馏算法来加速扩散模型的推理过程。这些方法大致可以分为两类：i) 轨迹保持蒸馏；ii) 轨迹重构蒸馏。然而，这两类方法会分别受到效果天花板有限或者或输出域变化这两个问题的限制。为了解决这些问题，字节跳动技术团队提出了一种名为 Hyper-SD 的轨迹分段一致性模型。

4/25/2024 11:53:00 AM 机器之心

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析，而竖屏视频因其拍摄手法和内容重点不同，展示出与横屏视频数据不同的特性。针对这一不同，字节跳动技术团队发布了专注于竖屏视频理解的数据集，提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义，论文已入选 CVPR2024。视频 demo 展示、数据特性演示以及竖屏视频类别分类，请见：，对视频内容的分类、特征提取，以及推荐等有着重要的作用。竖屏视频是目前社交媒体平

4/3/2024 2:30:00 PM 机器之心

被误解的「中文版Sora」背后，字节跳动有哪些技术？

被误解的「中文版Sora」背后，字节跳动有哪些技术？

2024 开年，OpenAI 就在生成式 AI 领域扔下了重磅炸弹：Sora。这几年，视频生成领域的技术迭代持续加速，很多科技公司也公布了相关技术进展和落地成果。在此之前，Pika、Runway 都曾推出过类似产品，但 Sora 放出的 Demo，显然以一己之力抬高了视频生成领域的标准。在今后的这场竞争中，哪家公司将率先打造出超越 Sora 的产品，仍是未知数。国内这边，目光聚集于一众科技大厂。此前有消息称，字节跳动在 Sora 发布之前就研发出了一款名为 Boximator 的视频生成模型。Boximator 提

3/12/2024 3:12:00 PM 机器之心

加速量子化学计算，字节&北大团队量子蒙特卡罗研究新进展登Nature子刊

加速量子化学计算，字节&北大团队量子蒙特卡罗研究新进展登Nature子刊

编辑 | 萝卜皮基于神经网络的变分蒙特卡罗（NN-VMC）已成为一种有前途、有潜力的从头计算量子化学的尖端技术。然而，现有方法的高计算成本，阻碍了它们在现实化学问题中的应用。字节跳动与北京大学团队介绍了 NN-VMC 的最新研究进展，它实现了显著的加速率，从而极大地将 NN-VMC 的适用性扩展到更大的系统。该团队的关键设计是一个名为 Forward Laplacian 的计算框架，它通过有效的前向传播（forward）过程来计算与神经网络相关的 Laplacian（这是 NN-VMC 的瓶颈）。然后，研究人员证明

2/27/2024 3:55:00 PM ScienceAI

刚刚，字节版GPTs「扣子」上线了

刚刚，字节版GPTs「扣子」上线了

大玩家终于正式下场。在持续一年的大模型热潮之后，「智能体」成为了科技公司们新的押注方向之一。近日，字节跳动正式推出「Coze 扣子」AI Bot 开发平台。任何用户都可以快速、低门槛地搭建自己的 Chatbot，且平台支持用户将其一键发布到飞书、微信公众号、豆包等渠道。链接：，除了可以创建自己的 Chatbot，Coze 官方还提供了 Bots 商店和插件。如以下按照热度精选的 Bots，包含娱乐、创意、学习等各类产品，甚至我们注意到还有「马歇尔音箱粉丝」这个选项。机器之心挑选了一些已有的 Bot 试了试，看看上手

2/1/2024 2:45:00 PM 机器之心

字节自研大模型，却因用ChatGPT被封号惹争议？官方回应了

字节自研大模型，却因用ChatGPT被封号惹争议？官方回应了

没想到，字节的大模型项目是被这样曝光的。上周末，有外媒报道称，字节跳动在使用 OpenAI 技术开发自有大语言模型时，因违反 OpenAI 服务条款从而遭账号禁用。据 The Verge 报道，字节跳动内部正在研发的大语言模型项目名为「种子计划」（Project Seed）。由于训练大模型需要大量问答知识，该项目被曝出一直在秘密使用 OpenAI 的技术来充实数据集。在大模型领域，利用其他 AI 生成的内容用于训练的「取巧」行为虽然并不少见，但经常会被认为是一种超出底线的行为。在 ChatGPT 上，滥用 AI 生

12/18/2023 4:25:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉