字节跳动
火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播
近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices 成功入选计算机图形学顶会 SIGGRAPH Emerging Technologies,并于2025年8月10日至8月14日在加拿大温哥华对外展出。 这一技术突破首次实现了移动端实时自由视角视频(FVV)直播的完整链路落地,在视觉保真度、计算效率和传输成本之间达成了前所未有的平衡,为互动直播、沉浸式娱乐等场景开辟了技术新范式。 图1 论文主页打破技术瓶颈:从实验室走向移动端的实时自由视角革命自由视角视频(FVV)允许用户从任意角度探索场景,是元宇宙、沉浸式直播等前沿领域的核心技术。
9/12/2025 4:51:20 PM
多媒体实验室
VLDB2025 | Magnus: 字节跳动面向大规模机器学习的数据管理方案
导读机器学习广泛应用于字节跳动,数据作为机器学习训练的核心要素,如何高效灵活的管理支撑大规模训练数据的存储、生产以及训练,成为数据基础设施的一大挑战;近两年大模型迅猛发展,对数据集管理也提出了更多新的场景需求。 字节跳动在开源 Apache Iceberg 的基础上,打造了一套面向大规模机器学习的数据管理解决方案 Magnus,在存储格式、索引、元数据管理、更新机制、训练框架集成等多个维度实现优化。 Magnus 已在字节内部部署超过五年,在搜索、广告、推荐、大模型等核心业务中大规模落地,数据规模超5EB,相关成果已被 VLDB 2025收录。
9/10/2025 9:59:52 AM
基础技术训练设施
AI人才争夺战白热化 MiniMax与字节跳动推出大规模期权激励计划
MiniMax和字节跳动近日相继启动大规模期权激励计划,反映出AI行业激烈的人才竞争态势。 据《科创板日报》报道,MiniMax已开始实施期权增发,激励金额从数十万美元到数百万美元不等,覆盖算法工程师、市场人员及职能岗位的核心员工。 公司希望通过这一机制将核心员工利益与长期发展绑定,构建"合伙人"式合作关系。
9/9/2025 9:01:21 AM
AI在线
字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
打开多模态自由创作的大门。 谷歌 Nano Banana 掀起的全球创作狂欢尚未消退之际,字节又玩了把大的。 近日,字节跳动开始内测最新的豆包・图像创作模型 Seedream 4.0。
9/8/2025 5:26:00 PM
机器之心
字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
近日,字节跳动 Seed 团队发布了最新的机器人研究成果——Robix,一个旨在提升机器人思考、规划与灵活交互能力的「机器人大脑」。 标题:Robix: A Unified Model for Robot Interaction, Reasoning and PlanningArXiv::,通用机器人在处理复杂、长程任务时,往往因依赖 “模块化” 拼接的设计而显得僵化。 Robix 的核心亮点在于其一体化架构:将推理、任务规划与人机交互无缝整合到单个端到端多模态模型中。
9/7/2025 4:19:00 PM
机器之心
不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
想象一个虚拟人,他不仅能精准地对上你的口型,还能在你讲到关键点时做出恍然大悟的表情,在你讲述悲伤故事时流露出同情的神态,甚至能根据你的话语逻辑做出有意义的手势。 这不再是科幻电影的场景。 8 月底,字节跳动数字人团队推出了 OmniHuman-1.5,提出了一种全新的虚拟人生成框架,让虚拟人真正拥有了「思考」和 「表达」的能力。
9/5/2025 3:22:00 PM
机器之心
长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。 近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程。 从静态图像到动态视频:音频驱动的 "数字复活术"只需提供一张人物图像与对应音频素材,InfinityHuman 就能自动生成连贯自然的高分辨率长视频:无论是 30 秒的产品快推、还是 3 分钟的演讲致辞,均能实现专业级呈现。
9/4/2025 1:00:00 PM
机器之心
字节跳动为Seed部门专注于大模型技术的员工增发股权期权
字节跳动近期宣布了一项针对其 Seed 部门的重大举措,将为该部门专注于大模型技术的员工增发股权期权。 这一计划的,旨在进一步激励和留住这些在人工智能领域具备核心竞争力的人才。 据悉,股权增发的具体细节将依据员工的综合绩效和职级来制定。
9/3/2025 5:01:58 PM
AI在线
字节跳动重奖大模型人才,Seed部门推百万期权激励计划
AIbase报道 据科创板日报消息,字节跳动正为其关键的Seed部门启动一项新的期权增发计划,旨在激励并留住从事大模型方向的核心技术人才。 此举凸显了该公司在人工智能领域的雄心,并加剧了顶尖技术人才的争夺战。 据了解,该激励计划将根据员工的综合绩效和职级进行差异化授予。
9/3/2025 3:31:41 PM
AI在线
中国AI内容监管重磅出击:9月1日新规正式落地,DeepSeek腾讯字节全面响应打标令
当AI生成的"假孙子"视频让无数老人泪流满面,当年轻人用AI反催婚视频与长辈斗智斗勇,这个充满魔幻现实主义色彩的时代终于迎来了监管的重拳出击。 9月1日,《人工智能生成合成内容标识办法》正式实施,一场关于AI内容真假识别的全民战役正式打响。 这项新规的核心要求极其明确:所有AI生成的内容,无论是文本、图片、音频还是视频,都必须进行明确标识。
9/2/2025 6:27:22 PM
AI在线
为 AI Agent 行为立“规矩”——字节跳动提出 Jeddak AgentArmor 智能体安全框架
技术报告地址: AI Agent 时代已来,但“失控”风险近在眼前继 LLM(大语言模型)之后,AI Agent(智能体)正掀起新一轮的技术革命。 它们不再仅仅是语言的“复读机”,而是能够自主理解、规划并执行现实世界任务的“行动派”。 从自动预订旅行、管理复杂的云资源,到处理成千上万封邮件,AI Agent 展现出的巨大潜力,预示着一个由 AI 驱动的自动化新纪元。
8/29/2025 12:10:00 AM
字节跳动AI核心人才流失 视觉研究负责人冯佳时正式离职
字节跳动在人工智能领域遭遇重要人事变动。 该公司Seed大模型视觉基础研究团队负责人冯佳时近日正式宣布离职,这一消息在AI研究圈引发广泛关注。 冯佳时在计算机视觉领域具有深厚的学术背景和丰富经验。
8/26/2025 11:31:01 AM
AI在线
字节跳动内测全新 3D 模型生成工具 “3D Model Generator”
据《读佳》报道,字节跳动旗下的豆包团队正在内部研发一款名为 “3D Model Generator” 的新型3D 模型生成工具。 这款工具的开发旨在为用户提供可控的大规模生成模型功能,以便更高效地创建高质量的3D 资产,尤其在游戏开发领域具有重要意义。 “3D Model Generator” 工具支持两种主要的生成方式。
8/26/2025 9:26:48 AM
AI在线
刚刚,字节开源Seed-OSS-36B模型,512k上下文
开源赛道也是热闹了起来。 就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本:Seed-OSS-36B-Base(含合成数据)Seed-OSS-36B-Base(不含合成数据)Seed-OSS-36B-Instruct(指令微调版)Hugging Face 地址:: 使用了 12 万亿(12T)tokens 进行训练,并在多个主流开源基准测试中取得了出色的表现。 这三个模型均以 Apache-2.0 许可证发布,允许研究人员和企业开发者自由使用、修改和再分发。
8/21/2025 10:24:00 AM
机器之心
2146 tokens/s!字节跳动发布极速代码生成模型Seed Diffusion,速度暴涨5.4倍
最近,字节跳动发布了一款全新的AI代码生成模型“Seed Diffusion Preview”。 这款模型采用了完全不同于以往的生成方式,不再是“一个词一个词”地慢慢生成,而是整段代码并行生成,一次生成多个片段。 据官方披露,Seed Diffusion Preview在Nvidia H20 GPU上的生成速度高达2146个token每秒,比传统模型提升了最多5.4倍。
8/12/2025 3:19:32 PM
基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海
当短剧出海、跨境电商等新兴领域打造全球化内容时,面临着一个棘手的基础问题——原始视频的中文字幕。 原始字幕对于海外观众来说,不仅是无效信息,还严重干扰观看体验。 传统方案——直接添加对应外语字幕会导致画面杂乱,而使用马赛克或基于 GAN 的字幕擦除补全方案会导致画面模糊、帧间闪烁,都无法彻底解决这一挑战,使得优质内容的出海之路障碍重重。
8/12/2025 9:37:43 AM
孙康、丁杨
字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍
用扩散模型写代码,不仅像开了倍速,改起来还特别灵活! 字节Seed最新发布扩散语言模型Seed Diffusion Preview,这款模型主要聚焦于代码生成领域,它的特别之处在于采用了离散状态扩散技术,在推理速度上表现出色。 在H20上,它的代码推理速度能达到2146tokens/s,比同类的Mercury和Gemini Diffusion等模型快不少,同时比同等规模的自回归模型快5.4倍,并且在代码编辑任务中更具优势。
8/1/2025 2:15:20 PM
闻乐
字节跳动扣子 Coze 宣布开源:采用 Apache 2.0 许可证,支持商用
AI在线 7 月 26 日消息,字节跳动旗下 AI Agent 开发平台 —— 扣子(Coze)宣布正式拥抱开源,主要包括两大核心项目,覆盖整个 AI 智能体开发、运维、测试、调优:Coze Studio(扣子开发平台)Coze Loop(罗盘运维平台)该项目采用 Apache 2.0 许可证,这意味着相关代码:可商用:可商业使用,无附加条款专利授权:明确授权,无后顾之忧社区共建:与全球开发者一起,共建未来至于安装门槛,根据字节官方描述,其系统要求低到离谱,仅需 2 核 CPU、4GB 内存,甚至还提供了一键部署脚本,只要有 Docker 就能部署。 AI在线附开源地址:Coze Studio: Loop:
7/26/2025 3:01:04 PM
问舟
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
AI新词
智能体
Gemini
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
工具
计算
Sora
GPU
华为
大语言模型
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
编程
神器推荐
DeepMind
亚马逊
特斯拉
AI模型