AI在线 AI在线

字节跳动

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。 面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。 在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。
11/7/2024 2:36:00 PM
机器之心

字节跳动 AI 助手豆包被曝开启视频生成内测

《科创板日报》称,字节跳动旗下大模型 AI 助手豆包正式推出视频生成内测,支持图片文字一键成片、动态运镜和多镜头一致性、风格比例随意挑选。
11/7/2024 12:35:35 PM
问舟

无需训练即可创建数字人,字节PersonaTalk视频口型编辑超SOTA

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
10/26/2024 3:02:00 PM
机器之心

从威尔・史密斯鬼畜吃面到「Her」,这些幕后技术正在推动AI视频时代的到来

还记得「威尔・史密斯吃意大利面」的 AI 鬼畜视频吗?在这些视频里,威尔・史密斯的面部表情、动作都非常夸张,还充满了扭曲、变形。一年多以前,大部分 AI 视频生成模型确实只能达到这样的水平。
10/17/2024 6:06:00 PM
机器之心

实测字节豆包·视频生成模型:Sora画的饼被实现了......

但更多的网友则是期待字节的视频生成模型,因为早在去年11月,字节的项目Make Pixels Dance就展示字节具备了解决长AI视频中角色一致性难以保持的问题。 所以我也看到很多外网网友的另一个问题“Where is ByteDacne?”。 而就在9.24火山引擎AI创新巡展深圳站上,火山引擎一口气发布了个视频生成模型PixelDance和Seaweed模型。
9/27/2024 5:55:00 PM
林杰鑫

字节全新发布豆包AI视频模型:再见了Sora,你的时代过去了

刚刚,字节的火山引擎的发布会基本结束了。 我现在有点过于激动。 虽然发布会结束了,但是我觉得,一个颠覆行业的全新的起点,在这一刻,正式到来了。 字节正式发布了他们全新的两款 AI 视频模型: 豆包视频生成-PixelDance 模型和 Seaweed 模型。Seaweed 模型下次我再详细来说。这次,我想说这个豆包 PixelDance 模型,因为太屌了,屌炸了,我真的是全程惊叹着看完的。 他们正式宣布这玩意的那一刻,现场掌声雷动,我隔着屏幕都感觉快特么把房顶掀翻了。 真的,如果要给这个豆包 PixelDance
9/26/2024 1:49:52 AM

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

我们用17个Prompt,实测了一把字节的两大视频生成模型。字节憋了个大招。9 月 24 日,字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展,一口气发布了两款视频生成大模型,正式宣告进军 AI 视频生成。这两款模型,一个名为 PixelDance(以下简称 P 模型),一个名为 Seaweed(以下简称 S 模型),不仅在审美、动幅上提升了一个 level,还破解了多主体互动和一致性难题。话不多说,先整几个视频让大家感受下:一位年轻女生微簇眉头,生气地戴上一副墨镜,这时,男主角入画,紧紧抱住了她。这段 10
9/25/2024 10:36:00 AM
机器之心

字节音乐大模型炸场!Seed-Music发布,支持一键生成高质量歌曲、片段编辑等

高质量音乐生成、高灵活音乐编辑,Seed-Music 再次打开了 AI 音乐创作的天花板。放假期间,本 i 人又领教了被 e 人支配的恐惧。跟 e 人朋友出门玩,先被拉去饭局尬聊,再和陌生人组队打本,下面这首歌真是唱出了 i 人心声。后两天假期就舒服多了。通关了黑神话悟空还不过瘾,我在家补经典 86 版的《西游记》。无论多少次重温,还是会被大圣的魅力吸引。 这歌怎么样,是不是感觉斗战胜佛活灵活现,如在眼前?实际上,两首歌都并非真人所作,而是全靠字节最新发布的音乐大模型 ——Seed-Music。Seed-Music
9/19/2024 1:03:00 PM
机器之心

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以实现准确的音频和口型同步,还可以生成细微自然的表情动作,例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到;在唱歌时也能表现得活灵活现
9/12/2024 2:32:00 PM
机器之心

开源公司 Grafana Labs 融资 2.7 亿美元;a16z 发布全球 Top100 AI 应用:字节美图上榜丨AI情报局

今日融资快报开源软件提供商 Grafana Labs 以 60 亿美元估值筹集 2.7 亿美元Grafana Labs 正式名称为 Raintank Inc.,是 Grafana Cloud 的创造者,这是一个广泛使用的开源 IT 基础设施监控平台。 该平台通过从客户的基础设施中抓取遥信数据和运营数据,并将这些数据绘制成图表,帮助管理员更容易地识别模式和趋势。 Grafana 还提供针对不同 IT 基础设施平台的工具,例如 Grafana Cloud 中的 Kubernetes Monitoring 模块,以及利用 AI 减少云基础设施成本的 Adaptive Metrics 功能。
8/23/2024 10:25:00 AM
我在思考中

字节跳动2024奖学金计划报名启动!每人10万,助力科研未来!

戳此链接,下载奖学金申请表(建议PC端打开)
8/20/2024 2:39:00 PM
机器之心

1篇Outstanding、5篇Oral!字节跳动今年ACL这么猛? 来直播间聊聊!

本周学术界瞩目的焦点,无疑是在泰国曼谷举行的 ACL 2024 顶会。这场盛会吸引了全球众多杰出的研究者,大家汇聚一堂,共同探讨和分享最新学术成果。官方公布的数据显示,本届 ACL 共收到近 5000 篇论文投稿,其中 940 篇被主会录用,168 篇工作入选大会口头报告(Oral),录取率低于 3.4%,这当中,字节跳动共有 5 篇成果中选 Oral。在 8 月 14 日下午的 Paper Awards 环节,字节跳动旗下成果《G-DIG: Towards Gradient-based DIverse and h
8/15/2024 2:53:00 PM
机器之心

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提高训练效率的关键。近日,字节跳动豆包大模型团队与香港大学联合提出了 ByteCheckpoint。这是一个 PyTorch 原生,兼容多个训练框架,支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统,相比现有方法有显著性能提升和易用性优势。本文介绍了大模型训练提效
8/8/2024 5:04:00 PM
机器之心

B站AI课几秒出总结,划词就给解释,这个「AI学习搭子」真香

在 ChatGPT 走红之后,本着「打不过就加入」的心态,很多职场人学起了 AI。但遗憾的是,不少人走了弯路,甚至还被某些「199」的课程割了韭菜。其实,学 AI 这事儿并不难。读文章、看视频、啃论文都是很好的学习方式。当然,还是有不少读者吐槽,学 AI 就像当年学英语一样,总会遇到一些让人头疼的「生词」,读论文比做阅读理解还麻烦,视频课程也不知道哪个适合自己,浪费了不少时间。AI 学习路上遇到的这些「绊脚石」,皆因你缺少一个学习搭子。我们随机打开「AI在线」的一篇文章,有人可能在第一句就卡住了:AlphaGo 是
7/26/2024 11:54:00 AM
机器之心

字节大模型同传智能体,一出手就是媲美人类的同声传译水平

无论是语速超快、发音复杂的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅自然地给出准确而地道的翻译结果。近年来,人工智能(Aritificial Intelligence, AI),尤其是以大语言模型(Large Language Models, LLMs)为代表的 AI 正以惊人的速度发展,这些模型在多种自然语言处理任务中展现了卓越的能力。然而,尽管在许多领域取得了突破,代表着人类顶尖语言水平的同声传译(Simultaneous Interpretation, SI)依然是一个未被完全
7/25/2024 2:06:00 PM
机器之心

李飞飞所创 World Labs 估值或超 10 亿美元;传字节将于 19 日公布文生图/视频等 AI 模型进展丨AI情报局

今日融资快报李飞飞旗下AI初创企业World Labs估值已超10亿美元英国《金融时报》报道,著名华裔计算机科学家李飞飞创办的World Labs估值已经赶超10亿美元。 该创企主要利用类似人类的视觉数据处理技术,使AI具备高级推理能力。 据知情人士透露,从今年4月成立至今,World Labs已经进行了两轮融资,投资方包括顶级科技投资者Andreessen Horowitz和AI基金Radical Ventures。
7/18/2024 10:19:00 AM
我在思考中

字节跳动筋斗云人才计划开启

7/12/2024 3:35:00 PM
机器之心

GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了

字节跳动大模型团队成果 Depth Anything V2 现已被苹果官方收入 Core ML 模型库。本文介绍了 Depth Anything 系列成果的研发历程、技术挑战与解决方法,分享了团队对于 Scaling Laws 在单一视觉任务方面的思考。值得一提的是,Depth Anything V1 与 V2 两个版本论文一作是团队实习生。近日,字节跳动大模型团队开发的成果 Depth Anything V2 ,入选苹果公司 Core ML 模型库,目前已呈现在开发者相关页面中。Depth Anything 是一
7/11/2024 4:49:00 PM
机器之心