AI在线 AI在线

Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像

Meta AI 公司最新推出了 Transfusion 新方法,可以结合语言模型和图像生成模型,将其整合到统一的 AI 系统中。AI在线援引团队介绍,Transfusion 结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似,它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion

Meta AI 公司最新推出了 Transfusion 新方法,可以结合语言模型和图像生成模型,将其整合到统一的 AI 系统中。

AI在线援引团队介绍,Transfusion 结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。

Meta 解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。

许多多模态语言模型的工作原理与此类似,它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。

不过 Transfusion 采用单一、统一的 Transformer 架构,适用于所有模式,对文本和图像数据进行端到端训练。文本和图像使用不同的损失函数:文本使用下一个标记预测,图像使用扩散。

Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像

为了同时处理文本和图像,图像被转换成图像片段序列。这样,模型就能在一个序列中同时处理文本标记和图像片段,特殊的注意力掩码(attention mask)还能让模型捕捉图像内部的关系。

有别于 Meta 现有的 Chameleon(将图像转换成离散的标记,然后用处理文本的方式处理)等方法,Transfusion 保留了图像的连续表示法,避免了量化造成的信息损失。

实验还表明,与同类方法相比,"融合" 的扩展效率更高。在图像生成方面,它取得了与专门模型相似的结果,但计算量却大大减少,令人惊讶的是,整合图像数据还提高了文本处理能力。

Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像

研究人员在 2 万亿个文本和图像标记上训练了一个 70 亿参数的模型。该模型在图像生成方面取得了与 DALL-E 2 等成熟系统相似的结果,同时还能处理文本。

AI在线附上参考地址

Meta's "Transfusion" blends language models and image generation into one unified model

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

相关资讯

统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者

本文引入了 Transfusion,这是一种可以在离散和连续数据上训练多模态模型的方法。一般来说,多模态生成模型需要能够感知、处理和生成离散元素(如文本或代码)和连续元素(如图像、音频和视频数据)。在离散模态领域,以预测下一个词为目标的语言模型占据主导地位,而在生成连续模态方面,扩散模型及其泛化形式则是当前最先进技术。研究者一直试图将语言模型与扩散模型结合,一种方法是直接扩展语言模型,使其能够利用扩散模型作为一个工具,或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理,然后在离散的
8/26/2024 9:22:00 AM
机器之心

华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩

这个 BLIP 模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题。
2/6/2022 12:54:00 PM
机器之心

多模态文档LayoutLM版面智能理解技术演进-纪传俊

LayoutLM经过从1.0到3.0版本的迭代,不断优化模型,可见多模态技术对于文档理解的可行性和未来巨大的潜力未读抱拳拒绝赞感谢找文档图片文件@消息更多酷应用
12/20/2022 3:28:00 PM
达观数据

还记得让马斯克一键「穿越」的利器吗?现在面向所有人开放!免费!

机器之能报道编辑:吴昕还记得一周前我们介绍过的那个文生图工具吗?对,让马斯克「穿越」,变身古风大侠的那个。也是让 Blackpink Jennie 「变胖」的那个:当时, Ideogram 官宣成立并公开了测试版 v0.1 。机器之能赶紧排队注册,试用了一下。据说,短短一周内,积累了超过 90,000 名用户,生成了超过 300 万张图像!今天, Ideogram 进一步宣布向地球上的每个人开放 Ideogram !免费的,没有任何限制!(传送门 )官方博客也第一次介绍了 Ideogram v0.1 —— 「它是
8/30/2023 6:22:00 PM
机器之能

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通,那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域,但视觉与语言之间的连接尚未被彻底打通。举些例子,大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视
6/11/2024 2:45:00 PM
机器之心

RTX 4090 笔记本 0.37 秒直出大片:英伟达联手 MIT 清华祭出 Sana 架构,速度秒杀 FLUX

一台 4090 笔记本,秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本,仅需 0.37 秒,直接吐出 1024×1024 像素图片。
10/17/2024 11:35:00 PM
问舟

快手与上交大联合推出Orthus模型,打破多模态生成新边界

在刚刚结束的国际机器学习大会(ICML)上,快手与上海交通大学携手推出了一款令人瞩目的多模态生成理解模型 ——Orthus。 这款模型以其自回归 Transformer 架构为基础,能够在图文之间自如转换,展现出前所未有的生成能力,目前已正式开源。 Orthus 的最大亮点在于其卓越的计算效率与强大的学习能力。
7/23/2025 6:42:34 PM
AI在线

给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码

你在纸上写个词,AI 只要看一眼就能模仿你的笔迹,还是看起来毫无破绽的那种。
7/27/2021 3:03:00 PM
机器之心

给几个关键词就能出摄影大片,英伟达GauGAN上新2.0:将文本转成逼真图像

这么美的照片竟然不是出自摄影师之手?!
11/23/2021 2:17:00 PM
机器之心

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收

如果论文中的图表不用绘制,对于研究者来说是不是一种便利呢?有人在这方面进行了探索,利用文本描述生成论文图表,结果还挺有模有样的呢!
6/26/2023 2:11:00 PM
机器之心

试了试Meta的最新语音生成器,逼真得有点毛骨悚然

机器之能报道编辑:吴昕这段《小红帽》故事中的所有音频都是 AI 生成的,你能听出来吗?机器之能报道编辑:吴昕这段《小红帽》故事中的所有音频都是 AI 生成的,你能听出来吗?试听地址: Audiobox Maker,你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。有了它,仅用几分钟的时间,机器之心也随意生成了关于五月天假唱热搜的对话:试听地址: Audiobox Maker ,即使是小白用户也可以设计、生成不同人物(比如小红帽、大灰狼和外婆)的声音文件,同时添加不
12/12/2023 7:08:00 PM
机器之能

写给小白的大模型入门科普

什么是大模型? 大模型,英文名叫Large Model,大型模型。 早期的时候,也叫Foundation Model,基础模型。
11/22/2024 10:45:20 AM
小枣君

OpenAI在图片领域站起来了!

出品 | 51CTO技术栈(微信号:blog51cto)26日凌晨,OpenAI推出了GPT4o图像生成,可以说解决了此前Midjourney等扩散模型很难解决的问题,业内为之大为赞叹。 这是用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。 视野中可以看到一位女士正在写字,她身穿一件印有大型 OpenAI 标志的 T 恤。
3/26/2025 9:29:12 AM

Meta Ray-Ban 智能眼镜隐私政策调整:AI 随时“看”,语音云端存

Meta更新Ray-Ban智能眼镜隐私政策,AI摄像头功能默认开启,语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析,物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#
4/30/2025 11:24:30 PM
远洋

文字语义纠错技术探索与实践-张健

介绍文字语义纠错的技术算法,技术难点与挑战以及实际产品的落地情况
12/27/2022 12:07:00 PM
达观数据

AIGC用于智能写作的技术综述-达观数据

详细介绍AIGC用于智能写作的相关技术和达观数据的智能写作产品实践
1/13/2023 11:46:00 AM
达观数据

图文实录|澜舟科技合伙人李京梅:基于预训练模型的 AIGC 技术与应用实践

在 AIGC 领域,人类应该持续提升创造力,不要停止,不要因为有了 AI 就不去创造了,而 AI 也将通过提升整个产业效率的方式来帮助人类更好地创造价值。
2/28/2023 2:50:00 PM
澜舟科技

两行代码解决大语言模型对话局限! 港中文贾佳亚团队联合MIT发布超长文本扩展技术

代码和Demo地址::、模型偷懒、上下文越长大模型越笨......如果体验过大语言模型产品,用户多少会对文本输入长度带来的限制有所感触,比如当想和大模型讨论一些稍长的内容,需要拆分输入,而前面输入的要点,很快就会被大模型忘记。这是典型的大语言模型对话缺陷!就像先天有注意力缺陷的儿童,难以专注看完一本新书。而缺陷的关键,在于模型缺乏长文本处理能力。这个局面如今被打破。近日,贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜:hugging face热榜第一、paperwithcode热度第一,Gith
10/9/2023 11:36:00 AM
新闻助手
  • 1