AI在线 AI在线

苹果在AI领域取得重大进展,图像生成技术可与DALL-E和Midjourney相媲美

苹果公司的机器学习研究团队开发出了一种突破性的AI系统,该系统能够生成高分辨率图像,可能对以DALL-E和Midjourney等流行图像生成器所依赖的扩散模型的主导地位构成挑战。 这项在上周发表的研究论文中详细介绍的技术名为“STARFlow”,是由苹果研究人员与学术合作伙伴共同开发的,该系统结合了标准化流(normalizing flows)与自回归Transformer,实现了研究团队所称的“与最先进的扩散模型相比具有竞争力”的性能。 这一突破发生在苹果面临AI领域批评声浪日益高涨的关键时刻。

苹果在AI领域取得重大进展,图像生成技术可与DALL-E和Midjourney相媲美

苹果公司的机器学习研究团队开发出了一种突破性的AI系统,该系统能够生成高分辨率图像,可能对以DALL-E和Midjourney等流行图像生成器所依赖的扩散模型的主导地位构成挑战。

这项在上周发表的研究论文中详细介绍的技术名为“STARFlow”,是由苹果研究人员与学术合作伙伴共同开发的,该系统结合了标准化流(normalizing flows)与自回归Transformer,实现了研究团队所称的“与最先进的扩散模型相比具有竞争力”的性能。

这一突破发生在苹果面临AI领域批评声浪日益高涨的关键时刻。在周一的全球开发者大会上,该公司仅对其Apple Intelligence平台进行了适度的AI更新,凸显了这家被许多人视为在AI军备竞赛中落后了的公司所面临的竞争压力。

“据我们所知,这项工作是首次成功展示标准化流能够在此规模和分辨率下有效运作,”研究团队写道,该团队包括苹果机器学习研究人员纪涛顾(Jiatao Gu)、约书亚·M·苏斯金德(Joshua M. Susskind)和翟双飞(Shuangfei Zhai),以及来自加州大学伯克利分校和佐治亚理工学院等机构的学术合作者。

苹果如何在AI大战中反击OpenAI和谷歌

STARFlow研究代表了苹果为开发独特AI能力所做的更广泛努力,这些能力可能使其产品与竞争对手区分开来。虽然谷歌和OpenAI等公司凭借其生成式AI的进步占据了头条新闻,但苹果一直在探索可能提供独特优势的替代方法。

研究团队解决了AI图像生成中的一个基本挑战:将标准化流扩展到能够有效处理高分辨率图像的程度。标准化流是一种生成模型,它学习将简单分布转换为复杂分布,但在图像合成应用中传统上被扩散模型和生成对抗网络所掩盖。

“STARFlow在类别条件图像生成和文本条件图像生成任务中均取得了具有竞争力的性能,样本质量接近最先进的扩散模型,”研究人员写道,展示了该系统在不同类型图像合成挑战中的多功能性。

苹果新AI系统背后的数学突破

苹果的研究团队引入了几项关键创新,以克服现有标准化流方法的局限性,该系统采用了研究人员所说的“深-浅设计”,使用“一个深度Transformer块[它]捕获了模型的大部分表示能力,辅以几个计算效率高且显著有益的浅Transformer块”。

这一突破还涉及在预训练自编码器的潜在空间中操作,这比直接像素级建模更有效。根据论文,这种方法允许模型使用图像的压缩表示而不是原始像素数据进行工作,显著提高了效率。

与依赖迭代去噪过程的扩散模型不同,STARFlow保持了标准化流的数学性质,能够在连续空间中进行精确的最大似然训练,而无需离散化。

STARFlow对苹果未来iPhone和Mac产品的意义

这项研究在苹果面临展示AI领域有意义进展的日益增加的压力之际出现。最近的一项彭博社分析强调了Apple Intelligence和Siri在与竞争对手竞争中的挣扎。苹果在本周的全球开发者大会上的适度宣布凸显了该公司在AI领域的挑战。

对于苹果而言,STARFlow的精确似然训练可能在需要精确控制生成内容或在理解模型不确定性对于决策至关重要的应用中提供优势——这可能对企业应用和苹果强调的设备上AI能力有价值。

这项研究证明了替代扩散模型的方法可以达到类似的结果,可能为创新开辟新的途径,这些途径可以发挥苹果在软硬件集成和设备上处理方面的优势。

为什么苹果押注于大学合作来解决其AI问题

这项研究体现了苹果与领先学术机构合作以提升其AI能力的战略。共同作者陈天荣(Tianrong Chen)是佐治亚理工学院的博士生,曾在苹果机器学习研究团队实习,他在随机最优控制和生成建模方面拥有专业知识。

该合作还包括加州大学伯克利分校数学系的张瑞祥(Ruixiang Zhang)和谷歌大脑(Google Brain)和DeepMind的机器学习研究员洛朗·丁(Laurent Dinh),后者以在流模型方面的开创性工作而闻名。

“重要的是,我们的模型仍然是一个端到端的标准化流模型,”研究人员强调,将他们的方法与牺牲数学可处理性以换取性能提升的混合方法区分开来。

完整的研究论文可在arXiv上找到,为希望在竞争激烈的生成式AI领域中构建此工作的研究人员和工程师提供了技术细节。虽然STARFlow代表了显著的技术成就,但真正的考验将是苹果能否将此类研究突破转化为消费者喜爱的AI功能,这些功能已使ChatGPT等竞争对手家喻户晓。对于一家曾凭借iPhone等产品革新整个行业的公司而言,问题不在于苹果能否在AI领域创新,而在于其能否足够快地实现这一目标。

相关资讯

生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较

生成模型已成为人工智能领域的关键突破,赋予机器创建高度逼真的图像、音频和文本的能力。 在众多生成技术中,扩散模型和Flow Matching尤为引人注目。 这两种方法虽然都致力于在噪声与结构化数据之间建立转换,但其基础原理存在本质区别。
3/20/2025 11:28:34 AM
佚名

MetaDiff:用扩散模型重塑元学习,攻克小样本学习瓶颈!

一眼概览MetaDiff 提出了一种基于条件扩散模型的创新元学习方法,通过将梯度下降优化建模为去噪过程,有效提升了小样本学习(FSL)的性能,显著减少了内循环优化中的内存负担和梯度消失风险。 核心问题小样本学习的主要挑战在于:如何在训练数据有限的情况下快速适应新任务,而不引入过拟合或内存瓶颈。 传统基于梯度的元学习方法需要计算内循环路径上的二阶导数,导致内存消耗高和梯度消失问题,从而影响性能。
1/27/2025 12:57:43 AM
萍哥学AI

「扩散模型+多模态提示」精准增强皮肤病变分割,超越GAN,SSIM提升9%,Dice提升5%!

一眼概览该论文提出了一种基于扩散模型的医学影像生成方法,结合视觉和文本提示,以精准控制皮肤镜病变图像的生成,提升皮肤病变的分割性能。 实验结果显示,该方法比传统GAN生成方法在图像质量(SSIM提升9%)和分割性能(Dice系数提升5%)上均有显著改进。 核心问题问题背景医学影像分析受限于公开数据集稀缺及高质量标注成本高,数据增强方法(如GAN)虽能扩充数据,但难以精准控制病变类型、位置及属性,导致对下游任务(如病变分割)的提升有限。
2/4/2025 9:42:47 AM
萍哥学AI
  • 1