AI在线 AI在线

小模型逆袭!港科大快手联手打造"进化搜索"技术,让AI作画告别"大力出奇迹"

在AI作画领域,一直以来都存在一个普遍认知:想要生成高质量的图片和视频,就必须依赖更大的模型、更多的参数和更强的算力。 然而,来自香港科技大学和快手科技的研究团队最近提出的EvoSearch(进化搜索)技术,正在彻底颠覆这一固有观念。 这项技术最令人震撼的表现是:仅有865M参数的Stable Diffusion2.1模型在使用EvoSearch后,生成质量竟然超越了强大的GPT-4o;而1.3B参数的Wan模型配合EvoSearch,甚至能够与比它大10倍的14B模型平分秋色。

在AI作画领域,一直以来都存在一个普遍认知:想要生成高质量的图片和视频,就必须依赖更大的模型、更多的参数和更强的算力。然而,来自香港科技大学和快手科技的研究团队最近提出的EvoSearch(进化搜索)技术,正在彻底颠覆这一固有观念。

image.png

这项技术最令人震撼的表现是:仅有865M参数的Stable Diffusion2.1模型在使用EvoSearch后,生成质量竟然超越了强大的GPT-4o;而1.3B参数的Wan模型配合EvoSearch,甚至能够与比它大10倍的14B模型平分秋色。

现有AI生成模型的困境

目前主流的AI生成模型主要分为两大类:扩散模型和流模型。扩散模型通过逐步去除噪声来生成清晰图像,类似于将模糊照片逐渐变清晰的过程;流模型则通过一系列平滑变换,直接将随机噪声塑造成目标图像。

为了提升这些模型的表现,业界普遍采用两种策略。一是在训练阶段不断增大模型规模、喂入更多数据,但这种"大力出奇迹"的方法成本极高,已经接近资源上限。二是在推理阶段进行优化,包括Best-of-N采样(生成N张图片选最好的一张)和粒子采样(维护多个候选方案并筛选优秀个体)等方法。

image.png

然而,这些现有方法都存在明显缺陷:Best-of-N方法效率低下,大量计算被浪费在生成"废品"上;粒子采样方法过于保守,容易困在局部最优解中,缺乏主动探索能力;其他微调方法要么需要额外训练,要么容易导致生成样本缺乏多样性。

EvoSearch:AI作画领域的"进化论"

EvoSearch的核心创新在于将达尔文进化论的思想引入AI生成过程。该方法将图像生成视为一个物种进化过程:首先生成初始"种群"(随机噪声),然后通过"适应度评估"对半成品进行打分,接着进行"优胜劣汰"选择优秀个体,最后通过专门设计的"变异"操作产生新的候选方案。

这种变异操作是EvoSearch的关键技术突破。对于初始噪声,系统通过添加适量高斯噪声实现变异;对于去噪过程中的中间状态,则借鉴随机微分方程采样的随机性注入方式,给中间状态引入可控扰动。这种设计既能探索新区域,又能保持优秀"基因"。

与传统方法相比,EvoSearch具有三大优势:主动探索而非被动筛选,能够跳出初始候选池限制;有效平衡探索与利用,避免过早收敛到局部最优;通用性强,适用于各种扩散模型和流模型,无需修改模型结构或额外训练。

实验结果:全方位"降维打击"

研究团队在图像和视频生成任务上进行了全面测试,结果显示EvoSearch在各项指标上都显著优于现有基线方法。

在图像生成方面,随着推理计算量增加,EvoSearch生成的图片质量和文本匹配度持续稳定提升,而其他方法很快达到瓶颈。对于复杂或容易产生歧义的提示词,EvoSearch能够更准确理解并生成符合要求的图片,同时在背景、姿态等方面展现出更丰富的多样性。

视频生成方面的表现更为惊人。无论使用万象Wan1.3B模型还是混元HunyuanVideo13B模型,EvoSearch的生成质量都显著超越基线方法。最令人印象深刻的是,当为Wan1.3B模型分配与Wan14B模型相同的推理时间预算时,前者配合EvoSearch的组合效果竟能与后者打平甚至超越。

值得注意的是,即使评价指标与EvoSearch搜索时使用的奖励函数不完全一致,该方法依然表现出良好的泛化能力,不容易被特定奖励函数误导。在人工评估中,EvoSearch生成的视频在视觉质量、动作质量、文本对齐和整体质量方面都获得了更高的胜率。

技术启示与未来展望

EvoSearch的成功为AI生成领域带来了重要启示。首先,在训练成本日益高昂的今天,通过在推理阶段投入更多计算来提升模型性能是一条极具价值的探索路径。其次,将生物进化中的选择和变异思想引入AI生成领域,能够有效克服传统搜索方法的局限性。

更重要的是,这项技术的成功离不开对扩散和流模型去噪过程的深入理解。EvoSearch真正掌握了这些模型在去噪过程中的状态空间结构特征,据此设计了针对性的变异策略,从而能够更有效地探索巨大的可能性空间。

当然,EvoSearch也存在进一步优化的空间。研究团队指出,未来的改进方向包括设计更智能的变异策略、更好地平衡探索和计算效率等。

这项技术向我们展示了一个重要趋势:即使不盲目追求更大的模型和更多的训练数据,通过在推理阶段运用更智慧的搜索策略,我们依然可以挖掘出AI模型更深层次的潜力。EvoSearch正在开启AI创作的"智能进化"时代,让小模型也能创造出令人惊艳的作品。

项目主页:https://tinnerhrhe.github.io/evosearch/

代码:https://github.com/tinnerhrhe/EvoSearch-codes

论文:https://arxiv.org/abs/2505.17618

相关资讯

Small Model Triumph! HKUST and Kuaishou Jointly Develop Evolutionary Search Technology, Letting AI Art Generation Move Beyond 'Brawn Over Brains'

In the field of AI-generated art, there has long been a common belief that to generate high-quality images and videos, larger models, more parameters, and stronger computing power are required. However, a recent research team from the Hong Kong University of Science and Technology and Kuaishou Technology has proposed the EvoSearch (evolutionary search) technology, which is completely overturning this conventional notion.The most shocking performance of this technology is: an 865M-parameter Stable Diffusion 2.1 model, after using EvoSearch, has generated quality surpassing the powerful GPT-4; while a 1.3B-parameter Wan model paired with EvoSearch can even match a 14B-parameter model ten times its size.. Challenges of Existing AI Generation Models.
6/16/2025 9:49:02 AM
AI在线

EA与Stability AI合作:将AI融入游戏开发,加速内容创作

电子艺界(EA)宣布与Stable Diffusion AI图像模型的开发商Stability AI建立战略合作关系,旨在将人工智能(AI)深度融入其游戏开发流程。 两家公司将“共同开发变革性的 AI 模型、工具和工作流程”,以重新构想内容构建方式,从而加速内容迭代并拓展创意边界。 AI定位:提升效率而非取代创意EA强调,虽然AI将成为“值得信赖的盟友”,支持更快的迭代、加速工作流程,并允许开发者将更多时间专注于“打造世界一流的游戏和体验”,但人类仍将是“故事叙述的核心”。
10/24/2025 10:47:08 AM
AI在线

驱动产学研深度融合,「未来高新视频智能技术中心创新联合体 」在快手揭牌

音视频、人工智能技术是推动数字经济高质量发展的技术基石,产学研多领域不断提升创新能力,加快优化迭代视频智能技术,对推动全行业的数字化、视频化、智能化转型具有重大意义。3 月 1 日,未来高新视频智能技术创新中心成果汇报会暨创新联合体揭牌仪式在北京快手科技举办。来自北京市科委、中关村管委会、市经信局、海淀区政府的相关领导及高校和科研院所的专家学者与会,共同见证高新视频智能技术的最新成果,并就加强创新联合体机制建设、完善企业主导的产学研深度融合创新和未来行业发展趋势等展开深入研讨。发挥平台科技企业优势探索产学研协同新模
3/8/2024 3:04:00 PM
机器之心
  • 1