AI在线 AI在线

北大CogSci 2025(Oral)| 人类创造力的核心机制,AI已经开始掌握了

“AI永远无法取代人类”证据-1! 北大团队最新论文揭示:人类引以为傲的创造力,如今AI也开始掌握了。 甚至,研究人员还提出了一种系统性框架,首次从认知科学的角度,对AI模型的组合创造力(Combinational Creativity)进行了量化评估与优化。

“AI永远无法取代人类”证据-1!

北大团队最新论文揭示:人类引以为傲的创造力,如今AI也开始掌握了

甚至,研究人员还提出了一种系统性框架,首次从认知科学的角度,对AI模型的组合创造力(Combinational Creativity)进行了量化评估与优化。

结果发现,GPT-4等先进模型在创意理解任务上已经超越普通人类(准确率70% vs. 50%)。

图片

这项研究不仅揭示了当前先进模型理解组合创造力的水平,还提出了一种可计算的方法,显著提升了AI的创意生成能力。

值得一提的是,这篇论文还被认知科学学会年度会议CogSci 2025收录,并被大会选为口头报告(Oral)进行现场讲解。

所以,这到底是咋回事儿呢?

AI开始掌握人类创造力的核心机制

一切起源于这样一个问题:

当AI看到寄居蟹住进易拉罐,它想到了什么?

一只寄居蟹钻进废弃的易拉罐——这个画面你可能在海滩上见过。大多数人只是一笑而过,但艺术家却能从中读出深刻的环保警示,比如人类垃圾正在成为野生动物的“新家园”。

图片

那么,人工智能会怎么“想”呢?

最新研究揭示了一个令人惊讶的答案:AI正在学会像艺术家一样进行“组合创造”。不是简单地拼贴概念,而是真正理解为什么某些看似不相关的元素组合在一起会产生全新的意义。

当AI看到寄居蟹与易拉罐的组合时,它不仅能识别出“动物+容器”的基本元素,还能解释它们之间的功能关联(都是“居住空间”),更进一步,它开始理解这种组合背后的深层含义,即对人类活动影响自然生态的反思。

这种从“识别”→“解释”→“引申”的三层认知过程,正是人类创造力的核心机制。而现在,AI也开始掌握这种能力了。

要知道在人类智能的诸多特质中,创造力被认为是最难被机器复制的能力之一。

尤其是“组合创造力”(Combinational Creativity),即通过重新组合已有概念,生成新颖、富有意义的想法,被视为真正创新的核心。

尽管近年来如GPT-4V、DALL·E 3等视觉-语言模型(VLMs)在生成图像和文本方面展现出惊人的“创意”,但其底层机制究竟是真正的“创造性组合”,还是对训练数据的复杂模仿,仍是AI研究领域争论的焦点。

传统评估AI创造力的方法多聚焦于结果的“新颖性”与“实用性”,而忽略了“创造性过程”本身的结构与机制。

因此,要判断AI是否真的“理解”组合创造,就必须建立一个能够揭示其认知路径的系统框架。

用系统性框架量化评估AI的“组合创造力”

对此,受认知科学家Margaret Boden和认知科学中的“概念融合理论”(Conceptual Blending Theory)的启发,研究团队首次提出了一个面向AI系统的分层评估框架——IEI框架(Identification–Explanation–Implication)。

该框架将组合创造力分解为三个层次:

  • 识别(Identification):能否正确分解输入概念的基本元素;
  • 解释(Explanation):能否发现概念间的潜在关联;
  • 引申(Implication):能否理解超越原始输入的语义内涵。

这一框架不仅适用于评估AI,也为人类创造力的计算化研究提供了新思路。

图片

上图展示了IEI框架如何结合“概念融合理论”,对组合创造力进行建模与评估。

在左侧,两个输入概念通过共性抽象(Generic Space)与融合空间(Blend Space)产生新的组合创意。

右侧则对应IEI框架在理解与生成任务中的三层处理逻辑:从识别基本元素(如寄居蟹与易拉罐)、解释功能类比(如容器功能相似),再到引申出更深层的意义(如对人类破坏动物栖息地的环保反思)。

这一流程可用于系统评估AI模型对组合创意的理解能力,并引导生成具有多层含义的创意内容。

实验结果:超越平均人类,但仍不及专家

通过构建包含专业艺术家创作组合的数据集(CreativeMashup),研究发现:

GPT-4等先进模型在创意理解任务上已超越普通人类(准确率70% vs. 50%);但在深层语义解读(如隐喻、文化象征)上,仍显著落后于人类专家(人类专家的平均胜率为78%)。

下图为人类被试与模型在三个任务上的实验结果:

图片

更关键的是,当研究团队将这一框架嵌入生成模型(如DALL-E 3)时,其创意输出的质量提升了35%(基于人类专家盲测)。

这表明,AI的创造力并非固定不变,而是可以通过结构化思维引导优化

下图展示了多个主流文图生成模型在创意生成任务中的表现,分别由人类专家、完整的IEI 方法(识别+解释+引申),以及简化的II方法(识别+引申)进行偏好排名评估。

排名分数越低表示生成结果越受欢迎。

可以看出,使用IEI框架优化后的模型在生成质量上更接近人类专家偏好,说明该方法在提升创意输出方面具有显著效果。

图片

从理论到应用:AI创造力的未来

总体而言,该研究的价值不仅在于评估,更在于为AI的创造性应用提供了方法论:

  • 设计:使AI能真正理解“为什么这样组合有意义”,而非机械拼贴;
  • 认知研究:为人类与机器创造力的比较提供了标准化基准。

这组图像展示了AI如何通过重组动物特征来表达抽象属性,如颜色、速度、用途与形态,以视觉方式呈现出对不同概念特征的理解与创意表达。

图片

也可以把看起来无关的物体和概念组合在一起,生成带有隐喻的图像,用一种新颖的方式表达社会话题。

图片

同时,还能将日常用品(如护手霜、背包)与象征物(如花朵、皇冠、地图)进行创意组合,以展现AI在产品设计中的应用潜力。

图片

顺便一提,目前团队创建的CreativeMashup数据集已开放下载。

论文地址:https://ppyyqq.github.io/aicc/

相关资讯

浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025

大模型智能体正在迅速发展,能力已不再局限于 API 调用。 诸如OpenAI的Operator和Anthropic的Computer Use等,能够像人类一样直接与界面交互,执行复杂操作。 在处理这类复杂任务的过程中,大模型智能体将问题分解为可执行的工作流(Workflow)是关键的一步。
2/8/2025 2:10:00 PM
量子位

谷歌豪华阵容打造AI科学家,用测试时间计算加速科学发现,CEO皮猜也来站台了

CEO皮猜亲自站台,谷歌的最新研究狠狠火了——为科学家群体推出“科研搭子”AI co-scientist,一个能够利用高级推理综合大量文献、生成新颖假设,并提出详细研究计划的多智能体AI系统。 划重点,该系统将与OpenAI o1/DeepSeek-R1相似的测试时间计算用来加速科学发现。 据皮猜介绍,这个系统已经在肝脏纤维化治疗、抗菌耐药性和药物再利用等重要研究领域取得了初步成果。
2/21/2025 9:20:00 AM
量子位

AI也要007?Letta、伯克利提出「睡眠时间计算」,推理效率翻倍还不加钱

AI 也要 007 工作制了! 近日,AI 初创公司 Letta 和 UC 伯克利的研究人员提出了一种扩展人工智能能力的新方式 —— 睡眠时间计算(Sleep-time Compute),让模型在空闲时间「思考」,旨在提高大型语言模型(LLM)的推理效率,降低推理成本,同时保持或提升准确性。 睡眠时间计算的核心理念在于:智能体即使在「睡眠」(即用户未提出查询时的闲置状态)时段,也应持续运行,利用这些非交互期重组信息、提前完成推理。
4/23/2025 9:10:00 AM
机器之心
  • 1