AI在线 AI在线

生成式人工智能演变:生成式人工智能简史

从 Transformers(2017 年)到 DeepSeek-R1(2025 年)2025年初,我国推出突破性且经济高效的大型语言模型(LLM)DeepSeek-R1,引发了人工智能的巨变。 本文追溯了LLM的演变历程,始于2017年革命性的Transformer架构,该架构通过自注意力机制重塑了自然语言处理(NLP)。 到2018年,首批基于Transformer的两款LLM,GPT和BERT相继发布,显著增强了语境理解和文本生成能力,为未来的创新奠定了坚实的基础。

生成式人工智能演变:生成式人工智能简史

从 Transformers(2017 年)到 DeepSeek-R1(2025 年)

生成式人工智能演变:生成式人工智能简史

2025年初,我国推出突破性且经济高效的大型语言模型(LLM)DeepSeek-R1,引发了人工智能的巨变。本文追溯了LLM的演变历程,始于2017年革命性的Transformer架构,该架构通过自注意力机制重塑了自然语言处理(NLP)。到2018年,首批基于Transformer的两款LLM,GPT和BERT相继发布,显著增强了语境理解和文本生成能力,为未来的创新奠定了坚实的基础。2020年,拥有1750亿个参数的GPT-3展现了卓越的少样本和零样本学习能力。然而,“幻觉”问题即生成与事实不符的内容成为了关键挑战。2022年,OpenAI通过采用“监督微调”(SFT)和“基于人类反馈的强化学习”(RLHF)技术来应对这一挑战,并由此开发了对话模型ChatGPT。这一突破引发了全球对人工智能的广泛关注。到2023年和2024年,GPT-4和GPT-4o等多模态模型将不断发展,无缝集成文本、图像和音频处理,使其能够展现出更接近人类的能力,例如“听”、“说”和“看”。与此同时,OpenAI的o1和DeepSeek的R1推进了复杂推理能力,使大型语言模型(LLM)更接近类人“系统2思维”。此外,DeepSeek-R1模型的超高成本效率和开源设计挑战了人工智能规范,使高级大型语言模型(LLM)的获取更加民主化,并推动了各行各业的创新。

1.什么是语言模型(LM)

语言模型 (LM) 是人工智能 (AI) 系统,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,从而能够生成连贯且与上下文相关的文本,并广泛应用于翻译、摘要、聊天机器人和内容生成。

生成式人工智能演变:生成式人工智能简史

1.1 大型语言模型(LLM)

“语言模型”(LM)和“大型语言模型”(LLM)这两个术语经常互换使用,但 LLM 特指具有数百万甚至数十亿个参数的语言模型。LLM 这一术语出现于 2018-2019 年左右,恰逢 BERT(包含 3.4 亿个参数)和 GPT-2(包含 15 亿个参数)等模型的推出。然而,这一术语在 2020 年 GPT-3 发布后才得到广泛认可,GPT-3 以其前所未有的 1750 亿个参数展示了其变革性的扩展潜力。

1.2 自回归语言模型

大多数 LLM 以自回归的方式运行,这意味着它们根据前面的标记序列预测下一个标记(或子词)的概率分布。这种自回归特性使模型能够捕捉复杂的语言模式和依赖关系,从而使其在文本生成等任务中非常有效。

从数学角度来看,LLM 就像一个概率模型,给定一个前面的 token 序列(w₁ ,w₂ ,…,wₜ),估计下一个 token wₜ₊₁ 的条件概率分布。这可以正式表示为:

P(wₜ₊ ₁ | w ₁,w ₂,…,wₜ )

生成式人工智能演变:生成式人工智能简史

在文本生成过程中,LLM 使用解码算法确定下一个输出标记。这些算法可以采用不同的策略:

贪婪搜索:模型在每一步中选择概率最高的标记。

采样:模型从预测的概率分布中随机抽取一个 token。这种方法为生成的文本引入了可变性,模仿了人类语言的多样性和不可预测性。

1.3 生成能力

LLM 的自回归特性使其能够利用先前单词所建立的上下文,按顺序(一次一个标记)生成文本。从初始标记或提示开始,该模型迭代地预测下一个标记,直到形成完整序列或满足预定义的停止条件。

生成式人工智能演变:生成式人工智能简史

这种顺序生成过程使 LLM 能够生成高度连贯且与上下文相关的文本,使其成为创意写作、对话生成甚至代码补全的强大工具。能够生成多样化输出的能力也使 LLM 非常适合需要灵活性和适应性的任务,例如讲故事或对话式 AI。

2.《变压器革命》(2017)

2017 年,Vaswani 等人在其开创性论文《Attention is All You Need》中提出了 Transformer 架构,这标志着 NLP 领域的一个分水岭。它解决了循环神经网络 (RNN) 和长短期记忆网络 (LSTM) 等早期模型的关键局限性,这些模型难以处理长距离依赖关系和顺序处理。这些挑战使得使用 RNN 或 LSTM 实现有效的语言模型变得困难,因为它们计算效率低下,并且容易出现梯度消失等问题。而 Transformer 克服了这些障碍,彻底改变了该领域,并为现代大型语言模型奠定了基础。

生成式人工智能演变:生成式人工智能简史

自注意力机制和 Transformer 架构

2.1 Transformer 架构的关键创新

1. 自注意力机制:与按顺序处理 token 的传统 RNN 不同,Transformer 引入了自注意力机制,使模型能够动态地权衡每个 token 相对于其他 token 的重要性。该机制使模型能够专注于输入中与当前任务最相关的部分,从而更好地捕捉全局上下文信息。从数学上讲,自注意力机制的计算公式如下:

生成式人工智能演变:生成式人工智能简史

这里,Q、K、V分别是查询、键和值矩阵,dₖ是键维度。自注意力机制能够实现并行计算,加快训练速度,同时提升全局上下文理解能力。

生成式人工智能演变:生成式人工智能简史

2. 多头注意力机制:多头注意力机制并行操作多个独立的注意力头,每个注意力头关注输入的不同方面。这些注意力头的输出被连接起来,并通过一个线性变换层,从而产生更丰富、更全面的上下文表示。这种设计使模型能够从多个角度捕捉复杂的语义关系。

生成式人工智能演变:生成式人工智能简史

3. 前馈网络 (FFN) 和层归一化:每个 Transformer 层都包含一个应用于每个 token 的前馈网络 (FFN),以及层归一化和残差连接。FFN 由两个全连接层组成,通常使用 GELU(高斯误差线性单元)激活函数。层归一化和残差连接的设计有效地稳定了训练过程,并支持构建更深的网络架构,从而增强了模型的表达能力。

4. 位置编码:由于 Transformer 本身并不编码标记顺序,因此添加位置编码(位置和频率的正弦函数)来表示词序,从而在不牺牲并行化的情况下保留顺序信息。

生成式人工智能演变:生成式人工智能简史

2.2 对语言建模的影响

可扩展性:Transformer 支持完全并行计算,从而可以在大型数据集上训练大量模型。

情境理解:自我注意力捕捉局部和全局依赖关系,提高连贯性和情境意识。

Transformer 的提出不仅是 NLP 领域的重大突破,更是人工智能发展史上的重要里程碑。它通过自注意力机制、多头注意力机制、位置编码等创新设计,解决了传统模型的诸多局限性,为未来的语言建模和深度学习研究开辟了新的可能性。

3. 预训练 Transformer 模型时代(2018-2020)

2017 年 Transformer 架构的推出,为 NLP 的新时代奠定了基础,其特点是预训练模型的兴起以及对扩展能力前所未有的重视。这一时期出现了两个颇具影响力的模型系列:BERT 和 GPT,它们展现了大规模预训练和微调范式的威力。

3.1 BERT:双向语境理解(2018)

2018 年,谷歌推出了BERT(基于 Transformer 的双向编码器表征),这是一个突破性的模型,它利用Transformer 的编码器在众多自然语言处理 (NLP) 任务中实现了卓越的性能。与之前以单向方式(从左到右或从右到左)处理文本的模型不同,BERT 采用了双向训练方法,使其能够同时从两个方向捕捉上下文。通过生成深度、上下文丰富的文本表征,BERT 在文本分类、名称实体识别 (NER)、情感分析等语言理解任务中表现出色。

生成式人工智能演变:生成式人工智能简史

BERT 是第一个仅使用编码器的 Transformer 模型

BERT 的关键创新在于:

掩码语言模型 (MLM):BERT 并非预测序列中的下一个单词,而是被训练预测句子中随机掩码的词条。这迫使模型在进行预测时考虑句子的整体上下文——包括前后单词。例如,给定句子“The cat sat on the [MASK] mat”,BERT 会学习根据周围上下文预测“soft”。

下一句预测 (NSP):除了 MLM 之外,BERT 还接受了名为“下一句预测”的辅助任务训练,该模型学习预测文档中的两个句子是否连续。这有助于 BERT 在需要理解句子之间关系的任务(例如问答和自然语言推理)中表现出色。

BERT 的影响: BERT 的双向训练使其在 GLUE(通用语言理解评估)和 SQuAD(斯坦福问答数据集)等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入(根据周围词汇动态变化的表示)的重要性,并为新一代预训练模型铺平了道路。

3.2 GPT:生成式预训练 Transformer(2018-2020)

BERT 优先考虑双向上下文理解,而 OpenAI 的 GPT 系列则采用了独特的策略,专注于通过自回归预训练实现生成能力。通过利用Transformer 的解码器,GPT 模型在文本生成任务中表现出色。

生成式人工智能演变:生成式人工智能简史

GPT(生成式预训练 Transformer)是第一个仅解码器的 Transformer 模型。

GPT(2018):单向解码器专用 Transformer 建模

GPT 系列的首个版本于 2018 年 6 月发布,引入了仅用于解码器的 Transformer 架构,该架构拥有1.17 亿个参数,标志着自然语言处理 (NLP) 领域的一个重要里程碑。该架构使用单向自回归方法对4.6GB 高质量文本数据进行训练,仅根据之前的标记预测下一个标记。该设计通过捕捉自然语言中的序列依赖关系,在文本补全、摘要和对话生成等生成任务中表现出色。然而,GPT 的设计初衷主要是为了利用监督微调 (SFT) 来适应各种目标任务。

生成式人工智能演变:生成式人工智能简史

总体而言,GPT 的自回归特性通过捕捉自然语言中的序列依赖关系,实现了令人印象深刻的文本生成。该设计展现了仅使用解码器的 Transformer 的潜力,为 GPT 系列奠定了基础,并为具有复杂生成和泛化能力的高级 LLM 铺平了道路。

GPT-2(2019):扩展广义零样本学习的语言模型

GPT-2 于 2019 年 2 月发布,较其前身有了重大改进,拥有15 亿个参数,并在40GB 的多样化互联网文本上进行了训练。它引入了突破性的零样本学习能力,无需针对特定任务进行微调即可执行论文写作、问答、摘要和翻译等任务。

生成式人工智能演变:生成式人工智能简史

GPT-2 展现了扩展模型规模和训练数据的强大能力,能够生成高质量、类人文本,同时展现出其新兴的多任务处理能力。然而,其先进的生成能力也引发了伦理方面的担忧,导致在完整模型公开之前,GPT-2 曾分阶段发布多个较小版本。GPT-2 为语言模型树立了新标准,凸显了大规模预训练系统在泛化应用方面的潜力。

GPT-3(2020):大规模大型语言模型的曙光

GPT-3 于 2020 年 6 月发布,其拥有1750 亿个参数,是当时规模最大的语言模型,彻底革新了人工智能。该模型基于庞大而多样化的文本语料库进行训练,在少样本学习和零样本学习方面表现出色,能够执行诸如撰写论文、生成代码、解决推理问题,甚至在极少或没有示例的情况下进行创意写作等任务。

生成式人工智能演变:生成式人工智能简史

GPT-3 能够跨领域泛化——从编码到对话代理——展现了大规模预训练模型的新兴能力。其类人输出虽然为生成式人工智能树立了新的标准,但也引发了关于偏见、虚假信息和滥用的伦理担忧。通过突破规模和泛化的极限,GPT-3 重新定义了语言模型的可能性,并为高级广义人工智能铺平了道路。

生成式人工智能演变:生成式人工智能简史

3.3 GPT 的影响和扩展的作用

GPT 模型(尤其是 GPT-3)的推出标志着人工智能的变革时代,展现了自回归架构和生成能力的强大力量。这些模型为内容创作、对话代理和自动推理等应用开辟了新的可能性,并在各种任务中实现了接近人类的性能。GPT -3 拥有 1750 亿个参数,展现了规模的深远影响,证明了在海量数据集上训练的大型模型可以为人工智能能力树立新的标杆。

生成式人工智能演变:生成式人工智能简史

随着模型大小、数据集大小和用于训练的计算量的增加,语言建模性能会平稳提升。

2018 年至 2020 年期间,人工智能研究的重点是扩展模型规模。随着模型参数从数百万个增长到数十亿个,它们在捕捉复杂模式和泛化到新任务方面也变得更加出色。这种“扩展效应”由三个关键因素支撑:

数据集大小:较大的模型需要海量数据集进行预训练。例如,GPT-3 就基于海量互联网文本进行训练,使其能够学习各种语言模式和知识。

参数数量:增加参数数量使得模型能够表示更复杂的关系,从而提高各种任务的性能。

计算能力:训练如此大的模型需要大量的计算资源,硬件和分布式计算的进步使得大规模高效训练成为可能。

这个扩展时代不仅提高了语言模型的性能,而且为人工智能的未来突破奠定了基础,强调了规模、数据和计算对于实现最先进成果的重要性。

4.训练后协调:弥合人工智能与人类价值观之间的差距(2021-2022)

GPT-3 是一款拥有 1750 亿个参数、使用自监督学习进行预训练的 LLM ,其非凡能力能够生成与人类书写极为相似的文本,这引发了人们对人工智能生成内容真实性和可信度的担忧。虽然这一成就标志着人工智能发展的一个重要里程碑,但它也凸显了确保这些模型符合人类价值观、偏好和期望的关键挑战。关键问题包括指令遵循不一致(例如忽略特定准则或偏离用户意图),以及幻觉(即模型生成与事实不符或无意义的内容)。

为了应对这些挑战,我们引入了两种关键的训练后方法:监督微调 (SFT)用于增强指令对齐,该方法涉及在精心挑选的数据集上训练模型,以提高精度并确保符合指导原则。此外,他们利用人类反馈强化学习 (RLHF)进行偏好对齐,利用人类排序的响应来引导模型生成更有利的输出。这些方法有效地减少了幻觉的发生,提高了模型遵循指令的能力,并使 GPT-3 的行为更接近人类价值观。

生成式人工智能演变:生成式人工智能简史

4.1 监督微调(SFT)

增强 GPT-3 对齐能力的第一步是监督微调 (SFT),它是 RLHF 框架的基础组件。SFT 与指令调优类似,涉及在高质量的输入输出对或演示上训练模型,以教会它如何遵循指令并生成所需的输出。

生成式人工智能演变:生成式人工智能简史

指令遵循数据的示例。

这些演示经过精心策划,以反映预期的行为和结果,确保模型学会产生准确且适合上下文的反应。

生成式人工智能演变:生成式人工智能简史

然而,单靠 SFT 有其局限性:

可扩展性:收集人工演示需要耗费大量劳动力和时间,尤其是对于复杂或小众的任务。

性能:简单地模仿人类行为并不能保证模型会超越人类的表现或很好地推广到看不见的任务。

为了克服这些挑战,需要一种更具可扩展性和效率的方法,为下一步铺平道路:从人类反馈中进行强化学习(RLHF)。

生成式人工智能演变:生成式人工智能简史

4.2 基于人类反馈的强化学习(RLHF)

RLHF由 OpenAI 于 2022 年推出,旨在解决 SFT 的可扩展性和性能限制。与需要人工编写完整输出的 SFT 不同,RLHF 会根据质量对多个模型生成的输出进行排序。这种方法可以更高效地收集和标记数据,从而显著提升可扩展性。

生成式人工智能演变:生成式人工智能简史

RLHF 流程包括两个关键阶段:

训练奖励模型:人工注释者对模型生成的多个输出进行排序,从而创建一个偏好数据集。这些数据用于训练奖励模型,该模型学习根据人工反馈评估输出的质量。

使用强化学习对 LLM 进行微调:奖励模型使用强化学习算法近端策略优化 (PPO)来指导 LLM 的微调。通过迭代更新,该模型学习生成更符合人类偏好和期望的输出。

这个两阶段流程——结合 SFT 和 RLHF——使模型不仅能够准确地遵循指令,还能适应新任务并持续改进。通过将人工反馈融入训练循环,RLHF 显著增强了模型生成可靠、与人类一致的输出的能力,为 AI 的一致性和性能树立了新的标杆。

4.3 ChatGPT:推进对话式人工智能(2022 年)

2022 年 3 月,OpenAI 发布了GPT-3.5,这是 GPT-3 的升级版,架构相同,但训练和微调功能有所改进。主要改进包括:通过精炼数据实现更好的指令执行,减少幻觉(但并未完全消除),以及更多样化、更新的数据集,从而实现更相关、更情境感知的响应。

生成式人工智能演变:生成式人工智能简史

ChatGPT

OpenAI 在 GPT-3.5 和 InstructGPT 的基础上,于 2022 年 11 月推出了ChatGPT,这是一个突破性的对话式 AI 模型,专门针对自然的多轮对话进行了微调。ChatGPT 的主要改进包括:

以对话为中心的微调:经过大量对话数据集的训练,ChatGPT 擅长在对话中保持上下文和连续性,从而实现更具吸引力和更人性化的互动。

RLHF:通过整合 RLHF,ChatGPT 学会了生成不仅实用,而且诚实无害的回复。人类训练员会根据回复质量对其进行排序,从而使模型能够不断改进其性能。

ChatGPT 的推出标志着人工智能的一个关键时刻,通常被称为“ ChatGPT 时刻”,因为它展示了对话式人工智能改变人机交互的潜力。

5. 多模态模型:连接文本、图像及其他领域(2023-2024)

2023 年至 2024 年间, GPT-4、GPT-4V 和 GPT-4o 等多模态大型语言模型 (MLLM)通过将文本、图像、音频和视频集成到统一系统中,重新定义了人工智能。这些模型扩展了传统语言模型的功能,实现了更丰富的交互和更复杂的问题解决。

生成式人工智能演变:生成式人工智能简史

5.1 GPT-4V:视觉与语言的结合

2023 年,OpenAI 推出了 GPT-4V,将 GPT-4 的语言能力与先进的计算机视觉技术相结合。它可以解读图像、生成字幕、回答视觉问题,并推断视觉图像中的上下文关系。其跨模态注意力机制实现了文本和图像数据的无缝集成,使其在医疗保健(例如分析医学图像)和教育(例如交互式学习工具)等领域具有巨大的应用价值。

生成式人工智能演变:生成式人工智能简史

5.2 GPT-4o:全模态前沿

到 2024 年初,GPT-4o 通过整合音频和视频输入,进一步提升了多模态性。它在统一的表征空间中运行,可以转录语音、描述视频或将文本合成音频。实时交互和增强的创造力(例如生成多媒体内容)使其成为娱乐和设计等行业的多功能工具。

向 GPT-4o 问好

现实世界的影响

MLLM 彻底改变了医疗保健(诊断)、教育(互动学习)和创意产业(多媒体制作)等领域。它们处理多种模式的能力为创新开启了新的可能性。

6.开源和开放权重模型(2023-2024)

2023 年至 2024 年间,开源和开放权重的人工智能模型发展势头强劲,使先进人工智能技术的获取变得民主化。

开放权重 LLM提供公开可访问的模型权重,且限制极少。这使得模型能够进行微调和自适应调整,同时保持训练架构和训练数据的封闭性。它们适合快速部署。示例:Meta AI 的 LLaMA 系列以及 Mistral AI 的 Mistral 7B / Mixtral 8x7B

开源 LLM公开底层代码和结构。这使得模型能够被全面理解、修改和定制,从而促进创新和适应性。例如:OPT 和 BERT。

社区驱动的创新:像 Hugging Face 这样的平台促进了协作,并借助 LoRA 和 PEFT 等工具实现了高效的微调。社区开发了针对医疗保健、法律和创意领域的专用模型,同时优先考虑符合伦理道德的 AI 实践。

生成式人工智能演变:生成式人工智能简史

得益于尖端比对技术的出现,开源社区目前正处于一个激动人心的阶段。这一进展催生了越来越多卓越的开放权重模型的发布。因此,闭源模型与开放权重模型之间的差距正在稳步缩小。LLaMA3.1-405B 模型开创了历史性的先河,它弥合了与闭源模型之间的差距。

7. 推理模型:从系统1到系统2思维的转变(2024)

2024年,人工智能发展开始强调增强推理能力,从简单的模式识别发展到更具逻辑性和结构化的思维过程。这种转变受到认知心理学双过程理论的影响,该理论区分了系统1(快速、直觉)和系统2(慢速、分析)思维。虽然之前的模型(例如GPT-3和GPT-4)能够熟练地完成系统1的任务(例如文本生成),但它们缺乏更深层次的推理和解决问题的能力。

生成式人工智能演变:生成式人工智能简史

系统 1 与系统 2 思维

7.1 OpenAI-o1:推理能力的飞跃

从OpenAI 于 2024 年 9 月 12 日发布的 o1-preview开始,推理模型的发布标志着人工智能能力的重大飞跃,尤其是在解决数学和编程等复杂推理任务方面。与传统的 LLM 不同,推理模型采用长链思维(Long CoT)——一种内部推理轨迹,允许模型通过分解问题、批判自身解决方案和探索替代方案来“思考”问题。这些 CoT 对用户隐藏,用户只能看到汇总的输出。

生成式人工智能演变:生成式人工智能简史

推理模型的主要特征包括:

  • Long CoT:使模型能够将复杂问题分解为更小的部分,批判其解决方案,并探索多种方法,类似于搜索算法。
  • 推理时间计算控制:可以为更复杂的问题生成更长的 CoT,而更短的 CoT 可以为更简单的任务节省计算。
  • 增强的推理能力:虽然像 o1-preview 这样的初始推理模型在某些方面能力不如标准大型语言模型 (LLM),但它们在推理任务中的表现却远超后者,甚至经常能与人类专家相媲美。例如,o1-preview 在数学 (AIME 2024)、编码 (CodeForces) 和博士级科学问题方面均超越了 GPT-4o。

生成式人工智能演变:生成式人工智能简史

GPT-4o与o1-preview与o1与人类专家。

OpenAI-o1:

2024年12月5日,OpenAI的完整版o1模型进一步提升性能,在2024年AIME数学考试中跻身全美前500名,并显著超越GPT-4o(解决了74%-93%的AIME问题,而GPT-4o仅为12%)。此外,更便宜、更快速的o1-mini版本,尽管比完整版o1便宜80%,但仍保留了强大的推理能力,尤其是在编码方面。

OpenAI-o3:

2025年1月,OpenAI发布了o3模型,这是其推理模型系列的最新突破,该模型基于o1模型的成功。尽管完整的o3模型尚未发布,但其在关键基准测试中的表现已被誉为突破性的。

ARC-AGI:准确率达到 87.5%,超越人类水平(85%),并远远超过 GPT-4o 的 5%。

编码:在 SWE-Bench Verified 上获得 71.7% 的得分,在 Codeforces 上获得 2727 的 Elo 分数,跻身全球前 200 名竞争性程序员之列。

数学:在 EpochAI 的 FrontierMath 上实现了 25.2% 的准确率,比之前的最先进水平(2.0%)有了显著的飞跃。

生成式人工智能演变:生成式人工智能简史

OpenAI-o1和OpenAI-o3推理模型的发布代表了人工智能的重大进步,通过结构化的内部推理过程提供了卓越的问题解决能力,并在数学和编码等复杂任务中树立了新的标杆。

8. 成本高效的推理模型:DeepSeek-R1(2025)

LLM 通常需要极其庞大的计算资源来进行训练和推理。GPT-4o 和 OpenAI-o1 等最先进的 LLM 模型的闭源特性限制了尖端 AI 技术普及的普及。

8.1 DeepSeek-V3

2024年12月下旬,DeepSeek-V3 作为一款经济高效的开放式大型语言模型 (LLM) 应运而生,为人工智能的可及性树立了新的标杆。DeepSeek-V3 可与 OpenAI 的 ChatGPT 等顶级解决方案相媲美,但开发成本却显著降低,估计约为 560 万美元,仅为西方公司投资额的一小部分。该模型拥有多达 6710 亿个参数,其中活跃参数达 370 亿个,并采用混合专家 (MoE) 架构,将模型划分为专门用于数学和编程等任务的组件,以减轻训练负担。DeepSeek-V3 融入了工程效率方面的提升,例如改进了键值缓存的管理,并进一步推进了混合专家方法。该模型引入了三个关键架构:

多头潜在注意力 (MLA):通过压缩注意力键和值来减少内存使用量,同时保持性能,并通过旋转位置嵌入 (RoPE) 增强位置信息。

DeepSeek 混合专家 (DeepSeekMoE):在前馈网络 (FFN) 中混合使用共享和路由专家来提高效率并平衡专家利用率。

多标记预测:增强模型生成连贯且上下文相关的输出的能力,特别是对于需要生成复杂序列的任务。

生成式人工智能演变:生成式人工智能简史

DeepSeek-V3 的发布引发了全球科技股的抛售,市值一度跌至 1 万亿美元,并导致英伟达股价盘前下跌 13%。DeepSeek-V3 的定价为每百万输出代币 2.19 美元,约为 OpenAI 同类模型价格的三十分之一。

8.2 DeepSeek-R1-Zero 和 DeepSeek-R1

仅仅一个月后,即2025年1月下旬,DeepSeek发布了DeepSeek-R1-Zero和DeepSeek-R1,引起了轰动。这两款模型以极低的训练成本展现了卓越的推理能力。利用先进的强化学习技术,这些模型证明了高性能推理无需像尖端AI那样产生高昂的计算成本。这一突破巩固了DeepSeek在高效可扩展AI创新领域的领先地位。

DeepSeek-R1-Zero:基于 DeepSeek-V3 构建的推理模型,并通过强化学习 (RL) 增强其推理能力。它完全省去了监督微调阶段,直接从名为 DeepSeek-V3-Base 的预训练模型开始。它采用一种名为“组相对策略优化 (GRPO)”的基于规则的强化学习方法,该方法根据预定义规则计算奖励,从而使训练过程更简单、更具可扩展性。

生成式人工智能演变:生成式人工智能简史

DeepSeek-R1:为了解决 DeepSeek-R1-Zero 的局限性,例如可读性低和语言混合,DeepSeek-R1 结合了有限的高质量冷启动数据和额外的强化学习训练。该模型经过多个阶段的微调和强化学习,包括拒绝采样和第二轮强化学习训练,以提高其通用能力并符合人类的偏好。

生成式人工智能演变:生成式人工智能简史

精简版 DeepSeek 模型: DeepSeek 开发了精简版 DeepSeek-R1,其参数数量从 15 亿到 700 亿不等,旨在将先进的推理能力引入性能较弱的硬件。这些模型使用原始 DeepSeek-R1 生成的合成数据进行微调,确保在推理任务中拥有强劲性能,同时保持足够轻量级以支持本地部署。

生成式人工智能演变:生成式人工智能简史

DeepSeek-R1 在数学、编程、常识和写作等多项基准测试中均展现出优异的性能。根据使用模式的不同,与 OpenAI 的 o1 模型等竞争对手相比,它能够显著节省成本,使用成本可降低 20 到 50 倍。

图片图片

8.3 对人工智能产业的影响

DeepSeek-R1 的推出挑战了人工智能领域的既定规范,使高级大型语言模型 (LLM) 的获取更加民主化,并促进了更具竞争力的生态系统。其经济实惠和便捷性预计将推动各行各业的采用和创新。最近,AWS、微软和谷歌云等领先的云服务提供商已在其平台上提供 DeepSeek-R1。小型云服务提供商和 DeepSeek 的母公司也以极具竞争力的价格提供 DeepSeek-R1。

结论

大型语言模型 (LLM) 的演进,从 2017 年 Transformer 架构的引入,到 2025 年 DeepSeek-R1 的开发,标志着人工智能领域的革命性篇章。LLM 的兴起伴随着四项里程碑式的成就:

  • Transformers(2017): Transformer 架构的引入为构建大规模、高效的模型奠定了基础,这些模型能够以前所未有的精度和灵活性处理复杂任务。
  • GPT-3(2020):该模型展示了 LLM 规模化的变革力量,证明了在大量数据集上训练的大规模模型可以在广泛的应用中实现接近人类的性能,为 LLM 所能实现的目标设定了新的基准。
  • ChatGPT (2022):通过将对话式大型语言模型 (LLM) 引入主流,ChatGPT 使高级人工智能更容易被日常用户所接受和互动。它也引发了关于 LLM 广泛应用的伦理和社会影响的批判性讨论。
  • DeepSeek-R1 (2025): DeepSeek-R1 利用混合专家 (MoE)、多头潜在注意力 (MLA) 和多标记预测 (MTP),并结合使用群组相对策略优化 (GRPO) 的高效多阶段强化学习训练,提供清晰的推理能力。与许多领先的闭源模型相比,其运营成本可降低高达 50 倍。此外,其开源特性使尖端 AI 的获取更加民主化,赋能各行各业的创新者,并凸显了可扩展性、一致性和可访问性在塑造 AI 未来中的重要性。

LLM 正在稳步转型为功能多样、具备推理能力的多模态系统,既能满足日常用户的需求,也能满足专业需求。这一演变源于突破性的创新,以及规模化、易用性和成本效益的提升,推动着 AI 走向更易于触及、更具影响力的未来。

相关资讯

国际劳工组织报告:全球25%就业岗位或受生成式人工智能影响

近日,国际劳工组织(ILO)与波兰国家研究院发布联合研究报告《生成式人工智能与就业:全球职业受影响程度精编指数》,对生成式人工智能如何重塑劳动世界进行了迄今最详尽的评估。 报告指出,全球 25% 的就业岗位可能受到生成式人工智能影响,高收入国家这一比例更高,达 34%。 该指数通过整合近3 .
5/27/2025 12:10:00 AM

如何应对生成式人工智能给出的无穷无尽的正确答案

生成式人工智能 (GenAI) 似乎承诺带来前所未有的创新和自动化机会……然而,许多领导者难以清楚地表达 GenAI在组织层面提供的实际、有形价值。 那么,这种明显的 GenAI 价值差距背后是什么? 我们能做些什么来解决这个问题?
2/10/2025 10:24:36 AM
晓晓

如何使用生成式人工智能工具简化应用程序迁移

译者 | 李睿审校 | 重楼将遗留代码和应用程序迁移到现代系统面临风险并且耗时费力,然而这一过程通常是不可避免的。 本文将阐述利用生成式人工智能工具简化应用程序迁移的一些有效策略。 一项研究表明,在财富5000强公司使用的软件中,多达70%的软件都是在20年前开发的。
4/9/2025 8:14:03 AM
李睿
  • 1