
但规模大并不总是意味着更好,因为规模大通常意味着复杂度增加、灵活性降低。渐渐地,企业开始意识到,万亿参数模型并不总是其业务的最佳解决方案,并非所有AI解决方案都需要一个巨型大语言模型,更专注的方法有望带来更好的成果。
针对相关数据的特定任务进行调整的小型专用模型正日益受到青睐。这些模型资源消耗更少,且定制化和可控性更强,有何理由不喜欢呢?然而,实际有益成果与科技巨头们的承诺之间似乎存在错位。
科技巨头的“大”问题
自2022年11月ChatGPT发布以来,模型规模不断增大。尽管大型模型的训练、开发和推理成本高昂,但它们仍能给出结果。其中的逻辑很简单:选择一个参数更多的大型模型,将其部署在更多的GPU上,花费一些时间,就能看到成果。简单来说,就是“投入”更多的资金,就能获得更好的结果。投入的资金越多,成果就越好。过去5到7年里,所有科技巨头(OpenAI、谷歌、Anthropic、Meta)都在玩这场游戏。
• 2018年:GPT-1和BERT——参数均少于10亿
• 2019年:GPT-2——15亿参数
• 2020年:GPT-3——1750亿参数
• 2023年:GPT-4、Claude、Gemini Ultra——均为巨型模型
• 2024-2025年:Llama——4050亿参数,DeepSeek——6710亿参数
这一趋势显而易见,且行之有效。澳大利亚机器学习研究所的研究表明,“增加参数数量对于训练大型模型的重要性,是扩大训练集规模的三倍”。
但这种方法存在一个大问题。
需要明确的是:大语言模型是通才。虽然大型模型能给出良好的结果,但小型模型在特定任务上能以更少的时间和成本达到相同或略好的效果。
更糟糕的是,大语言模型运行缓慢。更多的神经元需要激活,这意味着执行时间更长,基础设施成本更高,而这并非所有人都能承受。
但大型模型有何优点呢?它们就像一把瑞士军刀,几乎能完成任何任务并给出结果。但许多企业根本无法大规模负担这种成本。此外,企业的日常运营并非科学探索,更多的是重复性、中级水平的任务,如总结会议内容、分析Jira工单或起草报告。
大多数企业都有需要简化的实际业务流程和需要解决的业务问题,对于这些问题,你不需要一把瑞士军刀,而需要一把外科医生的手术刀——一种锋利、精准的工具,只能执行一项任务,但精度极高。而非一刀切式的解决方案。
与庞大的大语言模型不同,小型语言模型更为精简、精准且专注于特定领域。它们成本更低、速度更快,且在其专业领域内准确无误。例如,一家合规公司可能会部署一个针对法规和内部政策进行训练的轻量级模型。一家医疗服务提供商可以微调一个较小的系统,以极高的准确性解读实验室结果和患者病历。
OpenAI在其官方文档中提供了一个很好的现实案例,该案例指出,通过使用1000个示例对GPT-4o-mini进行微调以执行一项非常具体的任务,人们只需花费大版本4o 2%的成本,就能达到91.5%的准确率(与大版本4o相当)。别忘了,推理速度也会快得多。
对于日常业务任务,如监控亚马逊、Reddit、YouTube或X上的客户评论,运行巨型模型很快就被证明效率低下。当更精简、针对特定任务的模型能更快、更可靠且以更低的成本完成任务时,为何还要使用十亿参数的瑞士军刀来总结简单的评论呢?
被炒作蒙蔽双眼
那么,为何企业仍然热衷于大语言模型呢?原因有二:营销炒作和人类心理。
营销炒作
科技巨头们在通用AI的竞赛中展开角逐,而根据定义,通用AI不会是小语言模型。这场竞赛风险极高,回报也更为丰厚。他们推销自己最大、最炫目的产品,兜售通用大脑的梦想,以吸引更多关注、投资和人才。他们正在打造一个数字版的阿尔伯特·爱因斯坦。但作为客户,你不会聘请阿尔伯特·爱因斯坦来解决五年级的数学问题,对吧?
人类心理
我们将智能拟人化,并倾向于将AI人性化。就像大多数人倾向于认为真正聪明的人什么都擅长一样,我们认为最聪明的模型对任何工作都是最佳选择。但事实并非如此。有时,经过适当训练的小型模型在训练领域内能取得更好的成果。以微软的Phi-4为例,该模型在数学推理领域占据主导地位,却“只有”140亿参数。另一个例子是Med-PaLM,该模型在美国医学执照考试中得分超过60%,且在现实医疗领域具有极高的适用性。
科技巨头们热衷于制造轰动效应:他们的模型越大、越炫目,吸引的媒体关注就越多。他们占据的新闻头条越多,积累的声望就越高。对于不深入参与AI开发的高管来说,这种地位象征的承诺极具吸引力——投资于一个知名且声音最大的品牌会让人感到安全(尽管出于错误的原因),特别是当所有竞争对手都在或多或少地做同样的事情时。随波逐流,最终却迷失其中。
的确,我不得不承认,营销炒作与人类偏见相结合,会产生一种强大的错觉,仿佛通用的AI大脑突然触手可及。然而,这往往会导致过度支出和表现不佳。当你可以有目的地选择一个手持坚果钳来敲开几颗核桃时,使用大锤既非最佳也非最明智的决定。这不仅是浪费,更是一种糟糕的策略。
特别是,AI实际上并不能解决问题。恰恰相反,它会放大问题。
AI是放大器,而非救世主
如果你的流程糟糕,AI会让其糟糕10倍。如果你的流程良好,它会让其优秀10倍,更快且更高效。以客户支持为例:公司急于将大语言模型集成到聊天机器人中,却只发现效果不佳。真正的罪魁祸首是什么?过时、不完整或依赖人工的知识库。
银行和保险公司正选择在私有云上托管小型模型,以优先保障安全和合规性。零售商则使用中型AI来扫描产品评论和社交媒体上的动态,以寻找趋势,与运行GPT级系统相比,成本大幅降低。
我并不是说完全放弃大型模型是值得考虑的。它们在广泛推理和创新方面具有价值。但根据我的经验,企业往往喜欢从优化入手。首先,你应该不惜一切代价实现结果。学会如何正确完成任务。然后再进行优化。换句话说,先大后小。首先在大型模型上测试你的任务,不是为了长期使用,而是为了明确对你和你的企业来说,成功是什么样的。一旦你定义了清晰的提示、输出和期望,就过渡到小型模型并进行微调。此外,查看AIMultiple对专用语言模型的分析也将很有用。
如果我们必须做一个简单的观察,我会说,大型基础模型适用于广泛训练和提供背景信息(这是你首先应该具备的)。更小的特定领域模型则适用于执行(一旦你缩小了问题范围)。工业(实用)AI的未来并非云端的一个巨型大脑,而是一个由专业模型共同组成的生态系统。
这并不意味着巨型模型会消失。它们仍然重要,可用于探索、前沿分析和创造性问题解决。但它们不会成为企业的主力军。AI只是锦上添花之物。它可以是蛋糕上的樱桃,也可以是垃圾堆上的樱桃。没有适当的流程和数据治理,即使是最先进的模型也无法神奇地解决你的问题。
那么,要点是什么呢?在购买“重炮”之前,问问自己:“你的企业真的面临一个前沿问题,还是只是试图总结一次会议?你真的需要爱因斯坦来解决你的问题吗?”