前面为大家介绍过AI Agent的发展史和工程结构模型,并对Agent的典型代表——Manus的技术架构进行了详细解析。不少同学看完后纷纷留言说,他们在工作中也尝试在推动落地Agent,但结果总是不尽如意,希望我能给出一些建议。
我自己目前对AI Agent也处在探索实践阶段,并无法给出很好的建议。不过在实践的过程中,我总结了三点落地AI Agent要面临的挑战,倒是可以分享给大家。
首先还是明确一下AI Agent的基本概念:
AI Agent是具备感知环境、做出决策并执行任务能力的AI工具,通过感知、决策和行动实现目标。它的核心特点包括:
- 感知能力:获取外部环境信息,如视觉、听觉。
- 决策能力:基于信息推理规划,选择行动策略。
- 行动能力:执行具体的任务或操作,影响环境。
- 学习能力:通过与环境的交互,不断改进策略。
简单理解:Agent=大模型+插件+工作流,分别对应控制端、感知端和执行端。
基于AI Agent的定义和特点,下面是我总结的三点落地AI Agent要面临的挑战:
一、用户业务场景
在工作场景中落地AI Agent工具或者产品,我个人认为,面临的最大挑战是发现真的对用户有价值的Workflow。如何理解这句话呢?
假设你是一名测试工程师,日常工作中绝大多数时间都围绕着需求和测试用例开展,如果你想通过AI Agent来解决你测试过程中遇到的问题,比如测试用例编写、生成测试数据、自动化测试脚本,那Agent一定要能在这些环节带来效率和准确率的提升,否则你会发现投入产出差距太大。
很多同学对Agent期望太高,想通过一个Agent来完成一个复杂的功能,但截至目前能看到的一个现象就是,单独的Agent完成一项测试任务的投入产出比,其实还不如已经建设完成的CICD流水线,甚至是已有的自动化测试任务。
如果已有的自动化流程可以完成80%的任务,那AI Agent的优势就完全不突出,你也很难说服老板,投入大量资源在AI落地方面。
一句话概括:找到真实存在痛点的场景,然后再考虑用Agent+Workflow来解决。
二、用户使用习惯
回看过去二十年,无论是PC互联网时代还是移动互联网时代,你会发现,每当出现一个全新的技术或者产品时,无论是专业的产品经理、研发工程师还是普通用户,都不一定清楚如何快速有效地使用它。
在当前的AI领域,这个现象依然存在。很多用户仍然在用原来的互联网思维,或者三年前使用ChatGPT的思维来使用Agent,在这种思维下很快你就会发现Agent存在的种种不足,主要原因有如下几点:
- AI技术落地的基础技术设施建设缺乏。
- 大多数工程师当前仍处于学习探索阶段,落地能力仍显不足。
- 业内缺乏行之有效的最佳实践案例和方法论,即使大厂也仅仅是饱和式探索。
在上述这三个因素的基础上,将AI的落地和使用经验传递给普通用户,让他们快速上手,本身就是一个很难的挑战。
当前在多数公司中,真正研究和落地AI的仍是少数人,如果对AI的认知和经验无法快速推广,则短期内很难看到AI带来的效率。
三、Agent的效率和精度
大模型的本质是是一个概率预测机器,它会根据用户输入来预测生成token,并依据已经生成的token生成下一个token。作为AI Agent的底层基础技术设施(操作系统),就会导致这样一个现象:
AI Agent需要通过多次调用模型和推理链路来保证最终输出结果的准确性,因此任务执行时间较长。而对大多数使用AI的人来说,过长的等待时间会耗尽本就不多的对AI的期待和兴趣。
从个人角度来看,AI Agent要想真正的带来超过传统IT技术的价值,真正的挑战在于产品设计、实用性以及用户(这里的用户包括普通用户和工作中使用AI Agent的人)接受度方面。
长期来说,技术问题迟早会被解决,效率和信息幻觉问题也会在很大程度上被缓解和提升,但AI产品设计和用户适应的问题,可能会长期存在。
换言之,未来AI会进一步拉开普通人的认知和能力差距,造就全新的思考和创新荒漠。与此同时,能快速跟上并掌握如何使用AI的人,会在不远的将来获得难以想象的收益。