AI在线 AI在线

端侧设备AI代理优化框架问世,领域内准确率可达97%

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]文章由NEXA AI团队联合MIT-IBM Watson AI Lab一起开发。一作Wei Chen(陈伟)是NEXA AI联合创始人,CEO兼首席科学家,斯坦福大学博士,拥有丰富的人工智

图片

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

文章由NEXA AI团队联合MIT-IBM Watson AI Lab一起开发。一作Wei Chen(陈伟)是NEXA AI联合创始人,CEO兼首席科学家,斯坦福大学博士,拥有丰富的人工智能研究经验。共同一作Zhiyuan Li(李志远)是NEXA AI联合创始人兼CTO,斯坦福大学校友,并在Google和Amazon Lab126实验室拥有多年端侧AI的一线研发经验。另外两位共同一作分别来自 MIT 和 IBM 的Zhen Guo和Yikang Shen。

AI 代理得越来越重要,能够实现自主决策和解决问题。为了有效运作,这些代理需要一个确定最佳行动方案的规划过程,然后执行计划的行动。

在本文中,我们提出了一种高效的设备端计划-行动框架,将计划和行动执行分为两个组件:一个优化用于边缘设备的计划代理,或称为 Octo-planner,以及一个使用 Octopus 模型执行函数的行动代理。Octo-planner 首先通过将任务分解为一系列子步骤来响应用户查询,然后由 Octopus 行动代理执行这些子步骤。为了优化资源受限设备上的性能,我们采用模型微调而不是上下文学习,减少计算成本和能耗,同时提高响应时间。

我们的方法包括使用 GPT-4 生成基于可用函数的多样化规划查询和响应,并进行后续验证以确保数据质量。我们在精心整理的数据集上微调 Phi-3 Mini 模型,在域内测试环境中实现了 97% 的成功率。

为了解决多域规划挑战,我们开发了一种多 LoRA 训练方法,将在不同函数子集上训练的 LoRA 权重合并。此方法在保持资源受限设备上的计算效率的同时,灵活处理复杂的多域查询。

图片

Paper:https://arxiv.org/pdf/2406.18082

Demo:https://www.nexa4ai.com/octo-planner#video

Model Page: https://huggingface.co/NexaAIDev/octopus-planning

1 介绍

图片

人工智能(AI)代理通过实现自主决策和提高操作效率显著改变了各个行业。这些代理依赖于一个关键的规划过程,该过程包括确定最佳行动方案,执行计划的行动,以及总结结果。大型语言模型(LLM)如 Gemini-Pro 和 GPT-4 在这一领域显示出潜力。

虽然这些模型在执行复杂的规划任务时面临挑战,难以达到与人类表现相当的水平,但它们在处理简单任务方面仍然有效,从而促进实际应用。一个这样的应用是来自 MultiOn、Simular AI 和 Adept AI 等公司的 AI 助手工具,它们利用 LLM 的能力在各个领域提供智能助手。

此外,消费者导向的 AI 硬件产品,如 Rabbit R1、Humane AI Pin 和 Limitless Pendant,将 LLM 集成到用户友好的设备中,使智能助手更易于访问,并推动显著的吸引力。AI 代理的成功取决于基础 LLM 的性能。使用预训练模型而未在任务示范上进行微调的代理,其成功率相对较低,从桌面应用的 12% 到移动应用的 46% 不等,而利用微调模型的代理在类似于其训练数据的任务上可实现高达 80% 的成功率。

然而,使用 LLM 的 AI 代理由于高计算需求和基础设施费用而成本高昂,限制了广泛采用。缺乏设备端 AI 代理限制了需要实时处理、离线函数或增强隐私的应用。设备端 AI 代理提供了包括降低延迟、离线操作、降低成本和改善数据安全性等优势。虽然如 Octopus V2 的行动模型在函数调用上实现了 95% 以上的准确率,但仍缺乏一个设备端规划模型。通用代理框架使用单模型上下文学习,需要在每个提示中包含冗长的函数描述和规划说明。这种方法对于上下文长度有限的设备端模型而言不切实际,导致高延迟和边缘设备上的电池消耗。

在本文中,我们介绍了 Octo-planner,一个设备端规划代理,解决了效率、适应性和资源约束的关键挑战。我们的计划 - 行动框架将计划和行动执行分为两个组件:一个优化用于边缘设备的计划代理,或称为 Octo-planner,以及一个使用 Octopus 模型执行函数的行动代理。

通过优先考虑微调而不是少样本提示,我们减少了计算成本,并最小化了键值(KV)缓存需求。我们的方法使用 GPT-4 生成和验证规划数据,然后用于微调 Phi-3 Mini 以进行设备端部署。在域内测试中表明,这种微调提高了规划成功率至 97%。为了解决多域规划挑战,我们开发了一种多 LoRA 训练方法,将在不同函数子集上训练的 LoRA 权重合并。这种方法在保持资源受限设备上的计算效率的同时,灵活处理复杂的多域查询。

通过专注于简单任务的预定义函数和利用微调,我们旨在使 AI 代理在实际应用中更加实用、可访问和经济高效。

这项工作旨在为使 AI 更加可访问和实用的持续努力做出贡献。通过弥合 AI 代理潜力与边缘计算限制之间的差距,我们希望促进智能设备端助手在各个领域的采用。通过开源我们的方法,我们希望激发设备端 AI 的进一步创新,扩展先进规划能力的应用范围。

2 相关工作

计划代理:语言模型已成为计划代理系统中的关键。OpenAI 的助手 API 等专有模型在基于用户查询和可用函数生成策略方面表现出色。最近的进展进一步扩展了语言模型在计划中的能力。ReAct 框架将计划和行动整合在有限的动作空间中,而阿里巴巴集团的研究强调了单独的计划和行动模型在复杂任务中的有效性。在机器人技术中,语言模型也越来越多地应用于任务级别的计划。值得注意的例子包括 SayCan,它使用 LLM 将高层任务分解为具体的子任务,以及视频语言计划(VLP),通过文本到视频动态模型增强了长时间计划。语言模型在计划系统中的广泛应用,从一般策略到特定的机器人任务,突显了其在各种决策过程中日益重要和适应性的地位。

微调替代长上下文:微调语言模型以内部化特定的提示或上下文信息可以减少输入长度并提高效率。这种方法包括在精心整理的特定任务数据集上训练模型。对于上下文窗口有限的模型,这种技术尤其有价值,因为它可以在不牺牲响应质量的情况下提高查询处理效率。微调的成功在很大程度上取决于使用多样化、高质量的数据集,以确保模型可以在各种提示措辞中进行概括。如果实施得当,微调可以简化特定应用的交互,解决实际部署中的上下文长度限制和计算挑战。

LoRA 和 Multi-LoRA: 低秩适应(LoRA)可以高效地将预训练语言模型适应特定任务。与微调不同,微调更新所有参数,而 LoRA 则冻结预训练权重并在每一层添加可训练的低秩矩阵,显著减少了可训练参数和计算需求。Multi-LoRA 扩展了这一概念,使多个特定任务的适配器可以训练、组合或在推理时切换,允许单一基础模型高效处理各种任务。在这些方法的基础上,研究人员开发了几种相关变体,以解决模型适应的不同方面:LoRA + 优化学习率,VeRA 使用随机投影,AdaLoRA 实现了自适应秩,DoRA 分解权重,Delta-LoRA 更新预训练权重。这些变体旨在在特定场景下进一步提高效率或性能。

3 方法

本节介绍我们用于设备端计划 - 行动代理的框架。我们首先描述计划和行动代理的集成,以实现高效的问题解决。然后详细说明我们用于规划代理的数据集设计和训练过程,包括对广泛函数的支持以及附加函数集的即插即用能力。最后,我们概述了用于评估代理性能的基准测试。

3.1 计划和行动代理框架

我们的计划 - 行动方法通过将计划和行动执行过程分为两个组件来区别于通用代理框架。这种分离提高了模块化,使每个组件的专门优化成为可能。该框架的操作如下:

计划阶段:给定用户查询 q,我们的计划模型 πplan 将任务分解为一系列子步骤。形式上:

{τ1, τ2, ..., τn} - πplan (q;F )

其中 F 是可用函数描述的集合,τi 是第 i 个执行步骤。πplan 在指令微调期间内部化 F。

行动阶段:对于执行序列中的每一步,我们采用行动模型 πaction。在步骤 i,给定当前状态的观察 Oi,行动模型执行:

Oi+1 = πaction (τi, Oi),(2)

其中 Oi+1 和 τi+1 传递给下一步以继续执行。这个迭代过程确保任务子步骤的连贯进展。

对于行动模型,我们使用专为设备端函数调用设计的 Octopus 模型。图 2 展示了我们计划 - 行动框架与单模型 LLM 代理的区别。

图片

图 2:单 LLM 代理和计划 - 行动代理框架的比较。(左)单 LLM 代理:统一模型执行任务规划和行动执行。(右)计划 - 行动代理:专门的计划模型将任务分解为子任务,而单独的行动模型依次执行每个子任务。

我们的框架模块化设计提供了几个优势:

专业化:将计划和行动执行分开,使每个模型针对其特定角色进行优化,从而提高复杂任务的性能。

可扩展性:独立扩展计划和行动能力,能高效适应不同任务的复杂性。

可解释性:显式分离阶段,提高了决策过程的透明度。

适应性:更容易将领域特定知识或约束整合到任一阶段,而无需系统范围内的变更。

3.2 计划数据集

我们的框架使用 Octopus 模型作为行动模型,只需训练计划代理。我们使用以下数据集格式微调计划代理:

图片

用于聊天模型预训练的特殊标记如 <|user|> 和 <|assistant|> 是可选的。我们设置 n 为 1-5,根据我们的发现,大多数移动应用上的任务由少于 5 步组成。数据集生成和整理过程包括:

1. 数据集收集:给定可用函数 F,我们使用大型语言模型(GPT-4)生成由这些函数回答的多样化查询。我们增加模型的温度设置以确保查询多样性。然后按指定的数据集格式生成响应。重要的是,在生成过程中使用函数描述,但在最终数据集中不包括它们。相反,计划模型在训练期间内部化此函数信息。

2. 数据验证:我们使用相同的语言模型作为验证工具来评估查询 - 响应对的正确性。尽管初始生成过程中存在一些错误,但我们发现模型有效地将生成的内容分类为有效或无效,从而使我们能够过滤出错误的输出并保持数据集质量。

下面显示了不同子步骤数量的示例数据点:

图片

有关数据集收集的可视化,请参见图 3。示例函数描述在附录 7.1 中。

图片

3.3 基准设计

我们的评估依赖于精心构建的测试数据集。该数据集旨在代表现实世界规划的复杂性,采用多阶段方法,结合自动生成、专家验证和实证测试。

过程始于使用 GPT-4 自动生成的包含 1000 个数据点的初始数据集。这些数据点然后经历严格的质量保证过程,以确保其完整性和相关性。质量评估标准如下:

每个步骤必须对应于现有函数;

步骤的顺序必须正确。

为了确保评估的可靠性,我们加入了一个额外的人工验证阶段。此阶段涉及选择一个子集示例进行端到端模型执行,从而验证结果的准确性,并对模型性能进行全面评估。

为了评估我们提出的计划模型,我们使用 GPT-4 作为 Oracle 来确定生成计划的正确性。这个选择基于经验观察,表明 GPT-4 在我们的特定用例中表现出高效。

4 实验设计

我们的实验设计评估了 Octo-planner 在设备端 AI 代理规划中的表现。我们的目标是确定在资源受限设备上部署高效、准确的规划模型的最佳配置,同时保持对新领域和函数的适应性。我们的实验主要集中在四个关键领域:

全微调与 LoRA 之间的性能和效率权衡。

Multi-LoRA 在同时处理不同函数集时的准确性。

各种基础模型和规模的性能比较。

数据集大小对准确性的影响,范围从 100 到 1000 个训练示例。

我们在精心整理的数据集上进行监督微调,使用 Phi-3 Mini 和其他一些替代品作为基础模型。训练包括全微调和 LoRA 技术。对于所有实验,我们将数据集大小设置为可用函数数量的 800 倍,并在 NVIDIA A100 GPU 上进行微调。我们在两种技术上使用优化的超参数:学习率为 5×10-6,批量大小为 4,预热比例为 0.2,训练 2 个周期。对于 LoRA,我们将 target_modules 设置为所有线性。

5 结果

5.1 全微调与 LoRA

表 1 展示了我们的计划模型在全微调和 LoRA 方法上的详细比较。我们的实验显示了这些方法在性能上的显著差异。全微调在 98.1% 的准确率上实现了最高性能,表现出优越的性能。相比之下,LoRA 的性能取决于秩大小。在秩 64 和 alpha 256 下,LoRA 达到 85.1% 的准确率,而减少到秩 16 和 alpha 32 时,准确率降至 72.9%。这些结果突显了使用 LoRA 时模型性能与计算效率之间的权衡。尽管全微调提供了更好的准确率,LoRA 在资源效率方面提供了更具吸引力的替代方案,性能取决于秩配置。

图片

                                  表 1:全微调与 LoRA 基准

5.2 多 LoRA 训练和合并

尽管基于 LoRA 的训练在特定函数集上有效,现实世界的应用通常需要处理新的或扩展的函数集。为了解决这个挑战,我们提出将每个在不同函数子集上训练的 LoRA 权重合并到同一个基础模型中的方法。这种方法创建了一个组合模型,结合了各种函数集的知识,为资源受限环境中的复杂多域查询提供了可扩展的解决方案。

为了评估此方法,我们构建了一个基准数据集,通过随机选择每个 LoRA 领域的函数并将它们组合成工作流。查询和计划由 GPT-4 生成。例如,在测试两个合并的 LoRA 时,查询可能涉及 Android 函数、电子商务函数或两者,概率相等。

以下代码块显示了我们的基准数据集中的示例查询及多 LoRA 合并模型的对应推理结果:

图片

表 2 展示了我们多 LoRA 合并技术的性能结果。每个独立的 LoRA 都使用一致的超参数进行训练:秩 64,lora_alpha 256,target_modules 设置为 “all-linear”。单域 Android 函数集 LoRA 达到 85.1% 的准确率。当合并两个域(Android 和电子商务)的 LoRA 时,准确率略降至 82.2%。进一步合并的准确率下降如下:三个域(增加视频流)的准确率为 78.9%,四个域(增加旅行)的准确率为 69.7%。这些结果揭示了随着我们整合更多函数集,准确率逐渐下降的趋势,尤其是在添加第三个域后下降更明显。

图片

                                  表 2:多 LoRA 基准

5.3 使用不同基础模型的全微调

表 3 展示了在全微调后使用不同基础模型的基准准确率。谷歌 Gemma 2b 实现了 85.6% 的准确率,而更大的 Gemma 7b 以 99.7% 的准确率表现出色。微软 Phi-3 Mini 也表现强劲,达到 98.1% 的准确率。这些结果表明我们的框架适应各种设备端 LLM,较大的模型通常实现更高的准确率。 

图片

5.4 使用不同数据集规模的全微调 

我们的默认训练数据集包含 1000 个数据点,均匀分布在 1-5 步序列中(每个 200 个),以代表不同任务的复杂性。我们研究了数据集规模对模型性能的影响,以优化函数集集成效率并解决合成数据生成成本。表 4 展示了不同训练数据集规模的基准准确率: 

结果显示数据集规模与准确率之间存在明显的相关性。完整的 1000 点数据集达到 98.1% 的准确率,而减少到 500 个数据点的准确率下降至 92.5%。进一步减少到 250 和 100 个数据点,准确率分别为 85.3% 和 78.1%。这些发现表明,为了达到最佳性能,建议使用超过 1000 个数据点的训练数据集。 

6 结论

本文介绍了 Octo-planner,一个设计用于与 Octopus V2 等行动代理协作的设备端规划代理。

通过分离计划和行动执行,我们提高了专业化和适应性。我们的方法微调了 Phi-3 Mini(一种 38 亿参数的 LLM),使其能够在边缘设备上本地运行,在域内测试中达到 97% 的成功率。我们减少了计算需求,提高了延迟和电池寿命,并实现了多 LoRA 技术,用于在不进行完全再训练的情况下扩展模型能力。Octo-planner 为解决 AI 部署问题做出了贡献,包括数据隐私、延迟和离线函数。它代表了向实用、复杂的个人设备 AI 代理的进步。

通过开源我们的模型权重,我们旨在推动设备端 AI 的创新,促进高效、尊重隐私的应用程序的开发,增强日常生活,而不影响性能或安全性。 

7. 局限性和未来工作

尽管我们的当前模型在特定的手机使用案例中表现有效,但在更广泛的适用性方面存在局限性。

与 ReAct 等框架不同,它们基于实时反馈在计划步骤和执行行动之间交替,我们的模型在前进行所有计划。这种事先计划的方法在处理简单任务方面效率较高,但在条件可能在执行过程中变化的复杂或不可预测的场景中可能不那么适应。

未来的工作将重点探索基于实时观察的迭代计划方法,改进对动态环境的适应性。我们还计划研究将我们的计划模型与多样化的行动模型集成,将其能力扩展到移动应用之外的领域,如物联网、机器人技术和智能家居系统。这些进展将解决当前的局限性,扩展我们设备端规划模型的多函数性,弥合高效、本地化 AI 处理与复杂的现实世界需求之间的差距。

相关资讯

揭开深度强化学习的神秘面纱

编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石,它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力,可以解决对于经典强化学习(RL)技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中,我们将尝试在不涉及技术细节的情况下,揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的(例如,拨动开
9/10/2021 4:16:00 PM
ScienceAI

Agent不是被卡住了,其实在思考

在与用户进行自然对话时,智能体承担着两大核心任务:一是流畅的对话交流,二是精准的推理与规划。 智能体必须整合所有可用信息以作出回应,同时确保其行为始终围绕既定目标展开。 基于人类“快速思考”和“慢速思考”的认知系统灵感,丹尼尔·卡尼曼提出了一个全新的架构Talker-Reasoner,旨在模拟人类的这两种思维模式。
11/7/2024 8:28:53 AM
哎呀AIYA

想要开发AI代理?首先,你需要了解这些

出品 | 51CTO技术栈(微信号:blog51cto)如何理解AI代理,它们如何工作? 想象一下开发一个生成式AI时代的API。 这个API将支持自然语言输入,利用大型语言模型的智能,通过与SaaS和企业系统的集成来自动化决策,并通过连接到其他生成式AI支持的API来实现业务流程编排。
2/8/2025 10:29:03 AM

OpenAI 最近悄无声息地推出了另一个代理框架,说实话,这玩意儿有点酷

老实说,我们早就习惯了 OpenAI 夸大承诺、交付平平的套路。 记得当年他们推出 Sora 时,夸下海口称这技术会让好莱坞彻底颠覆,用户只需对 Netflix 描述想看的内容,一部完整的电视剧便能在 11 分半钟内生成。 结果自然没能兑现那些狂言。
2/11/2025 8:27:11 AM
dev

15 个在2025 实现AI 代理商业创意

AI 肯定会成为未来……2025 年最大的商业机会肯定是 AI 代理。 如果您希望构建一些有利可图的东西,那么这就是您的好机会。 实际上,AI 代理是自主应用程序,我们知道它可以为您处理任务——节省时间、精力和金钱。
2/13/2025 10:39:23 AM
佚名

打破AI遗忘诅咒的学习算法,慕尼黑-南大团队打造会自主积累知识的学习框架

编辑丨&人类可以在一生中不断积累知识并发展越来越复杂的行为和技能,这种能力被称为「终身学习」。 这种终身学习能力被认为是构成一般智能的基本机制,但人工智能的最新进展主要在狭窄的专业领域表现出色,对于这种终身学习能力显得有些缺乏。 慕尼黑大学与南京大学的研究团队联手打造了一款机器人终身强化学习框架,它通过开发一个受贝叶斯非参数域启发的知识空间来解决这一差距。
2/17/2025 2:58:00 PM
ScienceAI

副业要赚翻?这六款 AI 代理简直像开挂

AI 代理(AI Agents)能够让繁琐的人工工作实现高度自动化,而且速度快、准确度高。 它们在写代码、做营销、创作视频以及其他创意或业务领域都越来越出色。 如果现在还不使用 AI 代理,可能很快就会落后。
3/3/2025 8:10:00 AM
dev

Adobe 联合高校推出 METAL 框架:多智能体协作生成精准图表

在当今数据可视化领域,生成准确反映复杂数据的图表仍然是一项微妙的挑战。 图表不仅需要捕捉精确的布局、色彩和文本位置,还需将这些视觉细节转化为代码,以重现预期的设计。 然而,传统方法通常依赖于直接提示视觉 - 语言模型(VLM),如 GPT-4V,这在将复杂视觉元素转化为语法正确的 Python 代码时,常常遇到困难。
3/3/2025 2:33:00 PM
AI在线

亚马逊重磅出击,成立智能代理 AI 团队

根据路透社的报道,亚马逊最近在其云计算部门 AWS 内部成立了一个新的团队,专注于开发智能代理 AI。 这种系统旨在帮助用户自动化生活中的某些任务,从而提高效率和便利性。 AWS 的首席执行官马特・加尔曼在一封发给员工的邮件中表示,智能代理 AI 有潜力成为 AWS 下一个数十亿美元的业务。
3/5/2025 9:34:00 AM
AI在线

PayPal 推出智能代理工具包,助力AI与支付API无缝连接

PayPal 近日发布了全新的智能代理工具包(Agent Toolkit),旨在帮助开发者将 PayPal 的 API 套件与人工智能(AI)框架结合起来。 通过采用模型上下文协议(Model Context Protocol,简称 MCP),这一工具包为支付、发票、纠纷、发货追踪、目录管理、订阅和分析等功能提供了便捷的 API 接入。 MCP 是一项由 Anthropic 提出的标准,旨在规范智能代理如何访问第三方服务和数据源。
4/29/2025 3:00:40 PM
AI在线

信用卡巨头 Visa 押注 AI 代理:未来 AI 将自主管理你的消费

信用卡巨头 Visa 正式进军人工智能代理领域。 该公司周三宣布,将与包括 OpenAI、微软和 Anthropic 在内的多家领先人工智能开发商合作,将其庞大的支付网络与他们的人工智能系统连接起来。 这项名为“Visa 智能商务”的计划旨在让自主人工智能模型(即“代理”)能够根据用户的预算和偏好,自主完成从食品杂货到服装等各种商品的购买。
5/6/2025 10:01:19 AM
AI在线

未来两年,AI Agent 部署将增长 327%

据最新的 Salesforce 全球调研显示,全球人力资源高管(CHRO)计划在未来两年内大幅扩展数字劳动力,特别是人工智能(AI)代理的部署,以提升生产力。 这项研究对200名全球人力资源高管进行了调查,结果显示,他们一致认为 AI 代理将深刻改变组织结构。 图源备注:图片由AI生成,图片授权服务商Midjourney调研结果指出,77% 的受访者相信,AI 代理将成为未来劳动力的重要组成部分。
5/6/2025 11:00:51 AM
AI在线

IBM 首席执行官进军人工智能市场并加大美国投资

在最近的一次采访中,IBM 首席执行官阿尔温德・克里希纳(Arvind Krishna)表示,随着人工智能(AI)市场竞争的加剧,IBM 正计划通过提供能够整合客户使用的不同 AI 代理的工具,来提升其在该领域的销售。 这些工具将帮助客户管理他们在关键业务应用中的一系列 AI 代理,主要包括 Salesforce、Workday 和 Adobe 等公司的产品。 克里希纳指出,IBM 将助力客户构建适合未开发用例的 AI 代理,客户只需在五分钟内完成创建。
5/6/2025 6:00:51 PM
AI在线

Parloa融资1.2亿美元,市值突破10亿美元,欲扩展企业AI客服平台

近日,客户体验领域的创新公司 Parloa GmbH 宣布成功融资1.2亿美元,使其估值达到10亿美元。 这笔新资金将用于加速公司在北美和欧洲的扩张,增强其人工智能代理管理平台,并招聘国际人才。 自2018年成立以来,Parloa 专注于为企业提供 AI 驱动的客户服务解决方案。
5/7/2025 3:00:44 PM
AI在线

Agent-as-a-Judge:用AI智能体来评估AI智能体的工作 节省97% 的时间

在当前人工智能的迅猛发展中,评估智能代理的能力成为了一个重要课题。 为此,Agent-as-a-Judge(代理法官)项目应运而生,它不仅是一个技术库,更是一种全新的评估理念。 该项目旨在通过智能代理对其他代理的工作进行评判,以生成高质量的数据集,并推动跨领域的研究。
5/7/2025 6:00:54 PM
AI在线

微软采用谷歌的A2A标准,连接AI代理

微软宣布将支持 Google 推出的开放协议 ——Agent2Agent (A2A) 标准,旨在促进人工智能(AI)代理之间的相互通信。 通过这一协议,微软计划在其两个 AI 开发平台 Azure AI Foundry 和 C o p i l o t Studio 中引入 A2A 的支持,同时加入 GitHub 上的 A2A 工作组,积极参与协议的制定和工具的开发。 图源备注:图片由AI生成,图片授权服务商Midjourney在一篇博客文章中,微软表示:“通过支持 A2A 并基于我们的开放式编排平台进行构建,我们正在为下一代软件奠定基础,这些软件在设计上具备协作性、可观察性和自适应性。
5/8/2025 9:00:44 AM
AI在线

WisdomAI 斥资2300万美元推出创新商业智能平台,重塑企业数据洞察 ​

WisdomAI 近日正式发布,并获得了230万美元的融资,由 Coatue Ventures 领投,Madrona、GTM Capital 和 The Anthology Fund 参与。 WisdomAI 的目标是解决传统商业智能工具的局限性,推出了首个 Agentic 数据洞察平台,帮助企业从分散的数据生态系统中获取主动、上下文相关且即时的洞察。 许多财富100强企业,如思科和康菲石油,已经开始使用 WisdomAI,挖掘那些被数据孤岛掩埋、延迟在仪表盘上或卡在过时报告系统中的深层洞察。
5/8/2025 5:00:57 PM
AI在线

疯狂更新!Cursor年内放大招!强势推出后台多代理并行!顺利飞升真·多项目高效协作神器!统一简单定价!网友:下一个级别的产品

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)12个小时前,Cursor给出了一波有力的回击! 简化定价逻辑、后台并行代理、多代码库工作区、聊天markdown导出、新Tab模型……这波 Cursor 0.50的更新,堪称年内最重磅。 要问AI编码产品如何演进?
5/11/2025 11:33:49 PM
云昭
  • 1