AI在线 AI在线

智能体式推理与工具集成:ARTIST 基于强化学习的新思路

大家好,我是肆〇柒。 这两天,我看到一篇论文《Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning》讲述的是ARTIST 框架,为 LLM 赋予智能体式推理与工具集成的全新维度。 今天,就一起了解一下这个 ARTIST 框架,看看 LLM 如何借助强化学习突破局限,开启智能体式推理与工具集成。

智能体式推理与工具集成:ARTIST 基于强化学习的新思路

大家好,我是肆〇柒。这两天,我看到一篇论文《Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning》讲述的是ARTIST 框架,为 LLM 赋予智能体式推理与工具集成的全新维度。今天,就一起了解一下这个 ARTIST 框架,看看 LLM 如何借助强化学习突破局限,开启智能体式推理与工具集成。

背景介绍

在AI 领域,LLM 凭借强大的语言理解和生成能力,为我们的生活和工作带来了前所未有的便利。然而,随着应用场景的不断拓展,LLM 的局限性也逐渐显现。它们依赖于静态的内部知识库,仅能进行基于文本的推理,这使得在处理复杂现实问题时,常常显得力不从心。

例如,在解决复杂数学问题时,模型可能需要调用外部数学库进行高精度计算;在规划旅行路线时,可能需要实时查询航班信息并预订酒店;在处理多轮对话任务时,需要精准地维护对话状态,灵活地调用各种函数。这些需求,对传统 LLM 来说,无疑是一道难题。

为解决这个问题,研究者提出了 ARTIST 框架。它巧妙地将智能体式推理、强化学习和工具集成深度融合,使模型在多轮推理过程中能够自主决策工具调用的时机、方式与种类。通过这种方式,ARTIST 为 LLM 赋予了更加灵动、智慧的大脑,使其在复杂现实任务中能够游刃有余,从而推动人工智能从单纯的语言理解与生成向真正的智能决策与执行迈进。

ARTIST 框架概述

核心概念

ARTIST 框架的核心理念,是让 LLM 走出文本推理的舒适区,学会与外部工具和环境互动。在多轮推理链中,模型不再是机械地生成文本,而是像一位机智的指挥官,根据任务需求,实时判断是否需要调用工具,以及调用何种工具。例如,在解决一道高难度数学物理问题时,模型可能会先进行几轮文本推理,分解问题;随后意识到需要进行符号计算,便调用 Python 解释器,借助 SymPy 库完成复杂积分运算;得到结果后,再次回到文本推理,整合信息,最终输出完美的答案。

这种智能体式推理与工具集成的结合,使模型能够突破内部知识的局限,借助外部工具的力量,解决更为复杂的问题。它不仅提升了模型的推理能力,还拓展了其应用场景。

架构组成

ARTIST 的架构各部分紧密相连,协同运作。

策略模型作为智慧核心,负责生成推理轨迹,决定工具调用策略。它通过不断的训练和优化,学会了如何在复杂的任务中,精准地选择合适的工具,并在合适的时机调用它们。

任务是驱动整个推理过程的引擎,明确模型需要解决的问题。它为模型提供了目标方向,使模型的推理和工具调用都有据可依。

工具和环境则是左膀右臂,为模型提供丰富的外部功能支持和实时信息反馈。工具可以是数学计算库、网页浏览器、文件操作 API 等各种软件资源;环境则可以是操作系统界面、网页 Arena 等交互式平台。通过与工具和环境的交互,模型能够获取最新的信息,执行复杂的操作,从而完成任务。

动作代表着模型在推理过程中的具体操作,包括文本生成和工具调用。模型通过动作,与外部世界进行交流和互动,推动任务的进展。

观察则是模型从环境中获取的反馈信息,用于调整后续推理方向。这些反馈信息可以是工具的输出结果、环境的状态变化等,它们为模型提供了宝贵的外部信息,帮助模型更好地理解和解决问题。

推理是贯穿整个过程的主线,体现模型对问题的逐步理解和解决思路。在推理过程中,模型不断地整合内部知识和外部信息,逐步深入,直至找到问题的解决方案。

答案是推理的结晶,是模型对任务的最终回应。它是模型智慧的体现,是整个推理过程的成果。

奖励机制则是引导模型不断优化推理策略的灯塔。根据任务完成情况给予正负反馈,激励模型向正确的方向前进。例如,当模型成功解决了问题,并且工具调用准确无误,同时推理过程深入透彻,那么它将获得丰厚的奖励;反之,如果任务失败或者工具调用出现错误,模型将受到惩罚。通过这种方式,模型在不断的试错中,逐渐学会了如何更好地解决问题。

图片

ARTIST 框架

如上图所示,ARTIST 架构通过交织基于文本的思考、工具查询和工具输出,实现了推理、工具使用和环境交互的动态协调。这种架构使得模型能够在统一的框架内,灵活地调用工具和环境,从而增强其解决复杂问题的能力。

方法论

强化学习算法

在强化学习算法中,Group Relative Policy Optimization(GRPO)算法以其独特的优势脱颖而出,成为 ARTIST 框架的算法基石。GRPO 算法巧妙的地方在于它摒弃了传统强化学习算法对价值函数近似的依赖。在 PPO 等传统算法中,价值函数近似常常引入额外的复杂性和误差,而 GRPO 通过从一组样本响应中估计基线,巧妙地简化了优化过程。它直接利用群体相对奖励信号来优化策略模型,让模型在群体智慧的指引下,更快、更精准地找到最优策略。

GRPO 算法通过以下步骤实现:

    智能体式推理与工具集成:ARTIST 基于强化学习的新思路

    GRPO 算法相较于传统强化学习算法的优势在于,它通过群体相对奖励信号进行优化,避免了价值函数近似的复杂性和误差。同时,它能够更加有效地利用样本信息,提高优化的稳定性和收敛速度。在 ARTIST 框架中,GRPO 算法为模型的训练提供了强大的支持,使得模型能够在复杂的任务中快速学习和优化,不断提升推理能力和工具调用策略。

    策略模型训练

    策略模型训练是 ARTIST 框架中的关键环节,每一个步骤都精心设计,环环相扣。

    首先,采样策略从旧策略中采样推理轨迹。在训练过程中,对于每个问题,从旧策略模型中采样多个推理轨迹,形成一个小组。这些轨迹包括模型在不同状态下的动作选择、工具调用情况以及最终的任务完成结果。采样过程中,引入一定的随机性,确保探索的多样性和稳定性。例如,通过设置不同的采样温度参数,可以控制采样结果的随机程度。较高的温度参数会使采样结果更加随机,有助于模型探索更多的可能性;较低的温度参数则使采样结果更加集中于高概率的动作,有助于模型稳定地优化现有策略。

    然后,在生成推理轨迹时,模型在文本推理和工具调用之间灵活切换。模型首先根据当前问题的描述和已有的信息,进行文本推理,生成一段自然语言的推理文本。然后,模型根据推理文本的内容,判断是否需要调用外部工具。如果需要调用工具,模型会生成一个工具调用指令,包括工具的名称、输入参数等信息。工具执行后,返回结果,模型将工具结果整合到推理文本中,继续进行后续的推理。这个过程不断重复,直到模型认为任务完成或者达到预设的最大推理步数。例如,在解决一个数学问题时,模型可能先通过文本推理,将问题分解为几个关键步骤,然后调用 Python 解释器,利用 SymPy 库执行符号计算,得到结果后,再次回到文本推理,整合信息,最终输出完整的答案。

    奖励计算则综合考虑任务完成情况、工具调用成功率、推理深度等多个维度,构建出一个多维度的评价体系。任务完成情况的奖励根据模型最终是否正确解决了问题来判断。如果模型成功解决了问题,给予较高的正奖励;如果未解决,给予负奖励。工具调用成功率的奖励根据模型调用工具的次数和成功次数来计算。例如,模型调用了 N 次工具,成功 M 次,那么工具调用成功率的奖励可以表示为:

    智能体式推理与工具集成:ARTIST 基于强化学习的新思路

    最后,模型通过损失掩蔽策略进行更新,聚焦于自身推理和决策部分,避免被工具响应中的噪声干扰。在更新模型参数时,采用损失掩蔽策略,只对模型生成的文本推理部分和工具调用指令部分计算损失,而对工具返回的结果部分进行掩蔽,不计算损失。这样做的目的是让模型专注于自身的推理和决策过程,避免受到工具响应中的噪声干扰。例如,假设模型生成的推理轨迹为:

    复制
    <reasoning>推理文本</reasoning>
    <tool>工具调用指令</tool>
    <output>工具返回结果</output>

    在计算损失时,只对 <reasoning> 和 <tool> 部分计算损失,对 <output> 部分进行掩蔽。通过这种方式,模型能够更加专注于自身的推理和决策过程,不断提升自身的性能。

    图片

    ARTIST 方法概述

    如上图所示,ARTIST 方法论概述了推理过程如何在内部思考、工具使用和环境交互之间交替进行,通过基于结果的奖励引导学习。这种机制使模型能够通过强化学习不断迭代地优化其推理和工具使用策略。

    实验评估

    实验设置

    为了全面评估 ARTIST 框架的性能,实验涵盖了复杂数学问题求解和多轮函数调用两大领域。在复杂数学问题求解方面,精选了 MATH-500、AIME、AMC 和 Olympiad Bench 等多个权威数学基准测试作为评估数据集。这些问题从基础数学运算到高级数学竞赛题目,难度跨度大,全面覆盖数学推理的各个层面。例如,MATH-500 数据集包含 500 道具有一定难度的数学问题,涵盖了代数、几何、概率等多个数学分支;AIME 和 AMC 数据集则是针对美国高中数学竞赛的题目,难度较高,需要较强的数学推理和解题能力;Olympiad Bench 数据集更是包含了国际数学奥林匹克竞赛级别的高难度题目,对模型的推理能力和工具调用策略提出了极高的要求。

    多轮函数调用实验则选择了 BFCL v3 和 τ-bench 两个基准测试。BFCL v3 包含车辆控制、旅行预订、文件操作等多个场景,充分考验模型在长对话中的工具调用和状态维护能力。例如,在车辆控制场景中,模型需要根据用户的指令,调用车辆控制 API,实现车辆的启动、加速、刹车等操作;在旅行预订场景中,模型需要调用旅行预订 API,查询航班信息、预订酒店和租车服务,并根据用户的反馈进行调整。τ-bench 模拟航空和零售领域的真实对话,要求模型在与用户的多轮交互中,准确理解用户意图,调用相应的函数,完成任务目标。例如,在航空领域,模型需要根据用户的行程信息,查询航班状态、办理登机手续、查询行李托运信息等;在零售领域,模型需要根据用户的购物需求,查询商品信息、下单购买、查询订单状态等。

    评估指标以 Pass@1 准确率为主,直观反映模型一次性解决问题的能力。Pass@1 准确率是指模型在第一次尝试中给出正确答案的概率,它能够很好地衡量模型在实际应用中的性能。例如,在数学问题求解中,Pass@1 准确率反映了模型一次性给出正确答案的能力;在多轮函数调用中,Pass@1 准确率反映了模型在第一次尝试中完成任务的能力。

    实验中,Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 模型分别上阵,训练超参数经过精心调试。例如,学习率设置为 (10^{-6}),使用 Adam 优化器,β1 = 0.9,β2 = 0.99,权重衰减为 0.01。每批次采样 6 个推理轨迹进行训练,训练步数根据模型规模和任务难度进行调整。硬件配置也满足大规模训练需求,确保实验结果的可靠性。例如,在复杂数学问题求解实验中,使用 4 块 A100 80 GB GPU 进行训练,总训练时间为 20 小时;在多轮函数调用实验中,使用 3 块 A100 80 GB GPU 进行训练,总训练时间为 34 小时。

    实验结果与分析

    复杂数学推理

    在复杂数学推理领域,ARTIST 模型的表现也令人兴奋。以 Qwen2.5-7B-Instruct 模型为例,在 AMC 数据集上,ARTIST 的准确率达到了 0.47,相较于基线模型的 0.35 提升了整整 12.0%。这一显著的提升充分彰显了 ARTIST 在处理复杂组合概率问题和多步数学推导时的强大优势。例如,在解决一个复杂的概率问题时,模型需要先通过文本推理,将问题分解为多个条件概率的计算,然后调用 Python 解释器,利用 SymPy 库进行精确的符号计算。在得到初步结果后,模型再次回到文本推理,结合工具输出结果,对问题进行进一步分析和验证。如果发现结果有误,模型会自我修正,重新调用工具,调整计算参数,直至得到正确的答案。这种自我修正能力使得模型在面对复杂问题时能够不断优化自己的推理策略,最终找到正确的解决方案。

    在更具挑战性的 Olympiad Bench 数据集上,Qwen2.5-14B-ARTIST 的准确率达到了 0.42,不仅大幅超越了 Qwen2.5-14B-Instruct 基线模型的 0.24,更是以 18.0% 的绝对优势领先于 GPT-4o 的 0.29。这表明,通过强化学习驱动的工具调用,ARTIST 能够在复杂数学问题求解中实现更精准、更高效的推理。例如,在解决一个高难度的数学竞赛题目时,模型需要进行多步复杂的推理和计算。它通过调用外部工具,如 Python 解释器和数学计算库,进行精确的符号计算和数值计算,从而得到准确的结果。同时,模型还能够根据任务的复杂程度,动态调整推理深度和工具调用策略,确保在有限的计算资源下,实现最优的推理效果。

    在 MATH-500 数据集上,虽然问题难度相对较低,但 ARTIST 依然展现出了稳健的性能。Qwen2.5-7B-ARTIST 的准确率为 0.676,较基线模型提升了 5.6%,而 Qwen2.5-14B-ARTIST 的准确率更是达到了 0.726,相较于基线模型的 0.7 提升了 2.6%。这说明,即使在对模型内部知识要求较高的情况下,ARTIST 依然能够通过工具调用和强化学习优化推理过程,实现性能提升。例如,在解决一个基础数学运算问题时,模型虽然主要依赖内部知识进行推理,但也会在必要时调用外部工具进行验证和优化,从而确保推理结果的准确性。

    图片

    在四个数学推理基准测试中的Pass@1准确率。ARTIST始终优于所有基线模型,尤其是在复杂任务

    如上表所示,ARTIST 在四个数学推理基准测试中的 Pass@1 准确率表现优异,尤其是在复杂的 AMC、AIME 和 Olympiad 数据集上,显著优于所有基线模型。

    图片

    Qwen2.5-7B-Instruct:在数学数据集上的表现

    如上图所示,Qwen2.5-7B-Instruct 模型在数学数据集上的性能表现,清晰地展示了 ARTIST 在不同难度任务上的优势。

    图片

    Qwen2.5-14B-Instruct: 在数学数据集上的表现

    如上图所示,Qwen2.5-14B-Instruct 模型在数学数据集上的性能表现,进一步证明了 ARTIST 在处理复杂数学问题时的强大能力。

    图片

    在所有数学数据集上的平均奖励分数、工具调用以及响应长度指标(ARTIST与Base-Prompt+Tools对比)

    如上图所示,ARTIST 在所有数学数据集上的平均奖励分数、工具调用次数和响应长度指标表现,与基线模型 Base-Prompt+Tools 相比,ARTIST 在奖励分数和工具调用次数上显著优于基线模型,同时在响应长度上也表现出更深入的推理过程。

    多轮函数调用

    在多轮函数调用领域,ARTIST 的表现同样优秀。在 BFCL v3 的 Long Context 子任务中,Qwen2.5-7B-ARTIST 的准确率达到了 0.13,相较于基线模型的 0.04 提升了 9.0%。这一显著的提升充分展示了 ARTIST 在处理长对话和复杂场景时的卓越能力。例如,在一个长对话的车辆控制场景中,模型需要根据用户的多轮指令,调用车辆控制 API,实现车辆的启动、加速、刹车等操作。在这个过程中,模型需要精准地维护对话状态,理解用户的意图,并根据实时反馈调整操作策略。ARTIST 通过强化学习训练,学会了在多轮交互中灵活调用工具,高效地完成任务。

    在 τ-bench 的 Airline 和 Retail 子任务中,ARTIST 的准确率分别达到了 0.26 和 0.24,相较于基线模型的 0.12 和 0.18,分别提升了 140% 和 33.3%。这表明,ARTIST 能够在多轮交互中精准地维护状态,灵活地调用工具,并有效地恢复错误,从而实现高效的对话管理和任务完成。例如,在航空领域的对话中,模型需要根据用户的行程信息,查询航班状态、办理登机手续、查询行李托运信息等。在这个过程中,模型可能会遇到各种意外情况,如航班延误、行李超重等。ARTIST 能够根据实时反馈,灵活调整策略,调用相应的函数,解决这些问题,确保任务的顺利完成。

    与 Meta-Llama-3-70B 等前沿模型相比,ARTIST 在 BFCL v3 的 Long Context 子任务上也展现出了强大的竞争力,准确率超过了 Meta-Llama-3-70B 的 0.095。在 τ-bench 的 Airline 子任务上,ARTIST 的准确率更是达到了 0.26,是 Meta-Llama-3-70B 的两倍。这充分证明了 ARTIST 在多轮函数调用任务中的高效性和准确性。例如,在一个复杂的旅行预订场景中,模型需要根据用户的需求,调用多个旅行预订 API,查询航班信息、预订酒店和租车服务,并根据用户的反馈进行调整。在这个过程中,模型需要精准地维护对话状态,灵活地调用工具,并有效地恢复错误。ARTIST 通过强化学习训练,学会了在多轮交互中灵活调用工具,高效地完成任务,展现了强大的竞争力。

    图片

    在五个多轮多步函数调用基准测试中,Pass@1 准确率的表现情况。ARTIST 一致优于基线模型,尤其是在复杂任务上

    如上表所示,ARTIST 在五个多轮多步函数调用基准测试中的 Pass@1 准确率表现优异,尤其是在复杂的 Long Context、Airline 和 Retail 数据集上,显著优于所有基线模型。

    图片

    Qwen2.5-7B-Instruct:在τ-bench和BFCL v3数据集上的多轮函数调用性能

    如上图所示,Qwen2.5-7B-Instruct 模型在 τ-bench 和 BFCL v3 数据集上的性能表现,清晰地展示了 ARTIST 在多轮函数调用任务中的优势。

    图片

    不同训练阶段BFCL v3的平均奖励得分

    如上图所示,ARTIST 在 BFCL v3 数据集上不同训练步骤的平均奖励分数表现,展示了模型在训练过程中的学习曲线和性能提升。

    图片

    在τ -bench上对多轮函数调用的指标分析

    如上图所示,ARTIST 在 τ-bench 数据集上的多轮函数调用指标分析,包括推理长度、工具调用次数和任务完成步数等,进一步证明了 ARTIST 在多轮交互任务中的高效性和准确性。

    案例研究

    复杂数学推理案例

    下面通过一个具体的复杂数学推理案例来深入剖析 ARTIST 的推理过程。假设任务是求解一个复杂的积分问题,模型首先通过文本推理,将问题分解为几个关键步骤。例如,问题是一个定积分的计算,模型通过文本推理,确定需要计算积分的上下限和被积函数。接着,它调用 Python 解释器,利用 SymPy 库执行符号计算。在调用工具时,模型生成如下工具调用指令:

    复制
    from sympy import symbols, integrate
    
    x = symbols('x')
    result = integrate(x**2 + 1, (x, 0, 1))
    print(result)

    工具执行后返回结果 ,模型将这个结果整合到推理文本中,继续进行后续的推理。如果发现结果与预期不符,模型会自我修正,重新调用工具,调整计算参数。例如,如果模型发现被积函数可能有误,它会重新生成工具调用指令,修正被积函数,再次调用工具。这种自我修正能力使得模型在面对复杂问题时能够不断优化自己的推理策略,最终找到正确的解决方案。 

    在这个过程中,ARTIST 展现出了自我精炼、自我修正和自我反思的智能体行为。例如,当模型发现初始调用工具得到的结果与预期不符时,它会仔细检查推理过程,找出问题所在,然后调整策略,重新调用工具。这种自我修正能力使得模型在面对复杂问题时能够不断优化自己的推理策略,最终找到正确的解决方案。

    多轮函数调用案例

    在多轮函数调用案例中,假设任务是为用户规划一次旅行,包括预订机票、酒店和租车服务。ARTIST 首先通过文本推理,理解用户的需求和偏好。例如,用户希望从北京出发,前往上海,行程为 3 天,预算为 5000 元。模型根据这些信息,调用航班查询工具,获取符合用户要求的航班信息。工具调用指令如下:

    复制
    {
      "function":"search_flights",
    "args":{
        "departure":"北京",
        "destination":"上海",
        "departure_date":"2024-06-01",
        "return_date":"2024-06-03",
        "budget":5000
    }
    }

    工具返回多个航班选项,模型根据用户的偏好,选择一个合适的航班,并继续推理。接着,模型调用酒店预订工具,根据用户的预算和偏好,为用户推荐合适的酒店。工具调用指令如下:

    复制
    {
      "function":"book_hotel",
    "args":{
        "city":"上海",
        "check_in_date":"2024-06-01",
        "check_out_date":"2024-06-03",
        "budget":3000,
        "preferences":["靠近市中心","有免费早餐"]
    }
    }

    工具返回酒店预订成功的信息后,模型调用租车服务工具,为用户安排租车事宜。工具调用指令如下:

    复制
    {
      "function":"rent_car",
    "args":{
        "city":"上海",
        "pick_up_date":"2024-06-01",
        "return_date":"2024-06-03",
        "budget":1000
    }
    }

    在整个过程中,模型不断地与用户进行交互,根据用户的反馈调整计划。如果在某个环节出现问题,例如航班信息不准确或酒店预订失败,模型能够迅速恢复错误,重新调用工具,寻找替代方案。通过强化学习,ARTIST 学会了在多轮交互中灵活调用工具,高效地完成复杂任务。

    总结

    ARTIST 框架通过将智能体式推理、强化学习和工具集成紧密结合,成功地解决了 LLM 在处理现实问题时的局限性。ARTIST 不仅提出了一个统一的智能体式 RL 框架,还实现了通用的工具使用和环境交互,并在多个领域和任务中进行了有效的评估。这一创新思路为 LLM 其能够更好地适应复杂多变的现实世界需求。

    在实验中,ARTIST 在复杂数学问题求解和多轮函数调用任务中均展现出了卓越的性能。在数学推理方面,它能够精准地调用外部工具,进行高精度计算,从而在高难度任务中取得显著优势。例如,在 Olympiad Bench 数据集上,Qwen2.5-14B-ARTIST 的准确率达到了 0.42,大幅领先于基线模型和前沿模型 GPT-4o。在多轮函数调用任务中,ARTIST 凭借其强大的状态维护和错误恢复能力,高效地完成了复杂任务。例如,在 τ-bench 的 Airline 子任务中,ARTIST 的准确率达到了 0.26,是 Meta-Llama-3-70B 的两倍。这些实验结果充分证明了 ARTIST 在处理复杂任务时的高效性和准确性,为实际应用提供了有力的支持。

    尽管 ARTIST 取得了显著的成果,但仍然存在一些局限性。例如,在某些复杂场景下,模型的性能仍有提升空间。特别是在面对高度动态和不确定性的任务时,模型的决策过程可能会受到干扰,导致性能下降。还有,对特定工具的依赖可能导致兼容性问题。如果外部工具的接口或功能发生变化,模型可能需要重新调整和优化。将来可以优化算法,提高模型的泛化能力,拓展工具集成的范围和灵活性,从而进一步提升 ARTIST 的性能。例如,可以通过引入更多的训练数据和更复杂的任务场景,增强模型的适应能力;同时,开发更加通用的工具接口,减少对特定工具的依赖,提高模型的鲁棒性。

    现在我们构想一下现实中可能的应用场景。我们可以将它扩展到医疗、金融等更多样化的领域,整合更丰富的反馈形式,如人类偏好,以提升模型的决策质量。例如,在医疗领域,模型可以通过调用医学知识库和诊断工具,为患者提供个性化的治疗方案;在金融领域,模型可以通过调用金融数据分析工具,为投资者提供精准的投资建议。同时,解决开放环境中所面临的安全性和可靠性问题也是未来工作的重点。ARTIST 框架不仅为大型语言模型的发展提供了新的思路和方法,还可以通过智能体式推理与工具集成,模型能够更加灵活地应对各种挑战。嗯,最后我还想说,一路从 2023 年走过来的 AIer,尤其是玩开源模型的各位同学,看过这篇文章会不会回忆起那时候 finetune 方式的 Agent 模型?此刻,我回忆起那时候的训练过程时,让我感受到,现在这篇论文的做法其实是一个进化版,区别在于,过去的方法主要是 finetune,而现在是 RL。

    相关资讯

    MARFT:多智能体协作与强化学习微调的协同进化

    大家好,我是肆〇柒。 今天,继续 RL 相关话题,我们来探讨一个在人工智能领域极具应用潜力的话题 —— Multi-Agent Reinforcement Fine-Tuning(MARFT)。 这个概念融合了大型语言模型(LLM)、多智能体系统(LaMAS)和强化学习(RL)的精华,为解决复杂任务提供了全新的视角和方法论。
    6/3/2025 6:12:03 AM
    肆零柒

    OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!

    王鸿儒目前就读于香港中文大学博士四年级 (预计今年7月毕业),导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌学术引用超600次,NeurIPS Area Chair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL 2024@SIGHAN 最佳论文奖,WWW2024 Online Safety Prize Challenge冠军等多项荣誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手,可以自主进行推理,与环境进行交互并获取环境以及人类反馈,从而最终完成给定的任务,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。 强化学习(Reinforcement Learning)被认为是当下最具想象力、最适合用于 Agent 自主学习的算法。
    5/7/2025 1:47:43 PM
    机器之心

    慢思考助力医学大语言模型突破数据瓶颈:上海交大联合上海AI Lab推出MedS3系统

    编辑 | ScienceAIOpenAI o1、DeepSeek R1 等模型成功实现了在数学、编程等领域的智能慢思考推理,通过自我反思和修正实现了运行时的性能外推。 然而,在医疗领域,仍然很少有模型可以实现具有长链慢思考的推理。 目前医疗领域的推理模型大多是通过在医疗考试题上对 OpenAI 系列的模型进行蒸馏,并没有考虑推理过程的可验证性,以及医疗任务的覆盖度。
    2/21/2025 4:04:00 PM
    ScienceAI
    • 1