AI在线 AI在线

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

大家好,我是肆〇柒。 今天我们来看一项来自清华大学和北京邮电大学联合研究团队的工作——STOCKBENCH。 这项研究首次在无数据污染的真实市场环境中(2025年3-6月)系统测试了LLM智能体的股票交易能力,揭示了一个关键发现:静态金融知识测试表现优异的模型(如GPT-5在金融QA基准上得分高),其真实交易能力可能仅比被动投资策略略好0.3%回报率。

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

大家好,我是肆〇柒。今天我们来看一项来自清华大学和北京邮电大学联合研究团队的工作——STOCKBENCH。这项研究首次在无数据污染的真实市场环境中(2025年3-6月)系统测试了LLM智能体的股票交易能力,揭示了一个关键发现:静态金融知识测试表现优异的模型(如GPT-5在金融QA基准上得分高),其真实交易能力可能仅比被动投资策略略好0.3%回报率。这一发现对金融AI应用具有重要启示。

假设将10万元交给AI智能体进行股票投资,一年后它能跑赢市场吗?对算法工程师而言,这关乎模型能力边界;对投资决策者来说,这直接关系到真金白银的收益。随着大语言模型(LLM)展现出日益强大的自主代理能力,这一问题变得愈发现实。STOCKBENCH的出现填补了关键空白——通过在真实市场环境中测试LLM智能体的交易表现,揭示了一个惊人事实:在金融QA基准上表现优异的模型,如GPT-5,其真实交易能力可能仅比被动投资策略略好。这一发现不仅挑战了行业对LLM金融能力的普遍认知,更为金融AI应用提供了科学评估基础,对行业实践具有直接指导意义。

为什么我们需要全新的金融评估基准?

现有金融评估基准存在一个致命缺陷:它们测试的不是预测能力,而是记忆能力。FinQA、ConvFinQA等基准主要通过问答形式测试LLM的金融知识覆盖范围,但无法捕捉投资决策的迭代本质。更严重的是,这些基准大多使用2021年前的历史数据,存在严重数据污染风险——研究显示,当测试GPT-5时(不使用搜索功能),模型能准确预测2021年AAPL股票走势,且模型响应与事实一致。这一现象揭示了数据污染的核心问题:若评估时间较早,模型可能获取了评估时本不应合理获得的未来信息,导致评估结果失真。

金融领域特别容易受数据污染影响,因为金融数据具有时间序列特性,历史数据与未来表现高度相关。当模型在训练过程中已学习到相关历史信息,其表现反映的不是预测能力,而是记忆能力。例如,若模型在训练时接触过2021年AAPL股票数据,那么在评估中"预测"该股票走势时,实际只是在"回忆"已学习的模式,而非进行真实预测。

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

现有金融基准对比

如上表现有金融基准对比所示,STOCKBENCH是唯一在"Market Simulation"、"Multi Month Horizon"、"Continuous Decision"、"Contamination Free"和"Direct Economic Value"五个关键维度全部满足的基准。现有9个金融基准中仅有2个包含市场模拟(INVESTORBENCH和FinSearchComp),且无一同时满足多月时间跨度和无污染数据要求。例如,INVESTORBENCH虽具备市场模拟和连续决策能力,但其评估窗口截止至2021年,无法避免数据污染问题;而FLUE、FinQA等主流基准则完全缺失市场模拟和连续决策要素,仅测试静态知识。

针对这些局限,STOCKBENCH基于三大核心原则设计,确保评估的真实性和可靠性。首先,真实市场互动原则要求智能体在动态市场环境中运作,接收实时价格变动和新闻事件。其次,连续决策原则要求智能体在多月时间跨度内做出序列化买卖决策,反映投资策略的迭代本质。最重要的是无污染数据原则,STOCKBENCH使用2025年3月至6月的最新市场数据,确保与主流LLM训练数据无重叠。通过聚焦近期时间窗口,STOCKBENCH模拟了真实场景中智能体只能基于当时公开信息做决策的约束,避免了类似"当测试GPT-5时,模型能准确预测2021年AAPL股票走势"的数据污染问题,确保评估结果真实反映模型的预测能力而非记忆能力。

静态知识与动态决策的断层

STOCKBENCH的核心发现是静态金融知识与动态交易能力之间存在显著断层。尽管LLM在金融问答基准上表现优异,但这种能力并不必然转化为有效的交易策略。这一断层在GPT-5的表现中尤为明显——尽管在金融QA基准上表现优异,但在STOCKBENCH中仅获得0.3%回报率,最大回撤-13.1%,Sortino比率0.0132,表现仅优于被动基线。

这一断层为何如此重要?因为金融交易不仅需要理解"市盈率是什么",还需要知道"当市盈率突然变化时该怎么做"。真实交易环境的复杂性在于:市场动态性导致信息价值随时间迅速衰减,噪声干扰使信号识别变得困难,而决策链的复杂性要求模型不仅理解知识,还需将其转化为适应动态环境的行动序列。这一发现挑战了"金融知识测试表现好即能做好交易"的常见假设,表明评估LLM金融能力必须超越静态知识测试,直接考察其在动态决策中的表现。

对算法工程师而言,这一断层揭示了当前LLM在将知识转化为行动方面的局限性;对投资决策者来说,这意味着不能仅凭模型在金融QA测试中的表现就信任其交易能力。正如素材中所揭示的,一个能通过CFA三级考试的AI,在真实市场中可能表现得像新手投资者一样手足无措。

STOCKBENCH的设计与实现

STOCKBENCH的回测环境精心构建以模拟真实股票交易场景。投资目标方面,研究者从道琼斯工业平均指数(DJIA)中选取权重最高的20只股票作为投资目标,确保覆盖科技、金融、制造等多元行业,避免因股票选择导致的结果波动。这些高权重DJIA股票代表全球股票市场,较少受短期非理性情绪驱动,同时信息透明度高,便于数据收集。

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

STOCKBENCH框架概览

如上图-STOCKBENCH框架概览所示,该基准包含回测基准数据集和将LLM转换为智能体的相关工作流程。交易智能体工作流程设计为四个关键阶段:首先进行投资组合概览,接收每只股票的相关数据,包括近期新闻、当前持仓、历史操作和开盘价;随后选择特定股票进行深入分析,获取市场资本化、市盈率和股息率等额外基本面数据;基于丰富上下文,为每只股票生成"增加"、"减少"或"持有"三种可能的操作决策;最后,系统将决策转化为基于开盘价的股份数量,验证决策是否在可用流动性范围内可执行,确保模拟符合零售投资者决策过程的约束。

市场数据方面,STOCKBENCH收集并保存包含关键定量信息的历史市场数据,为每只股票提供官方开盘价以及市值、市盈率(PE ratio)、股息率(dividend yield)和交易区间等基本面指标。这些信号为交易智能体提供公司健康状况和估值的可靠快照,支持知情决策。此外,STOCKBENCH构建新闻语料库,为股票提供市场叙事解读。每天收集过去48小时内发布的相关新闻文章,通过新闻搜索API获取并保留最相关的前5篇文章,平衡信息覆盖与计算成本。这一设计确保智能体获取及时、相关的市场信息,同时避免信息过载。

特别值得注意的是,执行验证阶段包含严格的流动性检查机制。如果智能体的决策超出可用流动性,系统会标记问题并要求智能体重新调整决策,直到可在可用资源范围内执行。这一设计确保了交易模拟的真实性,避免了不切实际的交易行为。"增加"、"减少"或"持有"三种操作决策比简单的"买入"、"卖出"更符合实际投资场景,因为它考虑了资金分配约束和投资组合再平衡需求,模拟了真实投资者在有限资金下的决策过程。

实验设计与评估指标

STOCKBENCH的实验设置严格遵循科学评估原则。评估周期设定为2025年3月3日至6月30日的四个月期间,共82个交易日,涵盖市场波动和趋势反转,同时确保数据与主流LLM知识截止日期之后,避免数据泄露。每个模型从10万美元现金和零持仓开始,每日开盘时做出交易决策。关键输入包括:过去七天持有的股票历史操作、过去48小时内最多五篇新闻文章,以及选定股票的基本面数据。

评估模型涵盖广泛的LLM类型,包括OpenAI的GPT-5、Anthropic的Claude-4等专有模型,以及Qwen3、Kimi-K2、GLM-4.5等开源模型。为确保结果可靠性,每个LLM智能体使用不同随机种子运行三次,报告平均性能。被动基线采用等权重买入持有策略,将初始资金平均分配到所有选定股票并在评估期结束前保持持仓不变,提供稳健的性能下限。

评估指标采用金融分析中广泛使用的三项核心指标。最终回报率衡量整体盈利能力,计算为投资组合价值从初始金额到最终金额的百分比变化。最大回撤量化投资组合价值从峰值到谷值的最大跌幅,提供下行风险测量。Sortino比率作为风险调整回报指标,仅惩罚下行波动,定义为超额回报除以下行偏差。这一指标在回报分布不对称时比Sharpe比率更合适,因为金融交易中的回报分布通常呈现非对称性——投资者对损失的敏感度远高于对收益的敏感度,而传统Sharpe比率同等对待上行和下行波动,无法准确反映风险厌恶型投资者的实际体验。

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

模型性能评估结果

如模型性能评估结果所示,综合排名公式为:。这一设计确保评估既考虑盈利能力,也关注风险控制能力,更全面地反映交易策略的优劣。特别值得注意的是,Sortino比率在金融决策中尤为重要,因为它聚焦于负面波动,直接反映了投资者最关心的下行风险,而这一特性在评估高风险金融交易策略时尤为关键。

关键实验结果

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

模型性能评估结果

如上表-模型性能评估结果所示,实验结果显示,多数LLM智能体仅能小幅超越被动基线,但确实展现出有限的盈利能力。被动基线实现0.4%的回报率,最大回撤-15.2%,Sortino比率为0.0155。相比之下,Kimi-K2实现1.9%回报率,Qwen3-235B-Ins达到2.4%,GLM-4.5获得2.3%,均小幅超越基线。表现较差的模型包括GPT-OSS-20B(-2.8%)和GPT-OSS-120B(-0.9%)。

对投资者而言,这些数字背后隐藏着重要的价值信息:以10万美元投资为例,Kimi-K2比被动基线多产生约1500美元回报,同时将最大回撤从-15.2%改善至-11.8%,意味着在市场下跌期间可能少损失3400美元。虽然绝对值看似不大,但在金融领域,这种"双优"表现——既提高收益又降低风险——正是专业投资者梦寐以求的。

静态金融知识与动态交易能力之间存在明显断层:尽管LLM在金融问答基准上表现优异,但这种能力并不必然转化为有效的交易策略。这一断层在GPT-5的表现中尤为明显——尽管在金融QA基准上表现优异,但在STOCKBENCH中仅获得0.3%回报率,最大回撤-13.1%,Sortino比率0.0132,表现仅优于被动基线。这与素材中"静态金融知识测试表现好不等于动态决策能力强"的核心发现高度一致,挑战了"金融知识测试表现好即能做好交易"的常见假设。

LLM智能体能够实现盈利,但优势有限,最佳回报率仅2.5%,表明当前技术在创造超额收益方面仍有局限。大多数测试模型的表现仅略优于被动买入持有基线,这一结果说明LLM智能体在金融交易中虽有潜力,但尚未达到革命性突破。

值得注意的是,所有测试模型的最大回撤均低于被动基线,最佳表现者Kimi-K2将最大回撤控制在-11.8%,相比基线的-15.2%明显改善,表明智能体能够有效缓解市场下跌期间的损失。对风险厌恶型投资者而言,这种风险控制能力可能比单纯的回报率提升更为重要。

影响LLM交易表现的关键因素

投资目标规模对LLM智能体表现有显著影响。当投资组合规模从5只股票扩大到30只时,所有模型表现均出现下降,表现为平均回报率降低和回报波动性增加。Kimi-K2在中等规模投资组合(10-20只股票)中保持相对稳定的回报风险特征,而GPT-OSS-120B则遭受严重性能下降和过度波动,表明模型规模与多资产决策环境中的泛化能力和稳定性正相关。

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

不同投资组合规模下的模型表现

如上表-不同投资组合规模下的模型表现所示,Kimi-K2在10只股票规模时达到最佳表现(3.2%回报率),但随着规模扩大到30只,回报率降至-0.5%。相比之下,GPT-OSS-120B在10只股票规模时表现良好(2.5%回报率),但在20只以上规模时急剧恶化,回报率变为负值。当投资组合规模从10只扩大到20只时,GPT-OSS-120B的回报标准差从0.4%激增至3.9%,变异系数达到惊人的10.2,表明其决策极度不稳定。这一发现对实际投资具有重要启示:中等规模投资组合(10-20只)可能是最优选择,它在分散风险与管理复杂度之间取得了平衡。过度分散投资组合(30只以上)可能导致模型性能显著下降,因为LLM处理过多股票信息时会面临上下文限制和决策复杂性挑战。

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

思考模型与指令模型错误分布

如上图-思考模型与指令模型错误分布所示,错误类型分析揭示了思考模型(Think)与指令模型(Instruct)的差异。算术错误是指智能体在基于预算和股价计算买卖股份数量时出错;模式错误则是指智能体未能遵循指定的JSON输出格式,导致解析失败。Qwen3-235B-THK在算术错误率为5.6%,显著低于Qwen3-235B-INS的8%;但在模式错误方面,Qwen3-235B-THK达到14.5%,远高于Qwen3-235B-INS的6.4%。这一现象与素材中指出的"思考模型倾向于过度思考并产生更复杂的输出,导致偏离预期格式"完全一致。思考模型在算术错误方面表现更好,这与其在数学推理任务中的出色表现一致。然而,在模式错误方面,思考模型错误率更高,说明其在遵循严格格式要求方面存在挑战。

从金融交易角度看,模式错误比算术错误更为危险:算术错误可能导致交易数量不精确,但系统仍可能部分执行交易;而模式错误会导致整个交易指令无法被系统解析,完全无法执行交易。在真实投资环境中,这种完全无法执行的情况可能导致错过关键交易窗口,造成更大损失。因此,尽管思考模型在数学计算方面更准确,但在需要严格遵循格式的金融交易场景中,指令模型可能更具优势。

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

模型回报方差分析

如上表-模型回报方差分析所示,模型决策稳定性分析显示,不同模型在交易决策中表现出显著差异。DeepSeek-V3的方差仅为0.074×10⁻⁴,是GPT-OSS-120B(10.19×10⁻⁴)的1/137,这一巨大差异凸显了模型稳定性对金融决策的关键影响。DeepSeek-V3展现出最小的性能波动,是所有测试模型中最稳定的;而GPT-OSS-120B的方差高达10.19×10⁻⁴,是DeepSeek-V3的137倍,表明其决策高度不可预测。

以10万美元初始投资为例,GPT-OSS-120B可能导致单日价值波动高达±3900美元,而DeepSeek-V3的波动仅约±270美元。在金融决策等高风险环境中,这种稳定性差异尤为重要——回报率波动过大的模型可能导致投资者难以建立信任,即使其平均回报率较高。金融机构通常更关注稳定性而非绝对回报率,因为剧烈波动可能触发风险控制机制,导致强制平仓等不利后果。因此,对风险厌恶型投资者而言,选择稳定性高的模型可能比追求高回报更为重要。

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

数据源消融实验结果

如上表-数据源消融实验结果所示,数据源重要性测试表明,新闻和基本面数据对交易决策至关重要。移除新闻后,Kimi-K2的累积回报率从1.9%降至1.4%;进一步移除基本面数据后,回报率进一步降至0.6%。GPT-OSS-120B对数据源移除更为敏感,移除新闻后表现无变化(-1.2%),但移除所有非价格数据后急剧恶化至-3.4%,表明其更依赖显式信号。这一发现证实,LLM智能体能够有效整合异构输入,将新闻中的文本信息与基本面中的数值指标结合,形成更全面的市场认知。

从实际投资角度看,0.5%的回报率差异看似微小,但对10万美元投资在4个月内意味着约500美元的差异。更值得注意的是,Kimi-K2对新闻的敏感性表明其可能更擅长处理文本信息,而GPT-OSS-120B对基本面数据的依赖则反映其在数值分析方面的优势。这一发现提示投资者可以根据模型特性优化数据输入:对擅长处理文本的模型提供更多新闻分析,对擅长数值计算的模型则强化基本面数据支持。

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

不同市场周期模型排名变化

如上图-不同市场周期模型排名变化所示,市场条件适应性分析显示,模型在不同市场环境中的表现差异显著。在下跌市场(2025年1-4月),所有LLM智能体均未能跑赢被动基线;而在上涨市场(2025年5-8月),多数LLM智能体表现优于基线。这与素材中"在下跌市场期间,所有LLM智能体均未能跑赢被动基线,而在上涨市场期间,大多数LLM智能体表现优于基线"的发现完全吻合。例如,GPT-OSS-120B在下跌市场排名垫底,但在上涨市场跃居首位,表明其更适合牛市条件。Kimi-K2则在两种市场条件下保持相对稳定的排名,显示其对市场波动的适应性。

这一发现揭示LLM在熊市中的决策能力存在明显短板,可能是因为市场恐慌情绪难以量化,趋势反转信号识别困难。对投资者而言,这意味着不应在所有市场条件下完全依赖LLM智能体,而应考虑构建混合策略:在牛市使用LLM智能体进行主动管理,在熊市则切换为被动策略或人工干预。同时,投资者应开发识别市场状态的机制,以便及时调整策略,避免在LLM表现不佳的市场环境中过度依赖自动化决策。

结论与启示

STOCKBENCH研究表明,LLM智能体在真实股票交易中展现出有限但真实的潜力,尤其在风险管理方面表现突出。然而,"静态金融知识测试表现好不等于动态决策能力强"这一核心发现尤为重要,挑战了行业对LLM金融能力的普遍认知。尽管LLM在FinQA等金融问答基准上表现优异,但在STOCKBENCH中,GPT-5仅获得0.3%回报率,最大回撤-13.1%,Sortino比率0.0132,表现仅优于被动基线。这一发现表明,真实交易需要将知识转化为适应动态市场环境的决策能力,而这正是当前LLM智能体的短板。

对研究者的启示在于,必须开发能真实评估动态决策能力的基准,而非仅测试静态知识。现有金融QA基准虽有用,但无法反映真实交易环境的复杂性和迭代本质。现有基准主要测试静态知识,但无法捕捉投资决策的迭代本质。未来研究应聚焦于构建更复杂的市场场景,包括极端市场条件、多资产类别和更长的评估周期。

对开发者而言:针对金融场景优化模型架构,特别是增强对非结构化文本的理解能力;在推理过程中加入严格的格式验证机制,减少模式错误;开发适应不同市场条件的模型切换机制,提高整体稳定性。特别值得注意的是,模型规模与多资产决策能力呈正相关,但稳定性可能比绝对规模更重要。

对投资者而言:将LLM智能体作为辅助工具而非完全依赖,特别是在市场下跌时;选择中等规模投资组合(10-20只股票),避免过度分散;优先考虑稳定性高的模型,而非仅关注平均回报率;根据模型特性定制数据输入,发挥其优势。投资者应认识到,当前LLM智能体在熊市中的表现存在明显短板,需要人工监督和干预。

STOCKBENCH将持续更新以避免与当代LLM训练语料重叠,推动金融LLM智能体向更稳健、适应性更强的方向发展。这一基准为开发真正能创造经济价值的金融AI提供了科学评估基础,标志着LLM智能体在真实金融场景应用评估的重要进步。

相关资讯

进化智能体 AlphaEvolve:科学发现与算法优化的新引擎

大家好,我是肆〇柒。 今天,我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。 这是一个由 Google DeepMind 开发的进化型编码智能体,它通过结合大型语言模型(LLM)和进化算法,为科学发现和算法优化带来了另外一种可能性。
5/23/2025 3:00:00 AM
肆零柒

多轮交互驱动的Text-to-SQL智能体

在大语言模型(LLM)风头正劲的当下,让普通用户用自然语言向数据库提问、自动生成 SQL 查询成为一种重要探索方向,即所谓 Text-to-SQL 技术。 尽管近年来已有不少成果,但在真实场景下,Text-to-SQL 仍存在一些挑战,尤其是在 多轮交互、宽表(很多列)查询、可解释性 等方面:用户常常不是一次性把完整问题说出来,而是一步步迭代补充、提出子问题数据库表可能列很多、关系复杂,模型在“选列”“join”“过滤条件”上容易出错模型直接给一个 SQL 字符串,往往不透明、难以调试与纠错这篇论文 “Interactive-T2S” 正是在这类痛点中切入,提出一种 交互式、多轮驱动 的 Text-to-SQL 框架,让模型在生成 SQL 的过程中向数据库“发问”、拉取信息,从而提高准确性与可解释性。 下面,我们从核心思路、方法设计、实验结果及未来展望四个层面解读。
10/24/2025 10:58:24 AM

用Ray观测和监控大语言模型工作负载

译者 | 布加迪审校 | 重楼前言GPT-4、PHI2、BERT和T5等大语言模型(LLM)的出现已彻底改变了自然语言处理,这些模型支持高端应用程序,包括聊天机器人、推荐系统和分析。 然而,LLM中工作负载的规模和复杂性使得保证性能和可靠性成了一大挑战。 在这种情况下,在使用Ray等框架部署工作负载的同时进行监控和观测显得非常必要。
1/27/2025 8:23:41 AM
布加迪
  • 1