引言
近期,AlphaArena项目凭借AI量化交易的亮眼表现引爆市场,让“AI炒股”成为热议焦点,不少人将其视为新的财富密码。但热潮之下,我们更需理性思考:当市场遭遇黑天鹅事件、波动超出历史数据范畴时,这些综合表现优异的大模型,能否真正展现出稳健的应变能力与决策韧性?
港科大广州数据智能与分析实验室(DIAL)与Paradoox AI的联合研究给出了关键答案,其论文已被NeurIPS 2025 DB Track 接收。该研究不仅是今年6000余篇论文中唯一标题带有“investment”的AI+金融交叉方向研究,同时还夺得AI Agent 2025 大赛最佳开源项目奖。研究团队跳出传统回测的局限,通过创新的实时基准测试工具,首次在真实市场环境中检验了顶尖LLM的基金投资能力,揭示了AI在动态金融市场中的真实面貌。

题目: Time Travel is Cheating: Going Live with DeepFund for Real-Time Fund Investment Benchmarking预印本链接:https://arxiv.org/abs/2505.11065
代码链接:https://github.com/HKUSTDial/DeepFund
研究背景:回测陷阱下的AI投资迷思
大型语言模型(LLMs)已在金融领域展现出强大实力,从财报摘要、业绩电话会议分析到资产分类,均能高效完成任务。但这些能力能否转化为真实投资中的盈利,始终缺乏严谨的验证。
现有评估体系(例如很多静态Benchmark评测)存在致命缺陷:过度依赖历史数据回测。由于LLM的预训练语料库可能覆盖了测试期的市场信息,模型实则在“复述”已知的市场事件,而非真正预测未来,这种“时间旅行”式的信息泄露,让回测结果严重失真。不同LLM的知识截止日期各异,如GPT-4o截至2023年10月,DeepSeek-V3延伸至2024年7月,在旧数据上的回测无异于让模型“开卷考试”。
众所周知,金融市场的本质是不可预测的,宏观时局、政策变动、突发事件等都可能打破历史规律,此时LLM的实时决策能力、风险控制水平才是关键。本篇工作正是为了填补这一空白,在无信息泄露的真实环境中,检验LLM的投资硬实力。

DeepFund框架:打造真实市场的AI投资试炼场
为解决回测陷阱问题,研究团队推出DeepFund实时基金基准测试工具。该工具的核心优势在于跳出历史数据局限,通过模拟真实投资场景实现对LLM的无偏评估。其核心设计简洁高效:采用实时正向测试模式,接入权威数据源的动态金融数据,且所有评估数据均在LLM知识截止日期之后,从根源杜绝信息泄露;搭建多智能体协同流程,模拟人类投资团队分工,覆盖任务分配、多维度分析到最终决策与风控的全流程;内置统一接口支持9个顶尖LLM参与测试,通过标准化参数设置保障实验公平性。

实盘实验:24个交易日的极限考验
为检验LLM在真实市场的实战能力,研究团队设计了覆盖剧烈波动期的严格实验,模拟最贴近现实的投资挑战。
•投资标的:选取伯克希尔·哈撒韦2025年一季度前五大持仓(苹果、美国运通等),贴合价值投资场景;
•初始资金:每个LLM管理10万额度的初始现金流;
•交易周期:2025年3月17日至4月17日(24个交易日),精准覆盖FOMC会议、美国关税政策波动两大关键事件,测试模型应对黑天鹅的能力;
•评估指标:采用累积回报率、夏普比率、最大回撤等核心金融指标,全面衡量盈利性与风控水平。

实验期间,DeepFund系统共生成4320个分析信号和1080个交易决策,有效信号占比96%、有效决策占比98%,充分证明框架的可靠性。整个实验通过LangGraph构建智能体工作流,基于PostgreSQL云数据库存储数据,总成本仅约100美元,具备极强的可复现性。
关键实验结果
多数LLM折戟实盘,仅1款实现正收益

真实市场的残酷远超回测想象。实验结果显示,绝大多数顶尖LLM在实盘交易中遭遇净亏损,凸显了主动型基金管理的巨大挑战。仅有xAI的Grok 3 mini Beta脱颖而出,实现1.1%的正累积回报率。

值得注意的是,在3月FOMC会议后市场平稳期,所有LLM均取得正收益;但当4月关税政策引发黑天鹅事件时,模型表现瞬间分化——DeepSeek-V3遭受14.5%的最大回撤,而Grok凭借稳健策略成功抵御波动。与“买入并持有”的被动策略相比,多数LLM的主动管理表现更差,印证了被动策略在市场剧烈波动时的韧性优势。
信号质量决定决策上限,模型风格差异显著

在信号生成层面,不同LLM展现出截然不同的风格:Grok倾向于输出方向性明确的看涨或看跌信号,对政策和技术分析保持谨慎态度,市场平稳期则偏向乐观;而DeepSeek-V3严重偏好“中性”信号,过度谨慎导致错失关键市场机会。两者的共同局限是未能预测到4月9日的股价大幅飙升,显示出LLM在识别市场反转信号方面仍有明显短板。
交易“个性”凸显,稳健策略战胜激进投机

通过分析投资组合演变,研究发现LLM呈现出鲜明的交易“个性”:
•Grok 3 mini Beta:如同审慎的专业基金经理,初始仅投入40%现金,始终保持60%左右的高现金储备,具备极强的风险抵御能力;偏好能源、消费品行业的多元化配置,采用低频交易、长期持有的价值投资风格,最大回撤仅5.5%,在市场反弹时能及时加仓获利。
•DeepSeek-V3:则类似激进的高频散户,初始投入近90%现金,现金储备始终低于40%;仓位集中于能源和金融板块,缺乏多元化保护,采取高频交易、追逐动量的策略;在市场下跌时因缺乏现金灵活性无法止损,最终遭遇重大亏损。
这一结果印证了投资领域的经典法则:在熊市或波动市场中,现金为王,稳健的风控与多元化配置远比激进投机更能实现长期盈利。
研究结论与启示
DeepFund作为首个将实时基准测试引入基金投资领域的工具,不仅提供了标准化的LLM评估范式,更通过实证研究揭示了AI投资的核心真相:LLM在处理结构化金融任务时能力突出,但在真实市场的动态决策、风险控制、黑天鹅应对等方面仍存在显著局限。尽管AlphaArena等项目展现了AI量化交易的潜力,但DeepFund的研究提醒我们,理性看待AI投资的边界至关重要。对于投资者而言,不应视AI为“财富密码”,而应将其作为辅助决策的工具,结合自身风险承受能力与市场判断,形成人机协同的投资模式。此项研究成果被NeurIPS 2025接收,彰显了团队在AI+金融领域的前沿探索实力。目前项目代码已开源,为行业研究提供了重要参考。
作者团队介绍
本文第一作者李昌伦,共同一作石爻,均是香港科技大学(广州)数据科学与分析学域博士生。通讯作者骆昱宇教授,长期深耕DATA+AI数智融合方向,包括数据为中心的人工智能(Data-centric AI, DCAI)、大模型智能体(Foundation Agents)、数据智能体(Data Agents)、智能数据库系统(AI for Databases)等。