AI在线 AI在线

AI炒股是新财富密码吗?——NeurIPS 25最新研究揭秘大模型实盘交易真相

引言近期,AlphaArena项目凭借AI量化交易的亮眼表现引爆市场,让“AI炒股”成为热议焦点,不少人将其视为新的财富密码。 但热潮之下,我们更需理性思考:当市场遭遇黑天鹅事件、波动超出历史数据范畴时,这些综合表现优异的大模型,能否真正展现出稳健的应变能力与决策韧性? 港科大广州数据智能与分析实验室(DIAL)与Paradoox AI的联合研究给出了关键答案,其论文已被NeurIPS 2025 DB Track 接收。

引言

近期,AlphaArena项目凭借AI量化交易的亮眼表现引爆市场,让“AI炒股”成为热议焦点,不少人将其视为新的财富密码。但热潮之下,我们更需理性思考:当市场遭遇黑天鹅事件、波动超出历史数据范畴时,这些综合表现优异的大模型,能否真正展现出稳健的应变能力与决策韧性?

港科大广州数据智能与分析实验室(DIAL)与Paradoox AI的联合研究给出了关键答案,其论文已被NeurIPS 2025 DB Track 接收。该研究不仅是今年6000余篇论文中唯一标题带有“investment”的AI+金融交叉方向研究,同时还夺得AI Agent 2025 大赛最佳开源项目奖。研究团队跳出传统回测的局限,通过创新的实时基准测试工具,首次在真实市场环境中检验了顶尖LLM的基金投资能力,揭示了AI在动态金融市场中的真实面貌。

AI炒股是新财富密码吗?——NeurIPS 25最新研究揭秘大模型实盘交易真相

题目: Time Travel is Cheating: Going Live with DeepFund for Real-Time Fund Investment Benchmarking预印本链接:https://arxiv.org/abs/2505.11065

代码链接:https://github.com/HKUSTDial/DeepFund

研究背景:回测陷阱下的AI投资迷思

大型语言模型(LLMs)已在金融领域展现出强大实力,从财报摘要、业绩电话会议分析到资产分类,均能高效完成任务。但这些能力能否转化为真实投资中的盈利,始终缺乏严谨的验证。

现有评估体系(例如很多静态Benchmark评测)存在致命缺陷:过度依赖历史数据回测。由于LLM的预训练语料库可能覆盖了测试期的市场信息,模型实则在“复述”已知的市场事件,而非真正预测未来,这种“时间旅行”式的信息泄露,让回测结果严重失真。不同LLM的知识截止日期各异,如GPT-4o截至2023年10月,DeepSeek-V3延伸至2024年7月,在旧数据上的回测无异于让模型“开卷考试”。

众所周知,金融市场的本质是不可预测的,宏观时局、政策变动、突发事件等都可能打破历史规律,此时LLM的实时决策能力、风险控制水平才是关键。本篇工作正是为了填补这一空白,在无信息泄露的真实环境中,检验LLM的投资硬实力。

AI炒股是新财富密码吗?——NeurIPS 25最新研究揭秘大模型实盘交易真相

DeepFund框架:打造真实市场的AI投资试炼场

为解决回测陷阱问题,研究团队推出DeepFund实时基金基准测试工具。该工具的核心优势在于跳出历史数据局限,通过模拟真实投资场景实现对LLM的无偏评估。其核心设计简洁高效:采用实时正向测试模式,接入权威数据源的动态金融数据,且所有评估数据均在LLM知识截止日期之后,从根源杜绝信息泄露;搭建多智能体协同流程,模拟人类投资团队分工,覆盖任务分配、多维度分析到最终决策与风控的全流程;内置统一接口支持9个顶尖LLM参与测试,通过标准化参数设置保障实验公平性。

AI炒股是新财富密码吗?——NeurIPS 25最新研究揭秘大模型实盘交易真相

实盘实验:24个交易日的极限考验

为检验LLM在真实市场的实战能力,研究团队设计了覆盖剧烈波动期的严格实验,模拟最贴近现实的投资挑战。

•投资标的:选取伯克希尔·哈撒韦2025年一季度前五大持仓(苹果、美国运通等),贴合价值投资场景;

•初始资金:每个LLM管理10万额度的初始现金流;

•交易周期:2025年3月17日至4月17日(24个交易日),精准覆盖FOMC会议、美国关税政策波动两大关键事件,测试模型应对黑天鹅的能力;

•评估指标:采用累积回报率、夏普比率、最大回撤等核心金融指标,全面衡量盈利性与风控水平。

AI炒股是新财富密码吗?——NeurIPS 25最新研究揭秘大模型实盘交易真相

实验期间,DeepFund系统共生成4320个分析信号和1080个交易决策,有效信号占比96%、有效决策占比98%,充分证明框架的可靠性。整个实验通过LangGraph构建智能体工作流,基于PostgreSQL云数据库存储数据,总成本仅约100美元,具备极强的可复现性。

关键实验结果

多数LLM折戟实盘,仅1款实现正收益

AI炒股是新财富密码吗?——NeurIPS 25最新研究揭秘大模型实盘交易真相

真实市场的残酷远超回测想象。实验结果显示,绝大多数顶尖LLM在实盘交易中遭遇净亏损,凸显了主动型基金管理的巨大挑战。仅有xAI的Grok 3 mini Beta脱颖而出,实现1.1%的正累积回报率。

AI炒股是新财富密码吗?——NeurIPS 25最新研究揭秘大模型实盘交易真相

值得注意的是,在3月FOMC会议后市场平稳期,所有LLM均取得正收益;但当4月关税政策引发黑天鹅事件时,模型表现瞬间分化——DeepSeek-V3遭受14.5%的最大回撤,而Grok凭借稳健策略成功抵御波动。与“买入并持有”的被动策略相比,多数LLM的主动管理表现更差,印证了被动策略在市场剧烈波动时的韧性优势。

信号质量决定决策上限,模型风格差异显著

AI炒股是新财富密码吗?——NeurIPS 25最新研究揭秘大模型实盘交易真相

在信号生成层面,不同LLM展现出截然不同的风格:Grok倾向于输出方向性明确的看涨或看跌信号,对政策和技术分析保持谨慎态度,市场平稳期则偏向乐观;而DeepSeek-V3严重偏好“中性”信号,过度谨慎导致错失关键市场机会。两者的共同局限是未能预测到4月9日的股价大幅飙升,显示出LLM在识别市场反转信号方面仍有明显短板。

交易“个性”凸显,稳健策略战胜激进投机

AI炒股是新财富密码吗?——NeurIPS 25最新研究揭秘大模型实盘交易真相

通过分析投资组合演变,研究发现LLM呈现出鲜明的交易“个性”:

•Grok 3 mini Beta:如同审慎的专业基金经理,初始仅投入40%现金,始终保持60%左右的高现金储备,具备极强的风险抵御能力;偏好能源、消费品行业的多元化配置,采用低频交易、长期持有的价值投资风格,最大回撤仅5.5%,在市场反弹时能及时加仓获利。

•DeepSeek-V3:则类似激进的高频散户,初始投入近90%现金,现金储备始终低于40%;仓位集中于能源和金融板块,缺乏多元化保护,采取高频交易、追逐动量的策略;在市场下跌时因缺乏现金灵活性无法止损,最终遭遇重大亏损。

这一结果印证了投资领域的经典法则:在熊市或波动市场中,现金为王,稳健的风控与多元化配置远比激进投机更能实现长期盈利。

研究结论与启示

DeepFund作为首个将实时基准测试引入基金投资领域的工具,不仅提供了标准化的LLM评估范式,更通过实证研究揭示了AI投资的核心真相:LLM在处理结构化金融任务时能力突出,但在真实市场的动态决策、风险控制、黑天鹅应对等方面仍存在显著局限。尽管AlphaArena等项目展现了AI量化交易的潜力,但DeepFund的研究提醒我们,理性看待AI投资的边界至关重要。对于投资者而言,不应视AI为“财富密码”,而应将其作为辅助决策的工具,结合自身风险承受能力与市场判断,形成人机协同的投资模式。此项研究成果被NeurIPS 2025接收,彰显了团队在AI+金融领域的前沿探索实力。目前项目代码已开源,为行业研究提供了重要参考。

作者团队介绍

本文第一作者李昌伦,共同一作石爻,均是香港科技大学(广州)数据科学与分析学域博士生。通讯作者骆昱宇教授,长期深耕DATA+AI数智融合方向,包括数据为中心的人工智能(Data-centric AI, DCAI)、大模型智能体(Foundation Agents)、数据智能体(Data Agents)、智能数据库系统(AI for Databases)等。

相关资讯

搞 AI,孩子必须学好数学:马斯克 Altman 罕见达成一致,LeCun / Jeff Dean 等 31 位大佬签署联名信

【新智元导读】基础数学已经被拔高到研究 AI 的必经之路!UC 伯克利教授发起最新倡议,31 位 AI 大佬共同签署联名信,马斯克和 Altman 竟达成一致。就在刚刚,UC 伯克利 EECS 教授 Jelani Nelson 联合发起了一个倡议,强调「坚实的数学基础对人工智能至关重要」。地址:「虽然 Elon Musk 和 Sam Altman 最近在很多问题上都有分歧,但他们都认同,AI 的构建是以代数和微积分等坚实的数学基础为支撑的。」目前,已经有 31 位业内大佬在上面签署了自己的名字。要想搞好 AI,就必
3/7/2024 9:56:48 PM
清源

NeurIPS 2024 Workshop 科学基础模型: 进展, 机遇, 挑战

Workshop背景人工智能 (AI) 和机器学习 (ML) 在科学领域的应用代表了传统科学发现方法的重大转变。几个世纪以来,探索自然世界的过程遵循着系统和逻辑的方法。然而,人工智能和机器学习技术的出现,正在深刻改变现代基础科学的发现方式。这种变化对于促进跨学科交流、激发创新的解决方案,并最终提高科学界应对现代科学中最紧迫和复杂问题的能力至关重要。与此同时,经过大量多样化数据集训练的基础模型,在计算机视觉和自然语言处理等任务中展示了强大的适应性。这些模型,例如语言模型 GPT-4 和图像文本处理模型 CLIP,通过
7/20/2024 3:30:00 PM
新闻助手

AI加速优化求解,达摩院连续两年获求解器全国赛事冠军

以“AI 优化求解器”助力能源绿色转型,达摩院自研“敏迭”求解器连续获得权威赛事冠军。 1月17日消息,达摩院自主研发的“敏迭”求解器在工信部产业发展促进中心组织的第二届能源电子产业创新大赛上,再次斩获“国产求解器技术专题赛”冠军。 这是继近期入选工信部“人工智能赋能新型工业化”典型应用案例后的又一殊荣。
1/21/2025 10:12:00 AM
新闻助手
  • 1