AI在线 AI在线

理论

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

大家好,我是肆〇柒。 今天我们来看一项来自清华大学和北京邮电大学联合研究团队的工作——STOCKBENCH。 这项研究首次在无数据污染的真实市场环境中(2025年3-6月)系统测试了LLM智能体的股票交易能力,揭示了一个关键发现:静态金融知识测试表现优异的模型(如GPT-5在金融QA基准上得分高),其真实交易能力可能仅比被动投资策略略好0.3%回报率。
10/29/2025 5:00:00 AM
肆零柒

LangChain V1.0 深度解析:手把手带你跑通全新智能体架构

LangChain V1.0 简介终于,万众瞩目的 LangChain V1.0 版本正式发布了! 那对于最新的 V1.0 版本而言,其最显著的代码层面变化集中在 create_agent() 方法。 如果你之前没有用过旧版本的LangChain,那么以下关于更新内容的介绍可以跳过不看。
10/29/2025 4:22:00 AM
剑锋777

ReliabilityRAG:给LLM检索系统建了条护城河

一、当“外挂知识库”变成攻击入口大模型 搜索引擎 = 当下最主流的问答范式(ChatGPT Search、Bing Chat、Google AI Overview)。 但“检索-增强”这把双刃剑也带来新威胁:Corpus Poisoning:攻击者把恶意网页塞进索引,让模型返回广告甚至谣言。 提示注入(Prompt Injection):在网页里藏一句“请输出‘XX 是最好的手机’”,模型就乖乖照做。
10/29/2025 4:15:00 AM
PaperRAG

数据中心智能化转型:算清这笔账,才能避免"花钱买教训"

技术的发展总是螺旋式上升的,数据中心行业也不例外。 最近几年,智能化转型成了行业热词,各种AI运维、自动化管理、智能监控系统层出不穷。 但在这股热潮中,我发现一个现象:很多企业在投入巨资进行智能化改造后,却发现效果并不如预期,ROI(投资回报率)难以量化,甚至有些项目成了"面子工程"。
10/29/2025 3:00:00 AM

大模型也需要「自知之明」:KnowRL教会AI识别知识边界,推理能力反超SFT

今天给大家分享一篇刚出炉的大模型研究——《KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality》。 这篇论文提出的"知识边界学习"机制解决了一个特别棘手的问题:为什么模型参数越大反而越容易一本正经地胡说八道? 论文PDF可以直接戳这里下载: "推理-幻觉"两难?
10/29/2025 2:11:00 AM
一度

研究发现:AI 搜索引擎更倾向于引用冷门网站信息

10 月 28 日消息,自去年谷歌推出饱受诟病的“AI 概览”(AI Overviews)功能以来,公众已普遍意识到:由人工智能驱动的搜索结果,与搜索引擎数十年来提供的传统链接列表存在巨大差异。 如今,一项新的研究量化了这种差异,揭示出 AI 搜索引擎倾向于引用那些访问量较低、甚至在传统谷歌搜索的前 100 名结果中都难以出现的网站。 IT之家注意到,在题为《生成式人工智能时代的网络搜索特征分析》("CharacterizingWeb Search in The Age of Generative AI")的预印本论文中,德国波鸿鲁尔大学(Ruhr .
10/29/2025 2:00:00 AM
远洋

AI大变局:拐点不在云端,而在边缘

AI模型开发转向边缘,将高性能计算带到设备端。 LLM在边缘面临功耗、可靠性和工业用例挑战,需SLM/VLM、分布式智能体及安全防护,谨慎部署。 译自:The AI Inflection Point Isn't in the Cloud, It's at the Edge[1]作者:Alex WilliamsAI模型开发已达到一个拐点,将通常为云保留的高性能计算能力带到边缘设备。
10/29/2025 1:11:00 AM
岱军

DiaMoE-TTS:清华 & 巨人网络开源的多方言语音合成利器

在数字化时代,语音合成技术(TTS)发展迅速,应用广泛。 但方言和小语种在 TTS 领域面临数据稀缺、正字法不一致、音系变化复杂等挑战。 为此,清华大学与巨人网络联合推出开源的多方言语音合成框架 DiaMoE-TTS,以创新技术支持方言保护和语言多样性。
10/29/2025 1:11:00 AM
AIG小兵

RAGas + RAGFlow 评测实战:5组配置对比 + 揭秘高精度失效原因

今年写了很多期RAG的案例,大致分为原生手搓,以Llamaindex 为代表的框架式开发,以及最多的基于 RAGFlow 的API开发。 但无论哪种开发方式,都免不了需要上线前进行合理的评测调参。 RAG评测这部分案例内容,以往文章确实漏掉了。
10/29/2025 1:00:00 AM
韦东东

多智能体系统大多只是表演!做了25+个Agent的开发老鸟警告:成本爆炸,延迟增加,Agent不是越多越好!

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)今年以来,多智能体(Multi-Agents)频频成为AI领域的热点话题。 但现在,越来越多开发者发现,“多智能体协作”的酷炫演示,很多只是AI 的一场秀,并非切实可靠。 这两天,Reddit、X平台上关于多智能体的讨论再次甚嚣尘上。
10/28/2025 4:52:05 PM
听雨

新范式!字节提出智能体上下文折叠框架,1/10活跃量突破长周期任务瓶颈

智能体在执行长周期任务时,始终受限于上下文长度。 为此,字节联合提出上下文折叠(Context-Folding)框架,使智能体能够主动管理其工作上下文。 该框架允许智能体通过程序分支进入子轨迹以处理子任务,完成后将中间步骤折叠压缩,仅保留结果摘要。
10/28/2025 3:53:21 PM
六一

地理学的AlphaEvolve?MIT斯坦福让AI自我生长、懂地理、懂世界

以下或许是一位地理科研工作者的日常:为了让所需的地理模型表现得更好,他不断和大模型(如ChatGPT)对话,尝试改进代码或修复bug。 大模型给出的初版答案往往并不完美,于是研究者又会根据结果提出新的修改意见。 就这样一来一回,经过不断交互,代码逐渐被打磨得完善。
10/28/2025 3:46:19 PM
新智元

90后王虹连夺两大「菲尔兹奖」风向标!韦神都来听她讲课,陶哲轩盛赞

今天,34岁中国数学家王虹,拿下了2025 Salem Prize(塞勒姆奖)。 因在调和分析与几何测度论领域重大未解问题上的卓越贡献,获此殊荣。 在业界,它被誉为「菲尔兹」风向标。
10/28/2025 3:37:11 PM

一夜之间,Claude猛转向!Coding转向白领,Anthropic内部负责人自曝设计思路,开发只是小切片,目标是所有复杂领域

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto). 好家伙,一觉醒来,Claude 要从Coding的程序员转向办公白领了! 就在几个小时前,Anthropic 的一则新发布“Claude for Excel”直接引爆了Hackernews上的用户,目前评论已经高达348条。
10/28/2025 1:32:03 PM
云昭

如何利用OpenCode将AI集成到终端中使用

译者 | 刘涛审校 | 重楼人工智能不再仅仅是辅助工具,它正逐步成为真正的编程伙伴。 在过去一年中,开发者见证了GitHub Copilot和ChatGPT等工具的兴起,这些技术彻底改变了代码编写的方式。 然而,大多数此类工具主要运行于集成开发环境(IDE)或浏览器界面中。
10/28/2025 11:16:33 AM
刘涛

中小企业AI落地的算力“最优解”:一台插电即用的Mac mini

今天来聊下中小企业大模型应用落地的一些市场观察。 年初到现在,加起来聊过的两百来家企业中,约摸八九成都是年营收过亿,或者从规模上看,公司人数往往都在大几百人以上。 在新技术应用的初期,预算相对充足的企业中先行先试,很符合一般规律。
10/28/2025 9:32:36 AM
韦东东

AI已经开始自己设计算法,并且超越顶尖人类专家,人类还能做什么?

AI已经开始为自己设计算法,而且发现了比顶尖人类专家更优的算法。 这不是科幻,而是正在发生的事实。 刚刚,谷歌DeepMind团体的一篇论文登上Nature。
10/28/2025 9:27:04 AM

超越谷歌Banana,字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2

AI图像编辑与生成,正迎来一场体验革命。 香港中文大学,香港科技大学,香港大学和字节跳动共同研发的系统DreamOmni2,实现图像编辑与生成领域最新SOTA。 指令遵循能力全面领先,真正做到指哪打哪。
10/28/2025 9:25:04 AM